Abschlussarbeit

Datenschutzkonforme Spam-Erkennung: Untersuchung der Generierung synthetischer E-Mails für das Modelltraining

Betreuer

Malte Josten, M.Sc.

Thesis: Masterarbeit

Die Erkennung von Spam und Phishing erfordert große Mengen an Trainingsdaten; doch echte E-Mails enthalten oft sensible Informationen, deren Nutzung datenschutzrechtlich problematisch ist. Diese Arbeit untersucht, wie synthetische Datengenerierung (z.B. mit Generativer KI oder klassischen Methoden) genutzt werden kann, um realistische, aber anonymisierte “Ham”-E-Mails (legitime Nachrichten) zu erzeugen. Das Ziel: Spam-Erkennungsmodelle verbessern, ohne echte Nutzerdaten zu gefährden.

Was wirst Du tun?

Synthetische Daten generieren: Experimentieren mit Techniken wie GANs, LLMs oder regelbasierten Ansätzen, um realistische E-Mails zu erzeugen.
Datenschutz sicherstellen: Entwickelung/Verwendung von Methoden, um sicherzustellen, dass die generierten Daten keine Rückschlüsse auf echte Nutzer zulassen (z.B. durch Differential Privacy oder Anonymisierung).
Modelle trainieren und evaluieren: Vergleich der Leistung von Spam-Klassifikatoren, die mit synthetischen vs. echten Daten trainiert wurden.
Praktische Anwendbarkeit prüfen: Analysieren, ob synthetische Daten eine valide Alternative zu sensiblen Trainingsdaten darstellen.

Voraussetzungen

Erforderlich

Grundlegendes Verständnis von künstlicher Intelligenz und maschinellem Lernen, z.B. Autoencoder oder GANs (abgeschlossener Kurs Grundlagen der Künstlichen Intelligenz)
Kenntnisse in Natural Language Processing Techniken
Programmierkenntnisse in mindestens einer gängigen Sprache (vorzugsweise Python)
LaTeX-Kenntnisse

Optional

Kurse belegt:
- Internet-Technologie & Web Engineering
- Fortgeschrittene Methoden des maschinellen Lernens
- Sicherheit in Kommunikationsnetzen
Kenntnisse über Evaluationsmetriken für KI-Modelle
Grundlagenwissen über Datenschutz/datenschutzfreundliche Techniken
Grundlagenwissen zu Spam- und Phishing-Prinzipien

Verteilte Systeme

Fakultät für Informatik