Abschlussarbeit
Datenschutzkonforme Spam-Erkennung: Untersuchung der Generierung synthetischer E-Mails für das Modelltraining
Betreuer
Thesis: Masterarbeit
Die Erkennung von Spam und Phishing erfordert große Mengen an Trainingsdaten; doch echte E-Mails enthalten oft sensible Informationen, deren Nutzung datenschutzrechtlich problematisch ist. Diese Arbeit untersucht, wie synthetische Datengenerierung (z.B. mit Generativer KI oder klassischen Methoden) genutzt werden kann, um realistische, aber anonymisierte “Ham”-E-Mails (legitime Nachrichten) zu erzeugen. Das Ziel: Spam-Erkennungsmodelle verbessern, ohne echte Nutzerdaten zu gefährden.
Was wirst Du tun?
- Synthetische Daten generieren: Experimentieren mit Techniken wie GANs, LLMs oder regelbasierten Ansätzen, um realistische E-Mails zu erzeugen.
- Datenschutz sicherstellen: Entwickelung/Verwendung von Methoden, um sicherzustellen, dass die generierten Daten keine Rückschlüsse auf echte Nutzer zulassen (z.B. durch Differential Privacy oder Anonymisierung).
- Modelle trainieren und evaluieren: Vergleich der Leistung von Spam-Klassifikatoren, die mit synthetischen vs. echten Daten trainiert wurden.
- Praktische Anwendbarkeit prüfen: Analysieren, ob synthetische Daten eine valide Alternative zu sensiblen Trainingsdaten darstellen.
Voraussetzungen
Erforderlich
- Grundlegendes Verständnis von künstlicher Intelligenz und maschinellem Lernen, z.B. Autoencoder oder GANs (abgeschlossener Kurs Grundlagen der Künstlichen Intelligenz)
- Kenntnisse in Natural Language Processing Techniken
- Programmierkenntnisse in mindestens einer gängigen Sprache (vorzugsweise Python)
- LaTeX-Kenntnisse
Optional
- Kurse belegt:
- Internet-Technologie & Web Engineering
- Fortgeschrittene Methoden des maschinellen Lernens
- Sicherheit in Kommunikationsnetzen
- Kenntnisse über Evaluationsmetriken für KI-Modelle
- Grundlagenwissen über Datenschutz/datenschutzfreundliche Techniken
- Grundlagenwissen zu Spam- und Phishing-Prinzipien