Abschlussarbeit

Evaluation der Effektivität von Feature-Extraktionsmethoden in der Spam- und Phishing-Erkennung

Betreuer

Malte Josten, M.Sc.

Thesis: Bachelor-/Masterarbeit

Spam- und Phishing-Angriffe stellen nach wie vor ein großes Problem in der heutigen digitalen Kommunikation dar und verursachen jährlich Millardenschäden. Um diese Bedrohungen effektiv zu erkennen, sind robuste (Machine-Learning-) Modelle erforderlich. Die Leistung dieser Modelle hängt jedoch stark davon ab, wie wir die Textdaten repräsentieren. Und hier kommt die Feature-Extraktion ins Spiel.

Diese Arbeit untersucht, wie sich verschiedene Techniken der Feature-Extraktion (z.B. Chargrams, einzelne Wörter oder Sentence-Embeddings) auf die Wirksamkeit der Erkennung von Spam und Phishing auswirken. Durch den Vergleich ihrer Stärken, Schwächen und Performance wollen wir herausfinden, welche Methoden für bestimmte Szenarien am besten geeignet sind und warum.

Was wirst Du tun?

Experimentieren mit Feature-Extraktion: Implementieren und Evaluieren von Methoden wie N-Gramme, Wort-Einbettungen und Sentence-Embeddings (siehe Abb. 1).
Modelle aufbauen und vergleichen: Trainieren und Testen von traditionellen und/oder ML-basierten Klassifikatoren (z. B. Naive Bayes, SVMs, Neuronale Netze) mit den extrahierten Merkmalen und Analyse der Klassifikationsergebnisse.
Trade-offs identifizieren: Rechenkosten und -aufwand, Interpretierbarkeit und Genauigkeit jedes Ansatzes verstehen und vergleichen.

Abbildung 1: Eine Auswahl an Feature-Extraktions-Methoden (Salman et al., 2024)

Voraussetzungen

Erforderlich

Grundlegendes Verständnis von künstlicher Intelligenz und maschinellem Lernen (abgeschlossener Kurs Grundlagen der Künstlichen Intelligenz)
Kenntnisse in Natural Language Processing Techniken, z.B. Text-Klassifizierung und Techniken für Feature-Extraktion
Programmierkenntnisse in mindestens einer gängigen Sprache (vorzugsweise Python)

Optional

Kurse belegt:
- Internet-Technologie & Web Engineering
- Fortgeschrittene Methoden des maschinellen Lernens
- Sicherheit in Kommunikationsnetzen
Kenntnisse über Evaluationsmetriken für KI-Modelle
LaTeX-Kenntnisse

Verteilte Systeme

Fakultät für Informatik