Deep Learning zur Klassifizierung von Hate Speech: Zwischenergebnisse des NOHATE Forschungsprojekts
Das Ziel des dreijährigen Verbundprojekts NOHATE ist es, Hasskommunikation in Sozialen Medien, Online-Foren und Kommentarbereichen auf seine (Früh-)Erkennbarkeit, Ursachen und Dynamiken sowie auf potentielle Deeskalationsmöglichkeiten zu untersuchen und praktisch anwendbare, softwaregestützte Handlungsoptionen zu entwickeln. Eine mehrdimensionale Fallstudie für das Themenfeld "Flüchtlinge, Migration, Ausländer" soll dafür Datenmaterial und ein experimentelles Handlungsfeld bereitstellen.
Partner des Verbundprojekts sind neben der Freien Universität Berlin, die Beuth Hochschule für Technik Berlin und die VICO Research & Consulting GmbH. Gefördert wird das Projekt vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen der Fördermaßnahme "Zusammenhalt stärken in Zeiten von Krisen und Umbrüchen".
Weitergehende Informationen zu dem Forschungsprojekt findet ihr hier.
Deep Learning bringt Maschinen das Lernen bei und nutzt dabei neuronale Netze. Es eignet sich besonders bei sehr großen Datenmengen und die Performance nimmt mit der Menge der Daten zu. Auch bei der Erkennung und Bekämpfung von Hate Speech wird immer wieder künstliche Intelligenz als eine Art Wundermittel genannt. Aber die Nutzung ist nicht unproblematisch, da bei Hate Speech der Kontext so essentiell ist und sich selbst Menschen bei der Einordnung schwer tun.
Multi-Label-Datensatz mit 225.000 “toxischen” Kommentaren analysiert
Welche Kommentare hat das NOHATE Forschungsprojekt untersucht? Der Datensatz der Kaggle.com-Challenge von Google Jigsaw ist englischsprachig und aufgrund der Menge wesentlich besser als deutschsprachige Datensätze für die Forschung geeignet. Er verfügt über 225.000 Onlinekommentare, die allesamt darauf untersucht wurden, ob sie "toxisch" sind. Etwa 24.000 Kommentare fielen in eine von sechs "toxischen" Kategorien: toxic, severe toxic, insult, obscene, threat und identity hate.
Doch was genau ist ein toxischer Kommentar?
„A rude, disrespectful, or unreasonable comment that is likely to make you leave a discussion“
Das ist nicht genau das, was viele unter Hate Speech verstehen, aber genau das, was viele von ihren Plattformen entfernt haben wollen. Von daher sind die dahinter liegenden technischen Ansätze übertragbar.
An manchen toxischen Kommentaren scheitern alle Modelle
Betty van Aken stellte fest, dass alle getesteten Modelle bei einigen Situationen konsequent scheitern. Um besser zu verstehen warum dies der Fall ist, wertete sie 200 falsch klassifizierte Kommentare manuell aus. Dabei unterteilten sie die Ergebnisse in “falsch negative Diagnose” und “falsch positive Diagnose”.
Die häufigsten Fehlerquellen sind: Schimpfwörter als zu starkes Signal, fragwürdige Labels, seltene / falsch geschriebene / Slang-Wörter, rhetorische oder suggestive Fragen, Metaphern, Vergleiche, Zitate, Referenzen, Sarkasmus und Ironie.
Die häufigsten Fehlerquellen bei False Negative
- 50 Prozent sind falsch klassifizierten Kommentare: toxische Kommentare ohne Schimpfwörter, Beispiel: „She looks like a horse“
- 30 Prozent sind seltene / falsch geschriebene /Slang-Wörter
- 23 Prozent sind fragwürdige Labels, die zitiert und dann kommentiert werden, Beispiel “No matter how upset you may be there is never a reason to refer to another editor as “an idiot””
- 21 Prozent sind rhetorische oder suggestive Fragen, Beispiel: „Hast du kein Gehirn?“
- 16 Prozent sind Metaphern und Vergleiche
- 11 Prozent sind Sarkasmus und Ironie
Die häufigsten Fehlerquellen bei False Positive
- 60 Prozent sind nicht-toxische Kommentare mit Schimpfwörtern, Beispiel: “Entschuldigung, ich bin ein Idiot”
- 53 Prozent sind fragwürdige Labels
- 17 Prozent sind Zitate /Referenzen, Beispiel: „I deleted the jews are dumb comment“
- 8 Prozent sind seltene / falsch geschriebene /Slang-Wörter
Diese Fehlerquellen waren teils vorauszusehen, teils überraschend. Es braucht eine bessere Einordnung des Kontexts in Embeddings, die Trainingsdaten müssen erweitert werden, z.B. auf falsch geschriebene Wörter und fragwürdige Labels. Es bleibt ein spannendes und dynamisches Forschungsfeld. NOHATE stellt sich weiter diesen Herausforderungen.
Ensemble Learning: Kombinierte Classifier erzielen die besten Resultate
Das NOHATE Forschungsprojekt hat sechs verschiedene technische Ansätze, sogenannte Classifier, getestet. Der “Classifier Bidirectional Recurrent Neural Network” in Kombination mit “Attention” hat sich als stärkster Classifier in dieser wissenschaftlichen Untersuchung erwiesen. Weitere getestete Classifier heißen Recurrent Neural Networks (RNN), Bidirectional RNNs und Convolutional Neural Networks. Pretrained Word Embeddings und Subword Embeddings sind zusätzliche Methoden, die genutzt wurden.
Die Classifier können Sequenzen von Wörtern erfassen, Wörter einordnen etc.
Jedoch hat jedes Modell unterschiedliche Stärken und Schwächen und jedes macht unterschiedliche Fehler. Die Eigenschaft eines Kommentars entscheidet, welcher Classifier sich am besten eignet.
Fazit ist, dass sie in der Kombination am stärksten sind und das Ensemble in der Lage ist, individuelle Modellfehler auszugleichen (“Ensemble Learning”). Jedoch scheitern sie alle in den oben genannten Situationen.
Hier findet ihr die vollständigen Studien-Ergebnisse "Challenges for Toxic Comment Classification: An In-Depth Error Analysis" zum weiterlesen.
Risiken beim Einsatz von Deep Learning
Je kleiner die Datensätze, umso schlechter die Performance von Deep Learning. Deshalb ist die Nutzung bei rein deutschsprachigen Datensätzen noch viel fehleranfälliger als bei englischen. Wozu dann überhaupt Deep Learning zur Erkennung von Hate Speech nutzen? "Die Maschine kann dazu dienen, die Stecknadel in einem Heuhaufen zu finden“ meinte einer der Teilnehmenden während der Diskussion dieser Zwischenergebnisse. De facto unterstützt künstliche Intelligenz bereits in vielen Fällen das Erkennen von Hate Speech auf Plattformen, Medienseiten etc. Allerdings ist es aktuell immer noch der Mensch, der die Entscheidung treffen muss, ob es sich um eine Stecknadel handelt.
Besonders in Österreich wird künstliche Intelligenz von vielen Medienhäusern bei der Erkennung von Hasskommentaren genutzt. „Wenn man das falsch implementiert, kann man seine ganze Nutzerschaft kaputt machen“ meinte einer der teilnehmenden Journalisten und ergänzte: “Es hat sich bewährt personell aufzustocken, um mit möglichst vielen Personen aktiv in möglichst relevante Diskussion reinzugehen“ und man müsse unbedingt offen kommunizieren, dass maschinelle Unterstützung vorhanden sei, um die eigene Glaubwürdigkeit zu stärken. Denn es sei wie bei der Fabel mit Hase und Igel: “Leser*innen merken genau, was man tun müsse, um die Maschine auszutricksen”.
Deep Learning ist mitten in der Entwicklung und auch von “active learning” ist viel die Rede. Auch das aktive Lernen muss kritisch begleitet werden, denn die Classifier können auch diskriminierend und einseitig lernen und agieren. Letztendlich wird immer wieder deutlich, wie entscheidend die Denkmuster aller beteiligten Menschen sind.
Hanna Gleiß
(sie/ihr) Co-Gründerin / Co-Geschäftsführerin