reveal.js

Wie sich Hate Speech auf Social Media reduzieren lässt

Jana Lasser     |     jana.lasser@tugraz.at     |     @janalasser

TU Graz

Institut für interaktive Systeme und Data Science

Hate speech und counter speech

Hate speech: Beleidigungen, Drohungen und bewusste Desinformationen über Menschen mit anderen politischen oder religiösen Überzeugungen, Geschlecht, sexueller Orientierung, Aussehen, oder kultureller, nationaler und geografischer Herkunft.

Counter speech: Strategie, um hate speech zu begegnen, indem eine alternative Darstellung präsentiert wird, anstatt hate speech zu zensieren.

Illustrationen: Stable Diffusion Online, 2023.

Welche counter speech Strategien sind am effektivsten?

Ein "natürliches" Experiment

Beispieltweets werden verfälscht und anonymisiert wiedergegeben um die Identität der Postenden zu schützen.

Gibt es hate speech nur auf Twitter?

Die Verfügbarkeit von Daten bestimmt, was erforscht wird.

Wie misst man die Effektivität von counterspeech?

Automatische Klassifizierung

Wie "trainiert" man eigentlich so ein machine learning Modell?

Wie man ein "large language model" trainiert

Woher kommt der kleine Datensatz mit Labels?

Trainingsdaten werden von Menschen gemacht

Selbst Menschen sind sich oft nicht einig

Allgemein gilt für maschinelles Lernen:

Menschliche Biases reproduzieren sich in Trainingsdaten.

Und was hilft jetzt gegen hate speech?

Überzeugte Trolle wird counter speech kaum davon abbringen, Hass zu verbreiten.

Wir verstehen als Ziel von counter speech, den Dialog so "gesund" zu halten, dass "neutrale" Menschen weiter daran teilnehmen.

Drei Indikatoren für "Effektivität"

Reduktion von hate speech: Hass in Tweets wird mit einem eigens dafür trainierten machine learning Modell gemessen.

Reduktion von Toxizität: eine unhöfliche, respektlose oder unangemessene Bemerkung, die jemanden dazu bringen könnte, eine Diskussion zu verlassen. Messung mit Perspective API von Google.

Reduktion von politischer Extremität: Extremität von Usern wird mit einem eigens dafür trainierten machine learning Modell gemessen.

Illustrationen: Stable Diffusion Online, 2023.

Artikel "Collective moderation of hate, toxicity, and extremity in online discussions" als Preprint verfügbar. Aktuell unter Begutachtung.

Einfluss von Unsicherheit auf Ergebnisse

Für jeden Tweet bekommen wir eine Wahrscheinlichkeit, dass er eine bestimme Strategie beinhaltet.

Wir können für eine gegebene Strategie sagen, dass sie im Mittel besser gegen hate speech hilft als andere.

Wir können keine Aussagen über die Wirkung einzelner Tweets treffen.

Fazit

Wir können Social Media Plattformen als Allgemeingut verstehen das Raum für öffentlichen Diskurs bietet und zu dem alle User beitragen.

Manche User zerstören das Allgemeingut mit Desinformation oder hate speech. Manche User tragen mit interessantem Inhalt oder counter speech zum Allgemeingut bei.

Präsenz zeigen und die eigene Meinung sagen ohne beleidigend zu sein scheint immer positiv zu wirken. Sarkasmus zu einem gewissen Grad auch.

Konstruktive Kommentare haben gemischte Effekte. Beleidigungen wirken immer negativ.

Fragen?

Jana Lasser     |     jana.lasser@tugraz.at     |     @janalasser     |     @janalasser@mastodon.social

TU Graz

Institut für interaktive Systeme und Data Science