Neue Anti-Hatespeech-Software soll durch Wikipedia-Beiträge ausgelöst werden

Böse Wikipedia-Postings sollen Filter befeuern

Die Wikimedia Foundation und die Google-Mutter Alphabet planen die Entwicklung einer Anti-Hatespeech-Software welche auf Basis von Diskussionseinträgen mit persönlichen Angriffen arbeiten soll. Hierbei sollen vor allem böse Wikipedia-Postings als Ausgangsbasis dienen. Durch die Nutzung von Filtern soll die Software in der Lage sein, Hasskommentare und andere verletzende Äußerungen aufzuspüren und zu bekämpfen. Mit dieser Initiative möchten die Unternehmen dazu beitragen, das Internet zu einem sichereren und respektvolleren Ort zu machen.


Das Projekt basiert auf einem gigantischen Datensatz aus insgesamt weiterhin als 115․000 Nachrichten die auf den Wikipedia-Diskussionsseiten gepostet wurden. Im Rahmen eines Crowdsourcings mussten menschliche Prüfer untersuchten, ob diese persönliche Angriffe enthielten, ebenso wie sie die Wikipedia-Gemeinschaftsstandards definieren.

Die Forscher konnten die so gewonnenen Daten dann verwenden um Algorithmen aus dem Bereich des maschinellen Lernens zu füttern. Die sind mittlerweile fast so gut wie menschliche Crowdworker, behaupten Wikimedia Foundation & Jigsaw. Die Software wurde bereits auf die komplette Sammlung aus über 63 Millionen Postings losgelassen, die welche Wikipedia-Redakteure in den letzten Jahren erstellt haben. Dabei ergab sich; dass nur bei einem von zehn persönlichen Angriffen ebenfalls ein Moderator eingriff.

Jigsaw und Wikimedia Foundation sind nicht die ersten die Hassbotschaften im Internet untersuchen ? und auch Softwareansätze gibt es bereits eine ganze Reihe. Doch die "Nastygramm"-Sammlung die mittels Crowdsourcing erstellt wurde ist in ihrem Umfang und ihrer Breite bislang einzigartig wie der Datenforscher Ellery Wulczyn von der Wikimedia Foundation sagt. Und ebendies solche Informationen brauche es – um die Algorithmen zu inspirieren.

Wulczyn schätzt, dass die Sammlung persönlicher Angriffe und negativer Kommentare aus der Wikipedia zwischen 10 und 100 Mal größer ist als bisher verfügbare Datenbestände. Und je mehr Daten vorhanden sind – desto genauer lassen sich Algorithmen trainieren und Filter optimieren.

Mehr dazu bei Technology Review Online:
  • Mit Daten gegen Trolle

Zuletzt aktualisiert am Uhr





Kommentare


Anzeige