System erkennt Twitter-Bots sprachunabhängig!

Tom Wannenmacher, 17. Juni 2019
Artikelbild: Shutterstock / Von Worawee Meepian
Artikelbild: Shutterstock / Von Worawee MeepianArtikelbild: Shutterstock / Von Worawee Meepian

Hilfreiches finnisch-schwedisches System enttarnt englische Maschinen-Tweets leicht! Um Twitter optimal für Big-Data-Analysen zu nutzen, wäre es günstig, die automatisierten Nachrichten von Bots selbstständig und sprachunabhängig zu filtern.

Skandinavische Forscher haben nun eine Anwendung entwickelt, die einen großen Schritt in Richtung eben dieses Ziels darstellt. Denn mit schwedischen und finnischen Daten trainiert, kann das System englische Tweets mit 98,2-prozentiger Genauigkeit als menschlich oder maschinell einstufen.

Daten-Säuberung

Für Forscher von Soziologen über Politologen bis hin zu Ökonomen, sind soziale Medien wie Twitter gewaltige Datenquellen. Ein Problem ist dabei aber, dass geschätzte 20 bis 25 Prozent der Tweets von Bots stammen und damit für die Forschung oft eigentlich störendes Rauschen sind. Die neue Anwendung verspricht nun die Möglichkeit, dieses Rauschen vergleichsweise effizient herauszufiltern. „Das verbessert die Datenqualität und zeichnet ein genaueres Bild der Realität“, sagt Mikko Laitinen, Englisch-Professor an der Universität Ostfinnland  .

Für die Entwicklung des Systems hat er mit Maschinenlern-Spezialisten der Linné-Universität zusammengearbeitet. Ein wesentliches Anliegen der Forscher war dabei, dass die Lösung nicht nur für Tweets in einer Sprache beurteilen kann, ob sie von echten Menschen oder Bots stammen, sondern möglichst sprachunabhängig funktioniert.

Das Team hat daher jeweils 5.000 finnische und schwedische Tweets genutzt, um die Lösung zu trainieren. Bei einem Satz von 5.000 englischen Tweets konnte die Anwendung dann tatsächlich mit sehr hoher Genauigkeit feststellen, was von einem Bot stammte und was nicht – obwohl sie dazu eher einfach auf bestimmte Metadaten setzt.

Mehrsprach-Training

Laitinen und seine Kollegen wollen nun testen, wie gut sich das System bei anderen Sprachkombinationen macht – etwa, wenn es mit Finnisch und Englisch trainiert wird und dann schwedische Tweets evaluieren soll.

Die Experten gehen auch davon aus, dass noch mehrsprachigere Trainingsdatensätze die Bot-Erkennung in einer unbekannten Sprache weiter verbessern. Das möchten die Forscher ebenfalls testen, zunächst mit zwei bis drei zusätzlichen Sprachen im Trainingsdatensatz.

Quelle:


Hinweis: Dieser Inhalt gibt den Stand der Dinge wieder, der zum Zeitpunkt der Veröffentlichung aktuell
war. Die Wiedergabe einzelner Bilder, Screenshots, Einbettungen oder Videosequenzen dient zur
Auseinandersetzung der Sache mit dem Thema.

  • Mit deiner Hilfe unterstützt du eine der wichtigsten unabhängigen Informationsquellen zum Thema Fake News und Verbraucherschutz im deutschsprachigen Raum. Ein unabhängiges und für jeden frei zugängliches Informationsmedium ist in Zeiten von Fake News, aber auch Message Control besonders wichtig. Wir sind seit 2011 bestrebt, allen Internetnutzern stets hochwertige Faktenchecks zu bieten.  Dies soll es auch langfristig bleiben. Dafür brauchen wir jetzt deine Unterstützung!

Mehr von Mimikama