Was machen Algorithmen mit Texten?

Laut einer neuen Studie des Massachusetts Institute of Technology (MIT)
sind die zehn am häufigsten verwendeten KI-Datensätze durch fehlerhafte Testdaten verfälscht. Dabei handelt es sich um Datensätze,
die zur automatisierten Erkennung visueller, sprachlicher und auditiver Signale verwendet werden. Diese Fehler verzerrten
die Vorstellung davon, wie weit die Technologie künstlicher Intelligenz tatsächlich fortgeschritten sei, wie die
Wissenschaftsjournalistin Karen Hao in einem Artikel für die Technology Review schreibt.

Diese Erkenntnis ist deshalb so brisant, weil jene Datensätze die Grundlage für KI-Forschung bilden.
So ergab die Studie, dass das Datenset ImageNet, das zur automatisierten Bilderkennung verwendet wird
und weit verbreitet ist, eine geschätzte Fehlerquote von 5,8 Prozent aufweist. Dabei sind viele Objekte
in der Datenbank schlicht falsch markiert.

Für ihre Studie nutzten die MIT-Forscher Curtis G. Northcutt, Anish Athalye und Jonas Mueller selbst künstliche Intelligenz:
Mithilfe von Machine Learning überprüften sie die Datensätze auf ihre Richtigkeit. Sobald die automatisierte Erkennung
von dem ursprünglichen Label des Datensatzes abwich, wurde der Datenpunkt markiert und von einem Menschen überprüft.
So gelang es, die fehlerhaften Datensätze schrittweise zu verbessern.

Im Vergleich schnitten die korrigierten Datensätze schließlich sogar besser ab als weitaus komplexere Datenmodelle,
iv eine adäquate Datenhygiene sein kann. Nur so lässt sich verhindern, dass sich fehlerhafte
(und nicht zuletzt auch diskriminierende) Daten als Grundlage für KI-Anwendungen in zukünftige Technologien einschreiben.