DIREKTKONTAKT
Mit dem Absenden dieses Formulars erklären Sie sich mit unserer Datenschutzerklärung einverstanden.

Dipl.-Ing. Jürgen Novotny
fon +49 (0) 2242 915 424
email jn@vivia.de

Was bedeutet KI-Toxizität?

Was bedeutet KI-Toxizität?

KI-Toxizität beschreibt das Phänomen, dass Künstliche Intelligenz mitunter problematische, schädliche oder beleidigende Inhalte generiert. Darunter fallen Wörter, Sätze oder ganze Texte, die zum Beispiel Hass, Diskriminierung, Beleidigung, Gewaltaufrufe oder andere unangemessene Aussagen enthalten. Das Problem entsteht, weil KI-Modelle, etwa Chatbots oder automatische Textgeneratoren, mit sehr großen Datenmengen aus vielen Internetquellen (unter anderem auch sozialen Medien) trainiert werden. Wie wir alle selbst wissen, gibt es in diesen Daten jedoch auch viele Beispiele für toxische Sprache – etwa Vorurteile, Hasskommentare oder Manipulation.

Wenn diese Muster unbemerkt und ungefiltert von der KI übernommen werden, kann sie solche Inhalte in Antworten oder Texten wiedergeben. Zum Beispiel könnte ein Chatbot auf eine harmlose Nutzerfrage plötzlich herablassend, rassistisch oder sexistisch reagieren, weil er toxische Formulierungen aus den Trainingsdaten gelernt hat. Auch in Kommentarspalten, auf Foren oder sozialen Plattformen kann eine ungefilterte KI dadurch gezielt beleidigende Posts vorschlagen oder verstärken. Ein wichtiger Begriff ist der der sogenannten „Echokammern“, den wir später ausführlicher erklären.

Was ist KI-Toxizität? Eine Erklärung.

Bildprompt für Midjourney: J. Novotny

Ein typisches Beispiel wäre ein Chatbot für einen Kundenservice, der auf unhöfliche, diskriminierende oder ausgrenzende Weise auf bestimmte Anfragen reagiert, weil die Trainingsdaten negativ geprägt waren oder keine Schutzmechanismen eingebaut wurden. Dadurch fühlen sich Nutzer angegriffen, verletzt oder ausgeschlossen. Man kann sich gut vorstellen, dass auch der Ruf des Unternehmens darunter erheblich leiden kann.

Um KI-Toxizität zu vermeiden, werden bei der Entwicklung Filtersysteme, Inhaltsprüfungen und ständige Tests eingesetzt. Die Entwickler achten darauf, sowohl die Trainingsdaten besser zu säubern als auch spätere KI-Antworten automatisch zu prüfen und bei problematischen Inhalten zu blockieren oder manuell zu überprüfen. Ziel ist es immer (oder sollte es immer sein), dass KI-Systeme Menschen respektvoll, sicher und diskriminierungsfrei begegnen.

Studien legen allerdings nahe, „dass kleine Anpassungen an bestehenden Plattformen nicht ausreichen werden, um eine gesündere Diskussionskultur zu etablieren. Ein grundlegendes Umdenken der Mechanismen von Sichtbarkeit und Interaktion ist notwendig“. (Mindverse)

Quellen:
Toxizität in KI (Automation Anywhere)
Strukturelle Herausforderungen der Toxizität in sozialen Medien: Erkenntnisse aus einer KI-Simulation (Mindverse)