Was ein Chatbot nicht weiß

… macht einen Chatbot nicht heiß – er erfindet einfach eine Antwort. Wie das funktioniert, ob das so bleibt und was ChatGPT uns sonst noch verschweigt? Ein FAQ

10.10.2023
- Internet
7 Min.

Alle reden drüber, aber was ist ChatGPT eigentlich?

Eine künstliche Intelligenz, genauer: ein Chatbot. Er kann beinahe alles schreiben, was Menschen bisher mühevoll erarbeiten mussten: Hausaufgaben, Gedichte, Songtexte, Zeitungsartikel. Und sogar flirten. Allerdings: Über die Qualität lässt sich streiten.

Wie funktioniert das?

ChatGPT generiert seine Textantworten mithilfe eines sogenannten neuronalen Netzwerks. Das ist vom menschlichen Gehirn inspiriert: Miteinander verbundene Knoten (Neuronen) verarbeiten Informationen und leiten sie zwischen den Schichten des Netzes weiter. Jeder Knoten empfängt Eingaben von anderen, führt an diesen Eingaben eine einfache mathematische Operation durch, leitet das Ergebnis an einen Knoten der nächsten Schicht … und immer so weiter. So wird ein Satz für die KI zu einer „Zeichenkette“, in der sie Muster erkennt, die sie imitiert.

Dann sagt ChatGPT nur voraus, welches Wort in der Antwort am wahrscheinlichsten auf das vorangegangene folgt?

Es ist technisch sehr viel komplexer, aber im Grunde: ja. Die Abkürzung „GPT“ steht für „Generative Pretrained Transformer“. Das Netzwerk wird also zunächst mit Text trainiert. So lernt es, wie Sprache funktioniert, zum Beispiel die Unterschiede zwischen geschriebener und gesprochener oder in welcher Form man auf welche Frage antwortet. Technischer ausgedrückt: Sprachmodelle werden in der Vorhersage von Zeichenketten trainiert, bis sie sehr gut die Wahrscheinlichkeit eines Tokens (das kann ein Wort sein, aber auch ein Satzzeichen oder nur eine Vorsilbe) vorhersagen können, um menschliche Antworten zu imitieren.

Welche Informationen nutzt ChatGPT, um zu antworten?

Horrende Datenmengen. Wir sprechen über ein sogenanntes Large Language Model (LLM), das mit Milliarden Büchern, Artikeln, Websites und Posts gefüttert wurde. Die stammen unter anderem aus dem kostenlosen „Common Crawl“-Datensatz. Sogenannte Crawler haben dafür über Jahre das Internet durchsucht, um Informationen zu extrahieren und in einem gemeinnützigen Index zu speichern. Blogger:innen, Content-Creator:innen, Verlage oder Foren-Nutzer:innen kritisieren das, weil der Chatbot sich ihre Arbeit zu eigen macht, ohne die Urheber:innen zu entlohnen oder zu nennen.

Die KI gibt Antworten, die plausibel klingen, aber immer auf ungenauen oder falschen Informationen basieren oder in falsche Zusammenhänge gestellt sein können

OpenAI, das kalifornische Unternehmen hinter der Software, veröffentlicht nicht, welche Daten es genau für das Training der KI nutzt und wie die Daten weiterverarbeitet werden. Was wir wissen: Die Trainingsdaten, auf die ChatGPT gerade zugreift, reichen nur bis 2021 zurück. Angeblich ist ein Update geplant, das nicht nur den Index aktualisiert, sondern auch neue Sprachen und 3-D-Ausgaben ermöglicht.

Erfindet ChatGPT Informationen?

Ja. Die KI gibt Antworten, die plausibel klingen, aber immer auf ungenauen oder falschen Informationen basieren könnten oder in falsche Zusammenhänge gestellt sein. Nach wissenschaftlichen „Belegen“ befragt, antwortet ChatGPT zum Beispiel manchmal mit neu zusammengestellten Quellen, die es in der Form nicht gibt. Zwar hat die KI weder ein Bewusstsein noch die Absicht, Menschen hinters Licht zu führen. Aber sie ist auch nicht programmiert, die Wahrheit zu sagen und seine Wissenslücken transparent zu machen. Das Ergebnis kann wahr sein, muss es aber nicht.

Gibt es Dinge, die ChatGPT nicht sagen darf?

OpenAI hat Sperren eingebaut. Zum Beispiel antwortet der Bot nicht auf manche strafrechtlich relevante Frage (Wie baut man eine Bombe?) und meist unentschieden auf moralische Fragen. Das Internet ist aber voll mit Möglichkeiten, die Sperren zu umgehen. Deshalb fordern einige Expert:innen eine noch stärkere Regulierung.

Überwacht jemand die Dialoge mit ChatGPT?

Laut eigener Aussage beschäftigt OpenAI sogenannte Reviewer:innen: Menschen, die die Qualität der Antworten des Chats bewerten. Und deren Angemessenheit. Denn die KI lernt aus den Datensätzen auch unerwünschte Verhaltensmuster, durch den Fokus der Crawler auf Twitter, Reddit oder Wikipedia schauen sich die Bots auch Rassismus, Frauenfeindlichkeit oder Hatespeech aus dem Internet ab. Um der KI zu helfen, schädliche Texte und Bilder zu klassifizieren, setzt OpenAI auch Klickarbeiter:innen ein.

Was ist Klickarbeit?

Klickarbeiter:innen labeln Datensätze und überprüfen dabei zum Beispiel, ob eine Software Darstellungen und Text richtig erkennt. Einige zeigen und beschreiben belastendes Material wie Missbrauch oder Folter. Das „Time Magazine“ hat recherchiert, dass die Klickarbeiter:innen, die an der Entwicklung von ChatGPT beteiligt sind, oft in Ländern mit geringen Arbeits- und Lebensstandards leben. Viele nehmen die belastende Arbeit in Kauf, weil andere Jobs noch schlechter bezahlt werden. Die Arbeitsbedingungen zu überprüfen ist schwer: Mit welchen Dienstleistern es arbeitet, welche Stichproben die Reviewer:innen zu sehen bekommen und wonach sie bewerten, das alles verrät OpenAI nicht.

Laut Schätzungen kostet es mindestens 700.000 US-Dollar am Tag, ChatGPT überhaupt zu betreiben, und schon ein kurzes Gespräch mit dem Chatbot soll einen halben Liter Wasser verbrauchen

Warum ist das alles so intransparent?

Bis vor kurzem setzten die meisten Chatbots auf sogenannte regelbasierte Software. Heißt: Jede Antwort des Bots folgte menschengemachten Regeln. Dadurch waren die Dialoge schematischer, weniger „natürlich“, aber die Antworten waren leichter zu kontrollieren. Das ist bei ChatGPT ungleich schwieriger: Das neuronale Netz hinter ChatGPT soll 175 Milliarden Parameter haben. Diese Komplexität macht es nahezu unmöglich, nachzuvollziehen, welchen Weg eine Antwort durch das Netz genommen hat. Trainingsdatensets wie „Common Crawl“ sind unübersichtlich groß. Und OpenAI erklärt nicht, wie es den Datensatz genau für die Entwicklung von ChatGPT genutzt oder gefiltert hat. Kein Wunder: Solche Informationen sind wesentlich für die Entwicklung von KI, bleiben also in der Regel Geschäftsgeheimnisse.

Lässt sich das politisch reglementieren?

Schon, aber meist hinken Gesetze dem Stand der Technologie hinterher. Im Juni wurde der Entwurf der KI-Verordnung vom Europäischen Parlament verabschiedet. Laut der soll die Herkunft der Trainingsdaten künftig offengelegt werden müssen. Der Gesetzentwurf wurde gemischt aufgenommen: Manche begrüßen die strenge Regulierung, anderen ist sie wegen vieler Ausnahmen noch zu lasch. Manche sorgen sich, dass es KI-Anbietern auf dem europäischen Markt zu schwer gemacht wird, andere kritisieren, dass sich KI-Firmen bereits zu sehr in die Erstellung des Gesetzes eingemischt hätten.

Wie kann es sein, dass ChatGPT nichts kostet?

ChatGPT kostet in der Basisversion nichts. Aber wie so oft bei digitalen Produkten zahlen Nutzer:innen mit sich selbst: Die Daten bei der Anmeldung und vor allem die kognitive Arbeit im Dialog mit dem Bot werden zur Entwicklung genutzt. Außerdem kann man im Chat die Antworten bewerten, das hilft OpenAI zusätzlich. Dazu kommen ausgelagerte Kosten. Modelle dieser Komplexität verbrauchen Datenspeicher und damit Energieressourcen in einer Größenordnung, die sich nur wenige Unternehmen überhaupt leisten können. Laut Schätzungen kostet es mindestens 700.000 US-Dollar am Tag, ChatGPT überhaupt zu betreiben, und schon ein kurzes Gespräch mit dem Chatbot soll einen halben Liter Wasser verbrauchen.

Gibt es transparentere Alternativen?

So natürlich wie ChatGPT dürfte derzeit keine Sprach-KI klingen. Aber es gibt Alternativen, auch transparentere. Zum Beispiel von Huggingface, deren Name auf das Unicode-Emoji für eine Umarmung (🤗) zurückgeht. Die US-Firma bietet Open-Source-KI an. Darunter ein Sprachmodell, HuggingChat, das im Unterschied zu den Technologieriesen wie Microsoft oder Google nicht auf riesige Datenmengen aus dem Internet setzt: Huggingface lässt die Trainingsdaten von Muttersprachler:innen kuratieren.

Illustration: Renke Brandt

Dieser Text wurde veröffentlicht unter der Lizenz CC-BY-NC-ND-4.0-DE. Die Fotos dürfen nicht verwendet werden.