Eine wissenschaftliche Studie scheint zu belegen: ChatGPT macht immer mehr schwere Fehler und verliert an Leistungsfähigkeit. Dafür könnte es zahlreiche Gründe geben.

© Franz26 auf Pixabay

Zu Jahresbeginn 2023 überschlug sich die Welt in der Beurteilung des neuen Sprachmodells ChatGPT der kalifornischen KI-Schmiede OpenAI. Die Aussichten dafür, die so plötzlich zur Verfügung stehenden neuen Möglichkeiten in zahllosen Gebieten gewinnbringend einzusetzen, schienen nahezu grenzenlos. Und die Reaktionen der "generativen KI" waren verblüffend menschenähnlich, treffsicher und schnell, sieht man von gelegentlichen "Halluzinationen" ab, wenn das Modell keine ausreichenden Daten für eine Antwort vorfand und daher einfach selbst welche "erfand".

Doch seit Sommerbeginn mehren sich die Stimmen, dass die Qualität der Antworten teils dramatisch abnehme und insgesamt die Leistungsfähigkeit von ChatGPT spürbar abnehme. Eine  wissenschaftliche Studie der Eliteuniversitäten Stanford und Berkeley scheint dies nun auch zu bestätigen: so sank zB. die Erkennungsrate von ChatGPT4 bei Primzahlen von fast 98% im März auf nur mehr etwas über 2% im Juni 2023. Auch in anderen Aufgabenstellungen verschlechterten sich die Leistungen des Textroboters zum Teil deutlich. 

Die KI-Welt beginnt an ChatGPT zu zweifeln

Erste Kritiker halten die Nutzung von ChatGPT daher bereits für nicht mehr zuverlässig, weil man sich auf ein bestimmtes Verhalten verlassen muss. Bei ChatGPT wird - im Gegensatz zu Meta's Llama-Modell - nicht offengelegt, wie das Modell intern funktioniert und mit welchen Daten es trainiert wird. Dadurch würden mögliche Änderungen im Modell über die Zeit nicht erkennbar und veränderte Antworten wären die logische Folge.

Für zahlreiche Unternehmen, deren Geschäftsmodell auf der Nutzung von "Large Language Models" wie ChatGPT aufbauen, sind das keine guten Nachrichten, denn mit Veränderungen der Qualität des Tools hängt direkt auch ihr eigener Geschäftserfolg zusammen. Aber auch für den einfachen Nutzer bedeutet dies, dass er künftig die Ergebnisse seiner Anfragen noch genauer prüfen muss, um nicht Falschmeldungen zu verbreiten oder fehlerhafte Informationen zu benutzen.

Was könnten die Gründe für ChatGPTs Leistungsrückgang sein?

OpenAI äußert sich bisher nur zurückhaltend zu dem Phänomen und meint, dass den Nutzern durch die intensive Beschäftigung mit dem Werkzeug nun eben Fehler auffallen, die auch vorher schon bestanden, sie aber einfach nicht bemerkt hätten.

Ein weiterer möglicher Grund könnte sein, dass der Betrieb von ChatGPT nicht nur horrende Mengen Energie verbraucht, sondern v.a. exorbitante Kosten verursacht. Deshalb vermutet man, OpenAI würde nun vereinfachte Rechenmodelle einsetzen, um Kosten zu sparen, was sich natürlich in der Qualität der Antworten bemerkbar machen könnte.

Ein ganz wesentlicher Grund wird aber gerne übersehen, der den "Large Language Models" quasi als "Geburtsfehler" mit in die Wiege gelegt ist. Diverse Studien warnen vor dem doppelten Problem, vor dem diese Modelle stehen: 

Zunehmend "verseuchte" Trainigsdaten

Die Trainingsdaten der Sprachmodelle werden zunehmend mit künstlichen Inhalten "verschmutzt", denn sie greifen zum Training, auf dessen Qualität die Ergebnisse zentral aufbauen, (auch) auf frei im Internet verfügbare Quellen zurück. Da immer mehr Menschen KI zur Textgenerierung auch für Ihre Websites nutzen, ist es logisch, dass sich darunter zunehmend Daten wiederfinden, die bereits selbst von einem KI-Modell erzeugt wurden - und dies mehrfach und immer öfter. Es entsteht eine Art "Daten-Inzest".

Bereits nach wenigen Trainingsdurchläufen sinkt die Qualität der Ergebnisse dramatisch. Studien sprechen von einem Rückgang von 99%iger Überzeugungskraft von KI-Texten auf nur mehr 56%. Auch bei Bildgenerierung besteht das gleiche Phänomen: so wurden Handschriften mit KI generiert und die Ergebnisse erneut als Trainingsinput verwendet. Bereits nach wenigen Durchläufen war von menschlicher Handschrift nichts mehr erkennbar. Das Problem: die zugrundeliegenden Modelle selbst ändern sich, sie vergessen, wie etwas geht, wenn sie mit den eigenen Daten gefüttert, ja "vergiftet" werden. 

Mangel an Trainingsdaten

Es liest sich wie in einem Science-Fiction-Roman: Die dadurch entstehende Gleichheit, Glättung und Monotonie könnte, ähnlich den SocialMedia-Algorithmen, paradoxerweise dazu führen, dass - entgegen dem aktuellen KI-Hype - "echte menschliche Interaktionen" künftig immer wertvoller werden könnten. Die Lösung ist vermeintlich einfach: künftig werden nur noch menschliche, sozusagen "biologische" Daten zum KI-Training zuzulassen  (so man sie denn zuverlässig erkennen könnte, was jedenfalls bisher nicht ausreichend gelingt).  Doch eine Studie, an der auch das renommierte MIT mitgearbeitet hat, geht davon aus, dass der Bedarf an hochwertigen Trainingsdaten für KI-Modelle bereits 2026 höher sein wird, als das Datenangebot. Bei Bilddaten könnte dies, je nach Qualität, erst 2030 bis 2050 so weit sein. 

Den KI-Modellen gehen also nicht nur bald die nötigen Trainingsdaten aus, sie werden auch immer schlechter. Der Beginn dieses Trends zeichnet sich wohl aktuell schon ab.