Das Kiwi-Debakel
KI versagt «katastrophal» bei Matheaufgaben

Forscher von Apple haben mehr als 20 KI-Systeme untersucht. Im Mathe-Test erreichten sie nicht einmal das Niveau von einem Kind in der Primarschule.
Publiziert: 04.11.2024 um 11:28 Uhr
|
Aktualisiert: 14.11.2024 um 15:50 Uhr
1/5
Kann KI rechnen? Forscher von Apple haben mit dem «Kiwi-Problem» mehr als 20 grosse Sprachmodelle untersucht.
Foto: KI-Illustration/ChatGPT
nnnnnnn.jpg
Tobias BolzernRedaktor Digital

Kannst du die folgende Rechenaufgabe lösen? «Oliver erntet am Freitag 44 Kiwis. Am Samstag pflückt er 58 Kiwis. Am Sonntag erntet er doppelt so viele Kiwis wie am Freitag, aber fünf davon sind etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?»

Wenn deine Antwort 190 ist – bravo, das ist richtig! Doch mit dieser einfachen Aufgabe tun sich KI-Systeme schwer, wie eine Studie von Forschern der Firma Apple zeigt. Für ihre Studie haben sie die logischen Fähigkeiten von über 20 Sprachmodellen, darunter auch die neuesten von OpenAI, Google und Meta untersucht. Getestet wurden sie unter anderem mit der obigen Matheaufgabe und weiteren Beispielen, wie sie in der Primarschule vorkommen.

Chatbots scheitern

Das Problem: Die Chatbots können nicht wirklich denken. Im Beispiel mit den Kiwis haben die KI-Systeme oft nicht verstanden, dass die Grösse der Frucht nichts mit der Anzahl der geernteten Kiwis zu tun hat. Einige zogen deshalb die fünf kleineren Kiwis von der Gesamtzahl ab und kamen so auf das falsche Ergebnis von 185.

Das Fazit der Studie ist ernüchternd: «Insgesamt haben wir keine Hinweise auf formales logisches Denken in Sprachmodellen gefunden», erklärt Mehrdad Farajtabar, Forscher bei Apple und Co-Autor der auf arxiv.org veröffentlichten Analyse. Die Forscher gehen nicht davon aus, dass sich diese grundlegenden Probleme so einfach lösen lassen.

Zwar schnitten einige KI-Modelle besser ab als andere, aber alle zeigten einen «katastrophalen Leistungsabfall», je komplexer die Probleme wurden. Doch wie kommt es dazu? Schliesslich werden viele KI-Dienste von den Anbietern oft in den höchsten Tönen gelobt. Die Schlussfolgerung von Apple deckt sich mit früheren Studien, die gezeigt haben, dass grosse Sprachmodelle nicht wirklich denken, sondern nur Sprachmuster vergleichen, mit denen sie während ihres Trainings gefüttert wurden.

Externe Inhalte
Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.
Fehler gefunden? Jetzt melden
Was sagst du dazu?