1/5

Kann KI rechnen? Forscher von Apple haben mit dem «Kiwi-Problem» mehr als 20 grosse Sprachmodelle untersucht.

Foto: KI-Illustration/ChatGPT

Kannst du die folgende Rechenaufgabe lösen? «Oliver erntet am Freitag 44 Kiwis. Am Samstag pflückt er 58 Kiwis. Am Sonntag erntet er doppelt so viele Kiwis wie am Freitag, aber fünf davon sind etwas kleiner als der Durchschnitt. Wie viele Kiwis hat Oliver?»

Wenn deine Antwort 190 ist – bravo, das ist richtig! Doch mit dieser einfachen Aufgabe tun sich KI-Systeme schwer, wie eine Studie von Forschern der Firma Apple zeigt. Für ihre Studie haben sie die logischen Fähigkeiten von über 20 Sprachmodellen, darunter auch die neuesten von OpenAI, Google und Meta untersucht. Getestet wurden sie unter anderem mit der obigen Matheaufgabe und weiteren Beispielen, wie sie in der Primarschule vorkommen.

Chatbots scheitern

Das Problem: Die Chatbots können nicht wirklich denken. Im Beispiel mit den Kiwis haben die KI-Systeme oft nicht verstanden, dass die Grösse der Frucht nichts mit der Anzahl der geernteten Kiwis zu tun hat. Einige zogen deshalb die fünf kleineren Kiwis von der Gesamtzahl ab und kamen so auf das falsche Ergebnis von 185.

Mehr zu künstlicher Intelligenz

Ersetzt KI nun auch Freunde und Familie?

Mit Video

Chatbots als Gefährten

Ersetzt KI nun auch Freunde und Familie?

Kartendienst wird schlauer

Google Maps beantwortet bald Fragen und gibt Tipps

KI spricht über 40 Sprachen

Gemini Live jetzt auch auf Deutsch verfügbar

Mit Augen-Scans

OpenAI-Mitgründer will KI-Fakes stoppen

Das Fazit der Studie ist ernüchternd: «Insgesamt haben wir keine Hinweise auf formales logisches Denken in Sprachmodellen gefunden», erklärt Mehrdad Farajtabar, Forscher bei Apple und Co-Autor der auf arxiv.org veröffentlichten Analyse. Die Forscher gehen nicht davon aus, dass sich diese grundlegenden Probleme so einfach lösen lassen.

Zwar schnitten einige KI-Modelle besser ab als andere, aber alle zeigten einen «katastrophalen Leistungsabfall», je komplexer die Probleme wurden. Doch wie kommt es dazu? Schliesslich werden viele KI-Dienste von den Anbietern oft in den höchsten Tönen gelobt. Die Schlussfolgerung von Apple deckt sich mit früheren Studien, die gezeigt haben, dass grosse Sprachmodelle nicht wirklich denken, sondern nur Sprachmuster vergleichen, mit denen sie während ihres Trainings gefüttert wurden.

Das Kiwi-Debakel KI versagt «katastrophal» bei Matheaufgaben

Chatbots scheitern

Das Kiwi-Debakel
KI versagt «katastrophal» bei Matheaufgaben