1/5

Wissenschaftler der Universität von Kalifornien in San Francisco haben ein System entwickelt, …

Foto: Wikimedia Commons / Nightryder84

Daniela Gschweng @higgsmag

Stephen Hawking konnte es nicht mehr erleben, für viele andere könnte es ein Weg aus der Isolation sein: Wissenschaftler der Universität von Kalifornien in San Francisco haben ein System entwickelt, das Sprachsignale im Gehirn decodieren und dann in Sprache verwandeln kann.

Versuche, Gehirnsignale hörbar zu machen, gibt es schon länger. Bisher resultierten daraus aber nur einzelne, wenig verständliche Worte. Drei Neurowissenschaftlern ist es nun gelungen, ganze Sätze mit einer natürlichen Stimme zu synthetisieren. Ihre Ergebnisse haben sie im April in der Zeitschrift «Nature» publiziert.

Zum Sprechen braucht es mehr als 100 Muskeln

Mit Gedankenlesen hat das nichts zu tun – der Vorgang gleicht eher stillem Sprechen. Neurologisch gesehen ist Sprechen in etwa das Komplizierteste, wozu Menschen fähig sind. Bevor wir auch nur einen Ton von uns geben, entscheiden wir bereits, was wir sagen wollen, in welcher Sprache und in welcher Form. Wir treffen Entscheidungen über Satzbau und Betonung. Was danach kommt, ist keinesfalls einfacher. Mehr als 100 Muskeln bewegen sich nach den Regieanweisungen des Gehirns, damit ein Ton entsteht. Die Lunge pumpt Luft, Wangen, Kehlkopf und Zunge bewegen sich.

Dieses Sprachballett haben die Wissenschaftler hörbar gemacht. Dafür fingen sie die neuronalen Signale ab, die den Sprechapparat steuern, und trainierten lernende Software an einem virtuellen Modell des Sprachapparates.

Um die Hirnströme zu decodieren, trainierten die Forscher die KI zuerst mit fünf Freiwilligen, denen als Teil einer Epilepsie-Therapie ein Elektrodenpad auf die Oberfläche des Gehirns eingepflanzt worden war. Diese hörten und sprachen hunderte Sätze, während die Elektroden ihre Gehirnaktivität aufzeichneten. Dadurch lernte ein Algorithmus, ein neuronales Signal einer spezifischen motorischen Aktivität zuzuordnen, beispielsweise einer Bewegung der Zunge. Ein zweites Programm setzte diese Bewegungsdaten in akustische Signale und schliesslich in Sprache um. Tat der Proband nur so, als würde er sprechen, ohne dabei einen Ton zu machen, verstand und synthetisierte das System den Satz ebenfalls.

Probleme macht die Aussprache des englischen « Th »

Das Ergebnis des zweistufigen Prozesses hört sich etwas verwaschen an, etwa wie bei einem Schlaganfallpatienten, und ist, je nach Satz, mehr oder weniger verständlich. Denn ganz wie beim menschlichen Lernen hapert es mit der Aussprache gelegentlich noch.

Externe Inhalte

Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.

Wie sehr, das hängt vom Gesagten ab. Den Zungenbrecher «Is this seesaw safe?» (Ist diese Kettensäge sicher?) konnten alle Testhörer gut verstehen. Bei komplexeren Sätzen wie «At twilight on the twelfth day we’ll have Chablis» (In der Dämmerung des zwölften Tages werden wir Chablis trinken) erkannten sie mindestens ein Wort nicht richtig. Die Zischlaute «Sh» und «Z» sowie mehrsilbige Wörter sind einfacher zu verstehen. Probleme hat das System dafür mit dem englischen «Th».

Individuelle Stimme

Die künstliche Stimme ähnelt in Rhythmus und Melodie der des Probanden. Wie eine individuelle Stimme klingt, hängt unter anderem vom Körperbau ab, beispielsweise der Grösse des Kiefers, der Lage der Zähne, der Form des Gaumens und des Kehlkopfes sowie von deren Bewegungen.

21 bis 42 Prozent fehlerfrei transkribiert

Dafür, dass diese Methode auch dann funktioniert, wenn sich ein Mensch nur vorstellt zu sprechen, spricht zweierlei: Tat der Proband nur so, als würde er sprechen, ohne dabei einen Ton zu machen, synthetisierte die Software den gleichen Satz. Und die Sprachausgabe gelang auch dann, wenn das System nicht auf den betreffenden Satz trainiert worden war.

Freiwillige, die die synthetisierten Sätze abhörten, konnten zwischen 21 und 43 Prozent der synthetisierten Sätze fehlerfrei transkribieren. Wie viele, hing davon ab, wie gross der Wortschatz war, den sie dafür zur Verfügung gestellt bekamen. Je mehr Wahlmöglichkeiten, desto grösser wurde die Fehlerrate.

«Wir haben gezeigt, dass wir Sprache simulieren können»

Die neue Methode ist den bisherigen Modellen der künstlichen Spracherzeugung klar überlegen. Dabei erweist sich die Zweistufigkeit, also das Übertragen von Signalen in Artikulation und erst dann in Sprache, als Vorteil. Bisherige Modelle übertragen Signale der Sprachwahrnehmung aus dem Gehirn direkt in Sprache, was nur bedingt gelang.

Die Studie beweist, dass es grundsätzlich möglich ist, ein Brain-Computer-Interface zu konstruieren, das mit einer fast natürlichen Stimme spricht und sich in annehmbarer Geschwindigkeit unterhalten kann.

Mehr als ein Proof of Principle sind die Versuche jedoch nicht. «Wir haben gezeigt, dass wir Sprache simulieren können, die genauer und natürlicher klingt als synthetisierte Sprache, die auf der Extraktion von Klangdarstellungen aus dem Gehirn basiert», kommentierte der Hauptautor der Studie, Edward F. Chang, gegenüber der «New York Times».

Sprache für die Stummen

Für Menschen, die aufgrund einer Lähmung oder eines Unfalls kaum oder gar nicht in der Lage sind, sich mitzuteilen, ist die Studie ein grosser Fortschritt. Derzeit müssen «Locked-in»-Patienten mithilfe von Augen- oder Muskelbewegungen Wörter aus einzelnen Buchstaben zusammensetzen, um sich mitzuteilen. Stephen Hawking nutzte einen seiner Wangenmuskeln, um Worte zu formen. Ein mühsames Unterfangen, bei dem pro Minute etwa acht bis zehn Wörter übermittelt werden. Bei gesprochener Sprache sind es 120 bis 150. Sprachprothesen, selbst wenn sie nur einzelne Wörter übermitteln können, würden die Kommunikation von Schlaganfallpatienten, Gelähmten oder ALS-Erkrankten wesentlich verbessern. Einige Fehler wären dabei in Kauf zu nehmen.

Obwohl die Gehirnforschung derzeit grosse Fortschritte macht, ist es bis zu einer Sprachprothese, die flüssiges Sprechen erlaubt, noch ein weiter Weg. Nicht nur deshalb, weil die Anzahl möglicher Versuchspersonen für klinische Tests gering sein dürfte. Sondern auch, weil die Decodierung nicht bei allen Menschen gleich funktioniert. Die Beziehung zwischen Muskelbewegung und Sprache lässt sich zwar auf andere Menschen übertragen. Für die Decodierung der Gehirnaktivität gilt das aber nicht. Das System muss für jeden Nutzer individuell eingestellt werden. An Personen, von denen keine Sprachproben vorliegen oder die nie sprechen konnten, wurde die Methode zudem noch nicht getestet.

Aktuelles Thema in der Wissenschaft

Die Forschung an Gehirnströmen, mit deren Signalen Menschen Maschinen steuern können, ist das Thema der Stunde. Prothesen mit denen Gelähmte gehen und Dinge greifen können, gibt es schon seit einigen Jahren, zumindest im Laborexperiment. Meist brauchen sie dazu einen im Gehirn implantierten Chip, damit die Signale sauber erfasst werden können. In die andere Richtung, vom Computer zum Gehirn, funktioniert die Übertragung noch weniger gut. So können die Träger ihre Prothesen zwar bewegen, diese melden jedoch nicht zurück, wenn sie etwas «fühlen».

Die Medizin erhofft sich von der Neurotechnik Behandlungsmöglichkeiten für Erkrankungen wie Alzheimer, Parkinson und Epilepsie. Die Industrie sieht neue Möglichkeiten, Maschinen oder gar Autos zu steuern. Facebook investiert seit mehreren Jahren in die Forschung an Brain-Computer-Interfaces (BCI), nach Angaben von Mark Zuckerberg, damit «Sie direkt aus Ihrem Gehirn heraus etwa fünfmal schneller tippen können, als Sie es heute auf Ihrem Handy können». Und Tesla-Chef Elon Musk kündigte im April 2019 Neuigkeiten von Neurolink an. Die 2016 von ihm gegründete Firma arbeitet ebenfalls an einer Gehirn-Maschine-Schnittstelle. Musks Ziel: die mentalen Fähigkeiten des Menschen so zu erweitern, dass er langfristig mit der Entwicklung von KI mithalten kann.

Künstliche Intelligenz

Artificial Intelligence (AI) ist in aller Munde. Was kann künstliche Intelligenz heute? Was wird sie können? Wir sind neugierig, fürchten uns aber auch.

Was ist Künstliche Intelligenz

Immer mehr Menschen fürchten sich davor, dass künstliche Intelligenz die Kontrolle übernimmt.

Getty Images

Artificial Intelligence (AI) ist in aller Munde. Was kann künstliche Intelligenz heute? Was wird sie können? Wir sind neugierig, fürchten uns aber auch.

Was ist Künstliche Intelligenz

Immer mehr Menschen fürchten sich davor, dass künstliche Intelligenz die Kontrolle übernimmt.

Getty Images

Künstliche Intelligenz besser verstehen

Was kann künstliche Intelligenz heute? Was wird sie können? Wir sind neugierig, fürchten uns aber auch.

Was ist Künstliche Intelligenz?

Immer mehr Menschen fürchten sich davor, dass künstliche Intelligenz die Kontrolle übernimmt.

Getty Images

Was kann künstliche Intelligenz heute? Was wird sie können? Wir sind neugierig, fürchten uns aber auch.

Was ist Künstliche Intelligenz?

Mehr Wissen auf higgs – das Magazin für alle, die es wissen wollen.

Externe Inhalte

Sprachprothese für Stumme Künstliche Intelligenz erzeugt Sprache aus Gehirnströmen

Zum Sprechen braucht es mehr als 100 Muskeln

Probleme macht die Aussprache des englischen « Th »

Individuelle Stimme

21 bis 42 Prozent fehlerfrei transkribiert

«Wir haben gezeigt, dass wir Sprache simulieren können»

Sprache für die Stummen

Aktuelles Thema in der Wissenschaft

Sprachprothese für Stumme
Künstliche Intelligenz erzeugt Sprache aus Gehirnströmen