Professor Vetterli erklärt
Wie funktioniert Spracherkennung?

Martin Vetterli ist Präsident der EPFL in Lausanne und führender Experte für Digitalisierung. Jede Woche erklärt er Begriffe aus der digitalen Welt.
Publiziert: 05.11.2017 um 16:22 Uhr
|
Aktualisiert: 12.09.2018 um 04:25 Uhr
Unsere Smartphones fangen aber erst jetzt an, uns zu «verstehen».
Foto: Getty Images/Science Photo Library RM
Martin Vetterli
Martin VetterliPräsident der EPFL Lausanne

Sprechende Maschinen gehörten schon immer zum Genre «Science-­Fiction». Unsere Smartphones fangen aber erst jetzt an, uns zu «verstehen». Vor kurzem habe ich mir wieder einmal Stanley ­Kubricks «2001: Odyssee im Weltraum» angeschaut. In dem Film, der bald sein 50-Jahr-­Jubiläum feiert, wird die ­Zukunft der Technik sehr optimistisch porträtiert. HAL, ein übermächtiger Computer, kommuniziert in Gesprächen direkt mit der Crew. Tatsächlich haben Anbieter wie Apple erst kürzlich begonnen, uns eine ­ähnliche Technik (wie etwa Siri) zur ­Verfügung zu stellen.

Wie funktioniert Sprache rechnerisch?


Wie bringt man einer Maschine bei, Wörter zu erkennen? Wie so oft, wenn wir eine Maschine entwerfen möchten, die menschliche Fähigkeiten nachahmt, ist der erste Schritt, alles zu ­vergessen, was wir über menschliche Sprache wissen. Stattdessen müssen wir herausfinden, wie die Sprache «rechnerisch» funktioniert. ­Sprache ist eine Folge von grund­legenden Toneinheiten, die vom Vokaltrakt ­erzeugt werden. ­Gesprochene Wörter bestehen aus aufeinanderfolgenden ­Toneinheiten. Um ein Wort zu verstehen, müssen wir ­versuchen, die ihm zu­grunde liegenden Toneinheiten zu ­identifizieren. Das ist ein schwieriger Vorgang, weil einige Toneinheiten, wie etwa Vokale, aufgrund ihrer Tonhöhe analysiert werden müssen. Konsonanten dagegen erkennt man daran, wie der Ton sich mit der Zeit ­verändert. Bei Menschen ­erfolgt dieser Schritt im Innenohr.
In Smartphones findet dieser Prozess sofort statt, wenn man mit Siri spricht. Es wird eine ­Liste möglicher ­Toneinheiten ­berechnet, nicht nur ein Ton. Diese Liste wird über die Internetleitung zu ­einem grossen ­Server bei Apple geschickt. Dort fängt der ­interessante Teil an.

Unser Sprachwissen


Schauen wir uns geschriebene Wörter und Buchstaben statt Töne an, um zu zeigen, was als Nächstes passiert. Nehmen wir die Wörter «ZEIT» und «Welt». Diese Wörter können Sie ­bestimmt einfach lesen, auch wenn Sie bei genauerem ­Hinschauen feststellen, dass das grosse «I» in «ZEIT» und das ­kleine «l» in «Welt» fast identisch sind! Im Zusammenhang mit den anderen Buchstaben können Sie aber einfach herausfinden, welche Buchstaben gemeint sind («Weit» mit «i» wäre ja ein ganz anderes Wort als «Welt» mit «l» und würde nicht passen). Die beiden Möglichkeiten ­werden also aufgrund unseres vorhandenen Sprachwissens bewertet und die Wörter ­korrekt identifiziert.

Strukturen erkennen


Auf ähnliche Weise können die Wörter zu Sätzen und zu Sinnabschnitten ­verbunden werden, wobei das vorhan­dene Wissen immer eine Rolle spielt. Ein ­komplexes Sprach­modell hilft,  bestimmte ­Strukturen zu erkennen und ­andere als Unsinn zu verwerfen.
Warum hat es also so lange ­gedauert, bis diese Maschinen entwickelt wurden? Nun, die ­Erstellung von Sprachmodellen benötigt riesige Datenmengen. Erst vor kurzem wurde diese ­Vorgehensweise durchführbar. Zudem sind dafür grosse und schnelle Computer nötig. Deshalb brauchen Sie eine Internetver­bindung, um mit Siri zu sprechen (das «Verstehen» findet auf einem externen Server statt). Nach all den Jahren nähern wir uns dem Niveau von HAL aus dem ­berühmten Film – allerdings ein wenig später als 2001.

Externe Inhalte
Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.
Fehler gefunden? Jetzt melden
Was sagst du dazu?