Emotionen erkennen
Am 13. Mai stellte OpenAI das neue Sprachmodell GPT-4o vor. Das «o» steht für omni, lateinisch für alles. Das Besondere daran: Der neue Chatbot wirkt noch menschlicher als bisher – und konnte in einer Demo mit Hilfe einer Handykamera menschliche Emotionen erkennen. «Aus psychologischer Sicht ist es unglaublich, wie das neue System interagiert», sagt Jan Schmutz, der am Psychologischen Institut der Universität Zürich forscht. Dort beschäftigt er sich mit Teamforschung und auch der Interaktion zwischen Mensch und künstlicher Intelligenz (KI). Für ihn ist die Weiterentwicklung von ChatGPT wichtig. «Dass eine Maschine nun auch Nonverbales lesen und agieren kann, klingt banal, ist aber ein Riesending», sagt Schmutz. Solche Eigenschaften ermöglichen erst die Zusammenarbeit mit KI im Team. Die neuen Sprachfunktionen will OpenAI «in den nächsten Monaten» verfügbar machen.
Betrügerische Anrufe blockieren
«Wir haben betrügerische Aktivitäten auf ihrem Konto festgestellt», so beginnt ein gestellter Anruf, den Android-Chef Dave Burke während der Entwicklerkonferenz I/O erhält. «Um ihr Geld zu schützen, helfen wir ihnen, es auf ein neues Konto zu überweisen», heisst es weiter. Spätestens jetzt sollten alle Alarmglocken läuten – und das tun sie auch. Das Handy schlägt Alarm und zeigt eine entsprechende Warnung an. Mit dieser neuen Funktion hat das Unternehmen für Aufsehen gesorgt. Denn dafür überwacht eine KI die Telefongespräche. Laut Google geschieht dies lokal auf dem Handy mit dem Sprachmodell Gemini Nano. Der sogenannte Private Compute Core sorgt dafür, dass keine Daten nach aussen dringen. Dennoch gibt es Bedenken wegen Überwachung. So warnt die Chefin von Signal, Meredith Whittaker, vor einem «gefährlichen Schritt», wie sie auf X schreibt. Für die Kritikerin ist es ein Weg in Richtung Client Side Scanning, wie es die Behörden in der EU durchsetzen wollen. Laut Whittaker könnte ein solches System zur Überwachung missbraucht werden. Für sie ist klar: KI darf nie vom Schutz der Privatsphäre getrennt werden. Noch ist allerdings unklar, ob Google die Funktion überhaupt ausserhalb der USA einführen wird.
Hausaufgaben als Podcast
Was würde wohl Albert Einstein dazu sagen – oder Marie Curie? Google spendiert der App NotebookLM ein Update. Damit lassen sich eigene KIs generieren, gefüttert mit Büchern, Hausaufgaben oder Infoblättern zu einem bestimmten Thema. Mit Gemini 1.5 Pro wird die App zum ultimativen Lernwerkzeug. So kann die KI eine Lernübersicht geben, Fragen zum Stoff beantworten oder Wissen abfragen. Neu ist die Audio-Übersicht. Damit lässt sich eine Art Podcast zum Thema generieren. Auch dieser ist interaktiv, die KI-Sprecher können jederzeit unterbrochen werden, um Fragen zu stellen. «Als mein Sohn das zum ersten Mal sah, sind seine Augen ganz gross geworden», sagt der Google-Manager auf der Bühne. Bisher ist die App nur in den USA erhältlich.
Das perfekte Gedächtnis
Recall heisst eine neue Funktion, die Mitte Juni zusammen mit Windows 11 auf ausgewählte Computer kommen soll. «Es ist, als hätte man ein fotografisches Gedächtnis», sagte ein Microsoft-Manager bei der Präsentation am 20. Mai. Doch was genau kann das Ding? Die Idee: Der PC macht permanent Screenshots vom Bildschirminhalt. Alle Daten werden dann von einer KI auf dem Gerät ausgewertet. So findet man zum Beispiel eine braune Ledertasche, die man vor 14 Tagen auf Pinterest gesehen hat, oder eine Präsentation, die tief in einer E-Mail-Konversation vergraben ist. Und das alles, ohne 294 Tabs geöffnet zu haben. Praktisch? Ja, aber auch sicher? Laut Microsoft verlassen die Daten dabei das Gerät nicht. Die KI läuft direkt auf dem Computer, verspricht der Hersteller. Dennoch wurden nach der Ankündigung datenschutzrechtliche Bedenken laut. Zumal Recall laut Microsoft standardmässig aktiviert ist und deaktiviert werden muss, wenn man das nicht möchte. Man kann einstellen, wie lange zurück die Screenshots gespeichert werden und welche Apps von der Erfassung ausgenommen werden sollen. Nicht erfasst wird, wenn man mit dem Edge-Browser Webseiten im Inkognito-Modus besucht.
Paint auf Steroiden
Wer gerne mit der gleichen Leichtigkeit und Nonchalance malen würde wie der TV-Künstler Bob Ross, sollte jetzt aufpassen: Microsoft Cocreator ist eine neue Mal-App, die das Unternehmen kürzlich vorgestellt hat. Dabei laufen fünf verschiedene KI-Modelle lokal auf einem PC. Diese erzeugen in Kombination mit Text und virtuellen Pinselstrichen das gewünschte Bild – unabhängig davon, wie viel Talent man hat. Nutzerinnen und Nutzer können zudem mit einem «Kreativitätsregler» selbst bestimmen, wie stark die KI eingreift. Die Funktion soll im Juni mit den neuen Surface-Notebooks ausgerollt werden.
Ein Coach für alles
Kampfansage an Youtube und all die Anleitungsvideos: Wie macht man ein Schwert? Was ist das für ein komischer Zombie? Microsoft Copilot soll dir dank Technologie von OpenAI künftig in allen erdenkbaren Situationen direkt am Computer eine Antwort liefern können. Dies zeigte Microsoft während einer Demo mit dem Spiel «Minecraft». Die KI konnte dabei nicht nur direkt Anweisungen und Tipps geben, sondern reagierte auch souverän auf eine unvorhergesehene Situation.
Sehhilfe für Blinde
Dank der Handykamera kann ChatGPT in Zukunft auch direkt die Umgebung kommentieren. Das ist für blinde Menschen sehr hilfreich. In einer Demo zeigte OpenAI, wie dies im Alltag genutzt werden kann. So kann die KI eine Szene beschreiben, oder Taxis identifizieren, die leer sind und angehalten werden können.
Übersetzung in Echtzeit
Dolmetscher ade? In einer Demo zeigte OpenAI, wie ein iPhone mit der App ChatGPT zwischen Englisch und Spanisch übersetzt, und zwar mit einer so geringen Verzögerung zwischen Input und Output, dass es tatsächlich nutzbar ist. Der Haken: Damit das reibungslos funktioniert, muss eine Internetverbindung vorhanden sein, was im Ausland oft mit teuren Roamingkosten verbunden ist.
Schnörkelschrift entziffern
Jetzt dürften Historikerinnen und Historiker jubilieren! Schon bislang war KI gut, wenn es darum ging, Handschrift zu entziffern. Ja überhaupt war diese optische Zeichenerkennung (OCR) schon länger gut. Nun kann die KI aber offenbar auch mühelos komplexere Schnörkelschrift erkennen, etwa Handschriften aus längst vergangenen Jahrhunderten.