KI durchdringt die Suche
Künstliche Intelligenz (KI) hat das Potenzial, Googles Kerngeschäft, die Suche, auf den Kopf zu stellen. Google plant dem entgegenzuwirken und zeigt auf seiner Entwicklerkonferenz wie. Ab heute wird die KI-Übersicht in der Google-Suche in den USA für alle freigeschaltet. Mit der Funktion erhalten Nutzer einen Überblick über ein Thema, Antworten direkt in der Suche und auf Wunsch weiterführende Links. Diese KI-Funktion soll später auch in weiteren Ländern eingeführt werden. Suchergebnisse werden künftig auch von der KI sortiert – aber nicht überall. Die KI-Ordnung wird angezeigt, wenn man zum Beispiel nach Essen, Filmen oder Musik sucht, und vorerst nur in den USA. Neu kann man auch mit einem Video suchen, das man selbst aufgenommen hat. Zum Beispiel, wenn man wissen will, wie ein Plattenspieler funktioniert, den man gebraucht gekauft hat. Auch diese Funktion kommt zunächst in den USA, später aber auch in anderen Regionen.
Google bringt KI-Agenten
Das Projekt Astra ist eine Zukunftsvision mit KI-Agenten. Diese Werkzeuge sollen unseren Alltag erleichtern. Der KI-Agent kann Menschen verstehen, die Welt erfassen, hören, sehen und auch Kontext herstellen. Multimodal heisst das im Fachjargon. Google zeigte dazu eine beeindruckende Demo. Eine Herausforderung war nach Angaben des Unternehmens, die Reaktionszeit der KI auf ein brauchbares Niveau zu bringen, damit sich die Interaktion natürlich anfühlt. Die neuen KI-Agenten basieren auf dem Gemini-Modell und verfügen über eine optimierte Sprachausgabe. Diese KI-Agenten sollen noch in diesem Jahr in erste Google-Produkte integriert werden, heisst es. Zu sehen ist in dem Video auch eine mysteriöse Brille. Später bestätigte Google, dass es sich hierbei um einen selbst entwickelten Prototypen handelt. Mehr Infos gab es dazu – auch auf Nachfrage nicht.
Mehr Power für Gemini
Gemini heisst die ChatGPT-Alternative von Google. Das Sprachmodell (LLM) gibt es in verschiedenen Versionen: Ultra, Pro und Nano. Neu ist jetzt Gemini 1.5 Flash, das deutlich schneller sein soll als seine Vorgänger. Flash eignet sich laut Google besonders für Zusammenfassungen, Chat-Anwendungen, Bild- und Videobeschriftungen, Datenextraktion und Tabellenanalysen. Gemini 1.5 Pro ist nun auch für alle Advanced-Abonnenten verfügbar, die 20 Franken pro Monat bezahlen. Es verfügt über ein Kontextfenster, das bei einer Million Token beginnt. Das hat noch kein anderer Chatbot erreicht. Token sind die Einheit der Daten, die von LLMs verarbeitet werden. Im Kontext von Text kann ein Token ein Wort, ein Wortteil oder ein Zeichen sein. Was bedeutet das? Mit einem so grossen Kontextfenster können 1500 Seiten Daten auf einmal erfasst werden. Bald soll das Modell eine Stunde Video verarbeiten können. Die Dateien können über Google Drive hochgeladen werden. Sie werden laut Google nicht für das weitere Training der Modelle genutzt. Gemini 1.5 Pro soll in 150 Ländern und in mehr als 35 Sprachen verfügbar sein.
Android erkennt Betrüger
Das mobile Betriebssystem Android läuft auf über drei Milliarden Geräten weltweit. Das System soll zur zentralen Drehscheibe von KI werden, sagt Google an der Entwicklerkonferenz. So wird die KI-Suche zentral, etwa mit Circle to search. Eine Funktion, die Google im Januar lanciert hat. Neu hilft die Funktion auch bei Hausaufgaben. Dann wird Gemini den Google-Assistant auf allen Geräten ersetzen. Diesen Schritt hat das Unternehmen bereits vor einigen Monaten angekündigt. Und der dritte Pfeiler ist laut Google Gemini direkt auf dem Gerät – also, dass das Sprachmodell in der Nano-Version, das direkt auf dem Smartphone und eben nicht in der Cloud läuft. Eine ziemlich tolle Funktion, die damit möglich wird: Das Handy kann identifizieren, wenn es sich um einen betrügerischen Anruf handelt und Nutzer direkt davor warnen. Das Gespräch wird dabei nicht an eine Cloud gesendet, sonder direkt auf dem Handy analysiert, sagt Google. Die Funktion soll im Sommer verfügbar sein. Wohl aber vorerst nur im englischsprachigen Raum.
Die KI als Coach
Neu ist die Funktion Gemini Live, die in den nächsten Monaten eingeführt wird. Dabei wird die KI zum Lebensberater. Als Beispiel nennt Google ein Bewerbungsgespräch. Gemini wird dann zum Sparringspartner und schlägt vor, welche Fähigkeiten man im Gespräch mit dem potenziellen neuen Arbeitgeber hervorheben kann oder gibt Tipps für das Auftreten vor Publikum, wenn man eine Rede vorbereitet. Neu sind auch die sogenannten Gems. Das sind eigene Versionen von Gemini. So soll man Gemini zum Fitnesskumpel, zum Sous-Chef oder zum kreativen Schreibberater machen können. Eine ähnliche Funktion hat OpenAI bereits mit den Custom GPTs eingeführt. Diese Funktion ist bei Google nur für Advanced-Abonnentinnen und -Abonnenten verfügbar.
Konkurrenz für Sora
Wie Video, nur ohne ID: Veo heisst das neue Google-Modell, mit dem man Videoclips erstellen kann. Es steht in direkter Konkurrenz zu OpenAIs Sora. Veo-Videos werden in HD-Auflösung ausgespuckt und können länger als eine Minute sein. Es gibt eine grosse Auswahl an filmischen und visuellen Stilen. Veo versteht auch filmische Konzepte wie Zeitraffer oder Luftaufnahmen. Laut Google erzeugt das Modell konsistentes und kohärentes Filmmaterial. Das bedeutet: Menschen, Tiere und Objekte bewegen sich realistisch durch die Aufnahmen. Das neue Modell baue auf jahrelanger Arbeit an generativen Videos auf, so Google. Wie Sora auch, ist Veo nicht öffentlich. Ab heute steht das Tool jedoch ausgewählten Personen als Vorschau zur Verfügung. In Zukunft sollen Teile des Modells auch auf Youtube und in andere Produkte integriert werden.
Neues Text-Bild-Modell
Google hat auf der I/O Imagen 3 vorgestellt. Die KI macht aus Text ein Bild. Das neue Modell erreicht laut Google eine hohe Detailgenauigkeit und erzeugt fotorealistische, lebensechte Bilder mit deutlich weniger störenden visuellen Artefakten als bisherige Modelle. Das gewünschte Bild kann in natürlicher Sprache beschrieben werden. Auch die Textgenerierung wurde verbessert. Dies ist eine Herausforderung für viele KI-Tools zur Bilderzeugung. Mit dieser Fähigkeit kann man laut Google mit Imagen 3 auch problemlos personalisierte Geburtstagskarten, Titelfolien in Präsentationen und Ähnliches erstellen. Ab heute ist das Modell als Vorschau für ausgewählte Grafikerinnen und Grafiker verfügbar.
KI macht Musik
Seit einiger Zeit bastelt Google ebenfalls an einer Musik-KI. Sie heisst Lyria. Auf der diesjährigen I/O war dieses Tool ebenfalls ein Thema. Google hob besonders die Kooperationen mit Musikerinnen und Musikern hervor. So haben unter anderem der Grammy-Preisträger Wyclef Jean und der Musiker Marc Rebillet auf ihren Youtube-Kanälen Musik veröffentlicht, die mithilfe von Lyria produziert wurde.