1/5

Trainingsdaten für KI-Modelle sind ein Milliardengeschäft. Das zeigt ein Bericht der Nachrichtenagentur Reuters.

Foto: Getty Images

Um künstliche Intelligenz (KI) zu trainieren, braucht man Unmengen von Daten. Dabei gilt: Nur wer gute Daten hat, hat auch eine gute KI. Lange Zeit haben die Hersteller von KI-Modellen einfach im Internet gewildert: Tech-Giganten wie Google, Meta, Microsoft und OpenAI nutzten Daten, die sie kostenlos aus dem Netz zogen. Bei OpenAI wurde damit der Textroboter ChatGPT trainiert. Dieses sogenannte Scraping hat nun Konsequenzen: Unter anderem hat die «New York Times» die Firma OpenAI wegen Urheberrechtsverletzung verklagt.

Deshalb ist jetzt ein regelrechter Wettlauf um Trainingsdaten für KI-Modelle entbrannt, wie die Nachrichtenagentur Reuters berichtet. Texte, Videos, Bilder: Alles wird verhökert – für Millionen. Reuters hat mit mehr als 30 Personen gesprochen, um das verborgene KI-Geschäft auszuloten. Darunter Anwälte, Manager und Beraterinnen.

Mehr zu künstlicher Intelligenz

Mit Video

Revolution in der Musik

Dieses neue KI-Tool verblüfft die Welt

KI-Experte Kevin Schawinski

«Der AI Act ist innovationshindernd – aber nötig»

Rätsel rund um Internetadresse

Zwei Buchstaben sind Millionen wert

Revolution bei Blick

Ringier baut mit Google Chatbot

Der Deal mit Apple

Nach dem Start von ChatGPT Ende 2022 schlossen Unternehmen wie Meta, Google, Amazon und Apple Verträge mit dem Bildanbieter Shutterstock ab: Es ging darum, Hunderte Millionen Bilder, Videos und Musikdaten für das KI-Training zu nutzen. Der Finanzchef von Shutterstock, Jarrod Yahes, sagte Reuters, dass die Deals mit den Tech-Unternehmen anfangs zwischen 25 und 50 Millionen Dollar betrugen, die meisten aber später ausgeweitet wurden. Der Deal mit Apple und das Volumen der anderen KI-Verträge waren bisher nicht öffentlich bekannt.

Inzwischen hat sich laut Reuters sogar eine eigene Industrie für KI-Daten gebildet. Spezialisierte Unternehmen sichern sich die Rechte an Inhalten wie Podcasts, Kurzvideos und Interaktionen mit digitalen Assistenten, um sie weiterzuverkaufen. Eines dieser Unternehmen ist Defined.ai, das Daten an mehrere Technologieunternehmen lizenziert, wie die Chefin Daniela Braga gegenüber Reuters erklärt.

0,001 Dollar pro Wort

Die Preise für die Daten variieren je nach Käufer und Art des Inhalts. Laut Braga sind Unternehmen bereit, etwa ein bis zwei Dollar pro Bild, zwei bis vier Dollar pro Videoclip und 100 bis 300 Dollar für längere Videos zu zahlen. Der Marktpreis für Texte liege bei 0,001 Dollar pro Wort. Nacktbilder werden für fünf bis sieben Dollar verkauft. Denn, so die Chefin, sie erfordern einen sensiblen Umgang und müssen geprüft werden.

Die Einnahmen teilt sich das Unternehmen mit den Content-Anbietern. Defined.ai vermarktet seine Datensätze als «ethische Quellen», da es nach eigenen Angaben die Zustimmung der Personen einholt, deren Daten es verwendet, und persönliche Informationen entfernt. Einer der Lieferanten des Unternehmens, ein brasilianischer Unternehmer, sagte, er zahle den Eigentümern der von ihm erworbenen Fotos, Podcasts und medizinischen Daten etwa 20 bis 30 Prozent der Gesamtsumme.

Teure Bilder von Gewalt

Die teuersten Bilder in seinem Portfolio werden von Technologieunternehmen verwendet, um KI-Modelle zu trainieren, was sie nicht generieren dürften. Dabei handelt es sich beispielsweise um Bilder mit Gewaltdarstellungen. Um diese Nachfrage zu befriedigen, beschafft sich der Unternehmer Bilder von Tatorten, Konflikten und Operationen. Seine Lieferanten seien Polizei, Fotojournalisten und Medizinstudierende, oft in Ländern Südamerikas und Afrikas, wo die Verbreitung grafischer Bilder üblicher sei, sagt er. Sein Unternehmen stelle medizinisches Personal ein, das an solche Bilder gewöhnt sei, um sie zu anonymisieren, erklärte er gegenüber Reuters.

Gefahr für die Privatsphäre

Während die Lizenzierung von Inhalten die rechtlichen und ethischen Probleme für KI-Unternehmen lösen dürfte, wirft die Nutzung – insbesondere von älteren Daten – andere Fragen auf. Ein Beispiel ist der Fall Photobucket. Das Unternehmen war Anfang der 2000er-Jahre die weltweit führende Website für Bilder und das Rückgrat damals populärer Dienste wie myspace.com. Nun will Photobucket seine 13 Milliarden Fotos und Videos zur Verfügung stellen, um KI-Modelle zu trainieren.

Die Privatsphäre der Nutzerinnen und Nutzer ist in Gefahr. KI-Systeme haben bereits exakte Kopien ihrer Trainingsdaten ausgespuckt, darunter Wasserzeichen von Getty Images, wörtliche Absätze aus «New York Times»-Artikeln und Bilder von echten Menschen. Das bedeutet, dass die privaten Fotos oder intimen Gedanken einer Person, die vor Jahrzehnten gepostet wurden, ohne Vorwarnung oder ausdrückliche Zustimmung in generativen KI-Ausgaben landen könnten.

Der CEO von Photobucket, Ted Leonard, betonte gegenüber Reuters, dass man rechtlich auf sicherem Boden stehe. Man habe im vergangenen Oktober die Geschäftsbedingungen aktualisiert, die Photobucket das «uneingeschränkte Recht» einräumen, hochgeladene Inhalte für das Training von KI-Systemen zu verkaufen. Im Februar hatte die Federal Trade Commission Unternehmen jedoch davor gewarnt, die Nutzungsbedingungen für KI-Trainingsdaten rückwirkend zu ändern.

Externe Inhalte

Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.

Goldrausch auf Daten Darum kostet ein Nacktbild sechs Franken

Der Deal mit Apple

0,001 Dollar pro Wort

Teure Bilder von Gewalt

Gefahr für die Privatsphäre

Goldrausch auf Daten
Darum kostet ein Nacktbild sechs Franken