EPFL-Forscher knacken Sicherheitssperren von ChatGPT & Co.
Bomben bauen, Drogen mischen, Server hacken

Lausanner Forscher haben die klügsten Köpfe des Silicon Valley ausgetrickst: Sie brachten ChatGPT und Co. dazu, gefährliche Geheimnisse zu verraten. Und das mit simplen Mitteln.
Publiziert: 12:01 Uhr
|
Aktualisiert: 14:42 Uhr
1/4
«Boom» – die Sicherheitsschranken moderner KI-Systeme lassen sich mit einfachen Mitteln aushebeln. Das zeigt ein Forscherteam der EPFL.
Foto: Midjourney/Tobias Bolzern

Auf einen Blick

  • EPFL-Team knackt ChatGPT wie ein digitaler Schlüsseldienst
  • Kein KI-System widersteht den Hackmethoden aus Lausanne
  • Je autonomer KI wird, desto gefährlicher werden die Lücken
Die künstliche Intelligenz von Blick lernt noch und macht vielleicht Fehler.
nnnnnnn.jpg
Tobias BolzernRedaktor Digital

Ein Forscherteam der Eidgenössischen Technischen Hochschule Lausanne (EPFL) hat die Sicherheitssperren führender KI-Systeme geknackt – mit verblüffend einfachen Mitteln. Kein System widerstand den Tricks. KI-Dienste wie ChatGPT, Claude und Llama lieferten bereitwillig Anleitungen etwa zum Bombenbau, zur Drogensynthese, Anleitungen zu Mord und für Hackerangriffe auf Regierungsserver. 

Eigentlich sollten die KI-Assistenten solche gefährlichen Anfragen ablehnen. Ihre Entwickler haben ethische Grenzen einprogrammiert. Doch die Sicherungen versagen unter anderem bei geschickter Formulierung. Die Forscher erreichten eine Trefferquote von 100 Prozent.

KI-Forschung an der EPFL

«Derzeit sind alle Modelle mehr oder weniger fehlerhaft», erklärt Maksym Andriushchenko. Der 29-jährige Forscher entwickelte die Methode zusammen mit Francesco Croce und Nicolas Flammarion am Theory of Machine Learning Laboratory der EPFL.

Sie knackten die KI-Systeme mit einem sogenannten Jailbreak (Gefängnisausbruch). Dabei manipulieren sie die Systeme so, dass diese auch verbotene Anfragen beantworten. Die Methode gleicht einem modernen Schlüsseldienst mit drei Werkzeugen: standardisierten Schlüsseln für häufige Schlösser, Erfahrungswerte von früheren Öffnungen und einem digitalen Scanner für neue Kombinationen. Das automatisierte Knacken mit Tausenden Abfragen dauert laut Andriushchenko zwischen zehn und 60 Minuten.

Google hat bereits reagiert

Für den EPFL-Forscher zeigt dies ein tieferliegendes Problem: «Es gibt einen grundsätzlichen Konflikt zwischen Hilfsbereitschaft und Sicherheit», sagt Andriushchenko. «Wenn das System nur hilfsbereit sein soll, müsste es auch gefährliche Anfragen beantworten.» 

Die Tech-Unternehmen kennen diese Schwachstellen. Sie stufen die Gefahr aber als überschaubar ein. «Diese Informationen findet man ohnehin im Internet», sagt auch Andriushchenko, der in der Vergangenheit auch schon für OpenAI und Anthropic Sicherheitstests durchgeführt hat. Dennoch warnt er: «Sobald KI-Systeme autonomer werden und selbstständig handeln, brauchen wir bessere Mechanismen.»

Google hat reagiert und die Erkenntnisse der EPFL-Forscher genutzt, um das KI-Modell Gemini 1.5 robuster zu machen. Andere Anbieter dürften folgen.

Externe Inhalte
Möchtest du diesen ergänzenden Inhalt (Tweet, Instagram etc.) sehen? Falls du damit einverstanden bist, dass Cookies gesetzt und dadurch Daten an externe Anbieter übermittelt werden, kannst du alle Cookies zulassen und externe Inhalte direkt anzeigen lassen.
Fehler gefunden? Jetzt melden
Was sagst du dazu?