Auf einen Blick
- EPFL-Team knackt ChatGPT wie ein digitaler Schlüsseldienst
- Kein KI-System widersteht den Hackmethoden aus Lausanne
- Je autonomer KI wird, desto gefährlicher werden die Lücken
Ein Forscherteam der Eidgenössischen Technischen Hochschule Lausanne (EPFL) hat die Sicherheitssperren führender KI-Systeme geknackt – mit verblüffend einfachen Mitteln. Kein System widerstand den Tricks. KI-Dienste wie ChatGPT, Claude und Llama lieferten bereitwillig Anleitungen etwa zum Bombenbau, zur Drogensynthese, Anleitungen zu Mord und für Hackerangriffe auf Regierungsserver.
Eigentlich sollten die KI-Assistenten solche gefährlichen Anfragen ablehnen. Ihre Entwickler haben ethische Grenzen einprogrammiert. Doch die Sicherungen versagen unter anderem bei geschickter Formulierung. Die Forscher erreichten eine Trefferquote von 100 Prozent.
KI-Forschung an der EPFL
«Derzeit sind alle Modelle mehr oder weniger fehlerhaft», erklärt Maksym Andriushchenko. Der 29-jährige Forscher entwickelte die Methode zusammen mit Francesco Croce und Nicolas Flammarion am Theory of Machine Learning Laboratory der EPFL.
Sie knackten die KI-Systeme mit einem sogenannten Jailbreak (Gefängnisausbruch). Dabei manipulieren sie die Systeme so, dass diese auch verbotene Anfragen beantworten. Die Methode gleicht einem modernen Schlüsseldienst mit drei Werkzeugen: standardisierten Schlüsseln für häufige Schlösser, Erfahrungswerte von früheren Öffnungen und einem digitalen Scanner für neue Kombinationen. Das automatisierte Knacken mit Tausenden Abfragen dauert laut Andriushchenko zwischen zehn und 60 Minuten.
Google hat bereits reagiert
Für den EPFL-Forscher zeigt dies ein tieferliegendes Problem: «Es gibt einen grundsätzlichen Konflikt zwischen Hilfsbereitschaft und Sicherheit», sagt Andriushchenko. «Wenn das System nur hilfsbereit sein soll, müsste es auch gefährliche Anfragen beantworten.»
Die Tech-Unternehmen kennen diese Schwachstellen. Sie stufen die Gefahr aber als überschaubar ein. «Diese Informationen findet man ohnehin im Internet», sagt auch Andriushchenko, der in der Vergangenheit auch schon für OpenAI und Anthropic Sicherheitstests durchgeführt hat. Dennoch warnt er: «Sobald KI-Systeme autonomer werden und selbstständig handeln, brauchen wir bessere Mechanismen.»
Google hat reagiert und die Erkenntnisse der EPFL-Forscher genutzt, um das KI-Modell Gemini 1.5 robuster zu machen. Andere Anbieter dürften folgen.