1/4

«Boom» – die Sicherheitsschranken moderner KI-Systeme lassen sich mit einfachen Mitteln aushebeln. Das zeigt ein Forscherteam der EPFL.

Foto: Midjourney/Tobias Bolzern

Darum gehts

EPFL-Team knackt ChatGPT wie ein digitaler Schlüsseldienst
Kein KI-System widersteht den Hackmethoden aus Lausanne
Je autonomer KI wird, desto gefährlicher werden die Lücken

Die künstliche Intelligenz von Blick lernt noch und macht vielleicht Fehler.

Mehr erfahrenFeedback senden

Tobias BolzernRedaktor Digital

Ein Forscherteam der Eidgenössischen Technischen Hochschule Lausanne (EPFL) hat die Sicherheitssperren führender KI-Systeme geknackt – mit verblüffend einfachen Mitteln. Kein System widerstand den Tricks. KI-Dienste wie ChatGPT, Claude und Llama lieferten bereitwillig Anleitungen etwa zum Bombenbau, zur Drogensynthese, Anleitungen zu Mord und für Hackerangriffe auf Regierungsserver.

Eigentlich sollten die KI-Assistenten solche gefährlichen Anfragen ablehnen. Ihre Entwickler haben ethische Grenzen einprogrammiert. Doch die Sicherungen versagen unter anderem bei geschickter Formulierung. Die Forscher erreichten eine Trefferquote von 100 Prozent.

KI-Forschung an der EPFL

«Derzeit sind alle Modelle mehr oder weniger fehlerhaft», erklärt Maksym Andriushchenko. Der 29-jährige Forscher entwickelte die Methode zusammen mit Francesco Croce und Nicolas Flammarion am Theory of Machine Learning Laboratory der EPFL.

Sie knackten die KI-Systeme mit einem sogenannten Jailbreak (Gefängnisausbruch). Dabei manipulieren sie die Systeme so, dass diese auch verbotene Anfragen beantworten. Die Methode gleicht einem modernen Schlüsseldienst mit drei Werkzeugen: standardisierten Schlüsseln für häufige Schlösser, Erfahrungswerte von früheren Öffnungen und einem digitalen Scanner für neue Kombinationen. Das automatisierte Knacken mit Tausenden Abfragen dauert laut Andriushchenko zwischen zehn und 60 Minuten.

Google hat bereits reagiert

Für den EPFL-Forscher zeigt dies ein tieferliegendes Problem: «Es gibt einen grundsätzlichen Konflikt zwischen Hilfsbereitschaft und Sicherheit», sagt Andriushchenko. «Wenn das System nur hilfsbereit sein soll, müsste es auch gefährliche Anfragen beantworten.»

Mehr zu ChatGPT

Schweizer Umfrage zeigt

Für die Mehrheit ist KI eine Chance – für manche eine Angst

Das steckt dahinter

«Bitte stirb» – Google-KI wünscht Nutzer den Tod

ChatGPT lanciert «Advanced Voice»-Modus in der Schweiz

Mit Video

Nach langer Wartezeit

ChatGPT lanciert «Advanced Voice»-Modus in der Schweiz

Mega-Panne bei OpenAI

KI-Gigant löscht Beweise im Millionen-Prozess

Die Tech-Unternehmen kennen diese Schwachstellen. Sie stufen die Gefahr aber als überschaubar ein. «Diese Informationen findet man ohnehin im Internet», sagt auch Andriushchenko, der in der Vergangenheit auch schon für OpenAI und Anthropic Sicherheitstests durchgeführt hat. Dennoch warnt er: «Sobald KI-Systeme autonomer werden und selbstständig handeln, brauchen wir bessere Mechanismen.»

Google hat reagiert und die Erkenntnisse der EPFL-Forscher genutzt, um das KI-Modell Gemini 1.5 robuster zu machen. Andere Anbieter dürften folgen.

EPFL-Forscher knacken Sicherheitssperren von ChatGPT & Co. Bomben bauen, Drogen mischen, Server hacken

Darum gehts

KI-Forschung an der EPFL

Google hat bereits reagiert

EPFL-Forscher knacken Sicherheitssperren von ChatGPT & Co.
Bomben bauen, Drogen mischen, Server hacken