Künstliche Intelligenz (KI) wird zunehmend über verschiedene Bereiche hinweg eingesetzt. Der wachsende Einsatz verlangt umfassende Sicherheitsmaßnahmen. Diese sollen insbesondere den Missbrauch verhindern. Vor kurzem wurde jedoch eine Schwachstelle in ChatGPT-4o entdeckt. Forscher haben eine Jailbreak-Technik entwickelt um die Schutzmaßnahmen durch Hex-Codierung zu umgehen.
Die Jailbreak-Technik im Detail
Die Technik erlaubt es, schadhafte Anweisungen zu übermitteln. Exploit-Codes können so erstellt werden, ohne dass das Modell die Gefahren erkennt. Marco Figueroa Programmmanager für generative KI bei Mozilla beschreibt dies in seinem aktuellen Bericht. Böswillige Akteure nutzen die Leistung von GPT-4o aus. Dabei profitieren sie von integrierten Sicherheitsschranken des Modells. Der Trick besteht darin – das Modell abzulenken. Anweisungen werden unorthodox kodiert und in mehreren Phasen verarbeitet.
Maskierung der schädlichen Absicht
Das Modell von ChatGPT wurde programmiert, keine Antworten auf unangebrachte Anfragen zu geben. Mit der Jailbreak-Technik wird das Modell jedoch angewiesen, hexadezimal codierte Anweisungen zu dekodieren. Zunächst werden harmlose Aufgaben erfüllt. Erst nach der Dekodierung erkennt das Modell die schadhafte Absicht. ChatGPT-4o behandelt dies als legitime Anfrage. Jeder Befehl wird separat ausgeführt und die wahre Intention bleibt dem Modell verborgen.
Gefährliche Schwächen in der KI
Die Hex-Kodierung wandelt Klartextdaten in lesbare Hexadezimalnotation um. Figueroa stellte fest · dass das Modell die dekodierte Zeichenfolge als gültige Aufgabe interpretiert · sobald es umgewandelt wurde. Diese Jailbreak-Technik zeigt eine grundlegende Schwäche der KI-Modelle. ChatGPT-4o hat eine eingeschränkte Fähigkeit zur kontextuellen Wahrnehmung. Es befolgt Anweisungen ohne kritische Beurteilung der Ergebnisse.
Gefahren durch die Jailbreak-Technik
Da das Modell die Schritte auf mehrere Phasen aufteilen kann, verliert es leicht die Übersicht über das Endziel. Oft analysiert es nicht das Gesamtbild. Die KI bewertet nicht die gesamte Anfrage auf Sicherheitsrelevanz. Stattdessen beurteilt sie die einzelnen Schritte isoliert. Erst nach vollständiger Dekodierung erkennt sie das gefährliche Muster. Diese Einsicht kommt oft zu spät.
Schritt-für-Schritt-Anleitung zum Missbrauch
Figueroa veranschaulichte seine Technik. Er erklärte: „Der Docker AuthZ Bypass ermöglicht einem Angreifer, Autorisierungs-Plugins zu umgehen." Dabei betonte er, dass die Wahrscheinlichkeit eines tatsächlichen Angriffs gering sei. Mit einer speziellen API-Anfrage kann ein Engine-API-Client die Anfrage an ein Autorisierungs-Plugin weiterleiten und dabei den Body umgehen. ChatGPT benötigte lediglich eine Minute – um den Code zu erstellen. Ohne Anweisung führte es den Code gegen sich selbst aus.
Empfehlungen zur Verbesserung der KI-Sicherheit
Um solche Schwachstellen zu schließen, sind bedeutende Fortschritte notwendig. KI-Modelle müssen lernen, verdächtige Muster selbstständig zu erkennen. Zu den Mittelpunkt empfohlene Maßnahmen zählt eine verbesserte Filterung für codierte Daten. Robustere Erkennungssysteme sollen frühzeitig im Anforderungsprozess decodieren.
Ein weiteres wichtiges Element ist das Kontextbewusstsein. KI-Modelle müssen in der Lage sein, schrittweise Anweisungen in einem breiteren Kontext zu analysieren. Zudem sollte eine leistungsfähigere Bedrohungserkennung integriert werden. Es ist entscheidend Muster zu erkennen die mit der Generierung von Exploits korrelieren könnten.
Kommentare
Diese Schwachstellen verdeutlichen die Notwendigkeit einer kontinuierlichen Verbesserung von KI-Systemen. Nur durch eine effektive Sicherheitskontrolle kann sichergestellt werden, dass solche Modelle ihr Potenzial ausschöpfen ohne zum Risiko zu werden.