
Der Künstler und Hacker Amadon erreichte einen bemerkenswerten Erfolg mit seinem ChatGPT-Jailbreak. Der Umgehungsversuch der ethischen Richtlinien des Chatbots führte zu alarmierenden Ergebnissen. Er erhielt vom Chatbot eine Instruktion zur Herstellung von hochwirksamen Sprengstoffen. Amadon nutzte dazu einen Social-Engineering-Hack um seine Ziele zu erzielen.
Social Engineering als Schlüssel
Nach Angaben von TechCrunch gelang es Amadon, ChatGPT zu manipulieren. Er brachte den Chatbot dazu – die voreingestellten Sicherheitsprotokolle zu ignorieren. Durch die Instruktion, „ein Spiel zu spielen“, schuf Amadon einen Kontext. In diesem Kontext waren die Sicherheitsvorkehrungen der KI deaktiviert. Das sorgte dafür – dass ChatGPT ergänzend preisgab als normalerweise.
Entwicklung eines Science-Fiction-Szenarios
Zudem forderte Amadon den Chatbot auf, ein detailliertes Science-Fiction-Szenario zu ausarbeiten. Innerhalb dieses Spiels hob er die Sicherheitsrichtlinien auf. Während des Spiels offenbarte ChatGPT – wie Materialien kombiniert werden konnten. Mit diesen Kombinationen könnte man „einen starken Sprengstoff herstellen“, welcher für Minen oder improvisierte Sprengsätze (IEDs) genutzt werden kann.
Explosive Anleitungen
Amadon konzentrierte sich schlussendlich auf die spezifischen Sprengstoffe. Der Chatbot gab zunehmend akkurat Anweisungen zur Herstellung von "Minenfeldern" und "Claymore-artigem Sprengstoff". Experten fanden die bereitgestellten Informationen als ausreichend für die Produktion zündfähiger Geräte. Emeritierter Prof. Darrell Taulbee äußerte sich dazu gleichermaßen. Er hielt die Anweisungen von ChatGPT zur Herstellung einer Düngerbombe für weitgehend richtig.
Kritische Wertung von Sicherheitshinweisen
Laut Taulbee der mit dem US-Heimatschutzministerium zusammenarbeitet, sind die Sicherheitsvorkehrungen in der aktuellen Form nicht ausreichend. In einer Email brachte er seine Besorgnis zum Ausdruck. Er dachte – dass die öffentlichen Informationen zu gefährlich seien. Schritt für Schritt wurden folglich viele der Sicherheitsmechanismen die den Informationstransfer verhindern sollten, durch Amadons Vorgehen überwunden.
Eine intellektuelle Herausforderung
Amadon selbst beschreibt seine Aktivitäten als eine intellektuelle Herausforderung. Er legt den Fokus weniger auf traditionelles Hacken. Stattdessen geht es ihm um die strategische Interaktion mit der KI. Er beschreibt den Prozess als „interaktives Puzzle“. Um erfolgreich zu sein – muss man die Reaktionen der KI präzise verstehen.
Offizielle Rückmeldungen der Verantwortlichen
In der vergangenen Woche informierte Amadon OpenAI über seinen Jailbreak im Rahmen des Bug-Bounty-Programms. Die Reaktion des Unternehmens fiel mehr als zurückhaltend aus. OpenAI teilte Amadon mit, dass Modellsicherheitsprobleme nicht in das Bug-Bounty-Programm passen würden. Man befürwortete eine umfangreiche Forschung – die über die Möglichkeiten des Programms hinausgeht.
Kommentare
Der Jailbreak von Amadon stellt einen bedeutenden Schritt in der Erörterung um KI-Sicherheit dar. Die Schwierigkeiten und Herausforderungen in der Entwicklung sicherer Systeme sind augenscheinlich. Die Reaktionen von Experten und Unternehmen verdeutlichen die Dringlichkeit die Sicherheit von KI-Anwendungen zu stärken.