RoboPAIR: Ein neuer Ansatz zum Jailbreak von LLM-gesteuerten Robotern

Die Forscher der School of Engineering and Applied Science an der University of Pennsylvania haben alarmierende Sicherheitsprobleme aufgedeckt. Diese betreffen den Einsatz großer Sprachmodelle (LLMs) zur Steuerung von Robotern. Kürzlich demonstrierten sie einen Jailbreak-Angriff auf LLM-gesteuerte Roboter durch ihr neuartiges Tool namens RoboPAIR.



Einfachheit des Jailbreaks


Die Wissenschaftler beschreiben die eingesetzte Methode als „alarmierend einfach“. Daher fordern sie dringend umfassendere Sicherheitsmaßnahmen für Roboter die auf LLM-Technologie basieren. Der Jailbreak ist also nicht nur theoretisch – er ist ebenfalls in der Praxis umsetzbar.



RoboPAIR im Einsatz


In ihrer Studie entwickelten die Forscher RoboPAIR und führten Tests an drei unterschiedlichen Robotersystemen durch. Der Roboterhund Go2 von Boston Dynamics war einer der Probanden. Auch der Jackal von Clearpath Robotics und der selbstfahrende Simulator Dolphins LLM von Nvidia wurden verwendet. Diese Systeme zeigten sich widerstandslos gegen die Sicherheitsprotokolle.



Hohe Erfolgsquote des Jailbreaks


Die Forscher stellten fest, dass ihr System eine beeindruckende Erfolgsquote von 100 % beim Jailbreak erzielte. Dies geschah trotz der unterschiedlichen Zugriffs- und Transparenzmöglichkeiten der Systeme. Der Einsatz der Anwendungsprogrammierschnittstelle (API) des Zielroboters erlaubte es den Angreifern, spezifische Eingabeaufforderungen zu gestalten. So gelang es – die Sicherheitsfilter zu umgehen.



Methodik des Angriffs


Der Algorithmus verwendet ein Angreifer-LLM um Eingabeaufforderungen an das Ziel-LLM zu übermitteln. Hierbei analysiert der Angreifer die Antworten des Zielsystems und passt die Befehle kontinuierlich an. Schließlich stellt die verfeinerte Vorgehensweise die Ausführung der gewünschten Aktionen sicher.



Manipulation mit RoboPAIR


Die Forscher erprobten mit RoboPAIR die Überzeugungskraft gegenüber den Roboterfähigkeiten. Zunächst wehren Roboter solche Versuche ab. Jedoch präzisieren die Antworten der Maschinen den Befehl mittels welchem die gewünschte Aktion nach und nach ausgeführt wird. Die Prompts in natürlicher Sprache beinhalteten auch Anweisungen zur Codeveränderung.



Unterschiedliche Schwierigkeitsgrade der Angriffe


Beim Dolphins LLM konnten die Wissenschaftler einen White-Box-Penetrationstest durchführen. Dieser ermöglichte vollen administrativen Zugang zum Code. So ließen sich Fahrzeuge dazu anregen, Fußgänger zu überfahren - damit ist der Missbrauch von Technologien gemeint. Der Jackal war als Gray-Box-Anwendung verwundbarer.



Vielfältige Robotersysteme


Der Go2-Roboterhund war als Black-Box nur über Sprachtransmission angreifbar. Er erhielt zahlreiche Upgrades – um im Einsatz bei lokalen Strafverfolgungsbehörden oder im militärischen Bereich zu agieren. Die Forscher schafften es Go2 dazu zu bringen verbotene Zonen zu überqueren oder gar explosive Geräte abzulegen.



Relevanz der Forschung


Die Wissenschaftler informierten die Hersteller und führende Unternehmen aus der KI-Branche über ihre Ergebnisse. In ihrer Mitteilung machten sie jedoch deutlich: Der Einsatz von LLMs sollte nicht eingestellt werden.



Zukunftsausblick


Alexander Robey Postdoktorand an der Carnegie Mellon University sieht Hoffnung in der Forschung. Gegenüber IEEE Spectrum äußerte er den Wunsch, dass ihre Arbeit zu „robusten Abwehrmaßnahmen für Roboter“ führen kann. Nur wenn die stärksten Angriffe erkannt werden können wirksame Sicherheitsvorkehrungen getroffen werden.






Kommentare


Anzeige