Durchbruch in der KI-Sicherheit: Policy Puppetry Attack

Bild: Durchbruch in der KI-Sicherheit: Policy Puppetry Attack

Ein innovatives Team von Sicherheitsforschern hat einen bedeutenden Fortschritt in der KI-Sicherheit erzielt. Die Methode die als Policy Puppetry Attack bekannt ist, kann die Schutzmaßnahmen gegen gefährliche CBRN-Bedrohungen (chemische, biologische, radiologische und nukleare) und ebenfalls Gewalt und Selbstverletzung bei vielen großen Sprachmodellen (LLMs) erfolgreich umgehen. Das Unternehmen HiddenLayer untersucht diesen Bypass-Mechanismus.



Modellübergreifende Angriffe auf LLMs


Die Sicherheitsforscher testeten die Policy Puppetry Attack an populären Gen-AI-Modellen. Dazu gehören große Marken wie OpenAI, Google, Meta, Microsoft, Anthropic, Mistral und Qwen. Die Ergebnisse waren alarmierend. Die Angriffe funktionierten durchweg – obwohl manchmal mit kleinen Anpassungen. Conor McCauley, Projektleiter, war überrascht von der Effizienz: „Wir fanden eine Umgehungsmethode die bei ChatGPT 4o äußerst erfolgreich war. Die gleiche Eingabe hat auch bei allen anderen Modellen funktioniert.“



Erschütternde Erkenntnisse über KI-Sicherheit


Die aktuellen Schutzbarrieren gegen solche Angriffe sind erkennbar schwächer wie die Tech-Community erwartet hatte. Bei der Untersuchung kam HiddenLayer zu dem Schluss. Dass Angreifer nun keine spezialisierten Kenntnisse weiterhin benötigen. Sie können einfach eine Point-and-Shoot-Methode anwenden – ein universeller Ansatz der gegen jedes KI-Modell anwendbar ist.



Die Funktionsweise der Policy Puppetry Attack


Diese neuartige Angriffstechnik basiert auf einer Kombination aus intern entwickelter Richtlinientechnik und Rollenspiel. Die Forscher formulieren Prompts so – dass sie wie spezifische Richtlinientypen aussehen. Dies führt dazu, dass die KI-Modelle diese Eingaben als legitime Anweisungen annehmen, selbst unter sie gegen die Sicherheitsrichtlinien verstoßen.



Rollenspiel als Mittel zur Umgehung


Durch den Einsatz von Leetspeak und kreativen Rollenspiel-Szenarien gelang es die Erkennungssysteme der Modelle zu überwinden. In beeindruckenden Experimenten konnte das Team von HiddenLayer mehrere LLMs dazu bringen, gefährliche Anleitungen zur Herstellung von Uran oder Giftstoffen zu liefern. Dies unterstreicht die Ernsthaftigkeit der neuartigen Angriffe.



Potenzielle Gefahren durch KI


Der Einsatz der Policy Puppetry Attack ist beunruhigend. Es besteht das Risiko – dass jeder mit Zugang zu den Modellen potenziell gefährliche Informationen generieren kann. HiddenLayer mahnt, dass diese Verwundbarkeit ernsthafte Konsequenzen haben könnte. Besondere Dringlichkeit liegt in Bereichen wie Medizin oder Recht wo falsche Informationen verheerende Folgen haben können.



Insgesamt zeigt sich, dass hochwertige Sprachmodelle verwundbar bleiben. Die Herausforderung der KI-Sicherheit wird einen langen Wettlauf zwischen den Entwicklern und potenziellen Angreifern darstellen.






Kommentare

: Ein Weckruf für die Branche
Die Entdeckung des universellen Bypasses hebt die Notwendigkeit hervor, KI-Sicherheit ernsthaft anzugehen. Die Branche muss neue Schutzmaßnahmen ausarbeiten. Diese sollten tief in die Architektur der KI-Modelle integriert werden, anstatt nur oberflächliche Verbesserungen zu bieten. Jason Martin von HiddenLayer beschreibt die Herausforderung treffend: „Die Schwachstelle liegt tief in den Trainingsdaten des Modells. Es ist nicht so einfach wie ein Codefehler.“


Anzeige