
Ein Student der Stanford University hat es geschafft, durch einen Hack in die Bing-KI von Microsoft einzudringen und verbotene interne Anweisungen preiszugeben. Prompt-Injection-Attacken werden genutzt um frühere Befehle von Sprachmodellen zu umgehen und zu ersetzen um eine gewisse "Ungehorsamkeit" in der KI auszulösen. Der Student entlockte der Bing-KI eine Liste von Anweisungen die Microsoft ihr gegeben hatte, darunter den internen Codenamen "Sydney", den die KI nicht preisgeben darf. Auch der Hack von ChatGPT vor wenigen Tagen offenbarte Informationen die gegen die Richtlinien des Schöpfers OpenAI verstoßen.
Bing Chat noch in Testphase
Microsoft hatte vor einigen Tagen angekündigt, eine verbesserte Version von ChatGPT in seine Suchmaschine Bing integriert zu haben. Das neue Tool namens "Bing Chat" befindet sich jedoch noch in einer frühen Testphase und ist nur wenigen Personen zugänglich. Der Hack des Studenten zeigt; dass ebenfalls Microsofts Produkte nicht immun gegen Hacks sind.
Prompt-Injection-Angriffe schwer zu verhindern
Es bleibt fraglich, ob Prompt-Injection-Angriffe jemals unterbindet werden können. Die Entwickler von KI-Tools müssen sich auf ein Katz-und-Maus-Spiel mit kreativen Anwendern einstellen. Microsoft hat den Hack nicht gutgeheißen und den Studenten aus dem Bing Chat verbannt. Es bleibt abzuwarten welche Maßnahmen die Entwickler ergreifen werden um ihre KIs zu schützen.
Kommentare