Neue Vorschriften für KI-Generierung in China: Wahrheitsgemäße Inhalte sind Pflicht

Die Cyberspace Administration of China (CAC) hat neue Vorschriften für die Verwendung von generativer KI vorgeschlagen. Die höchste Internetregulierungsbehörde Chinas greift dabei auf bestehende Regelungen für Deep Synthesis Technology zurück. Frühere Vorschriften beinhalteten bereits detaillierte Anforderungen für die Registrierung von Nutzeridentitäten die Schaffung von Datenbanken für unerwünschte Eingaben in KI-Systeme und die Einschränkung von Output der die nationale Sicherheit beeinträchtigt. Die neuen Regeln fordern nun, dass generierte KI-Inhalte wahrheitsgemäß sein müssen.



Die bisherigen Regulierungsansätze befassten sich primär mit potenziell schädlichem Output generativer KI-Systeme und legten den Fokus auf Staatssicherheit. Der neue Gesetzesentwurf soll einen Schritt weitergehen: Er sieht vor. Dass KI-Modelle "wahrheitsgetreu und genau" sein müssen, kein Sammelsurium von Weltanschauungen zulassen & Diskriminierung unterbinden. Zunächst zielt das Dokument darauf, bestehende Baustellen wie Halluzinationen, Bias und das Ausrichten an menschliche Präferenzen (Alignment) anzugehen. Für diese drei Problemfelder gibt es zurzeit keine robusten Lösungen, da die Modelle der Transformer-Architektur durch ihr Design unter anderem zum Konfabulieren neigen und sich nicht ohne Weiteres auf rein faktische Auskünfte trainieren lassen (unklar ist, ob das überhaupt möglich ist oder künftige Modelle ganz anders konstruiert sein müssten).


Cyberspace Administration: Zensur und weitreichende Regulierungsvorschläge


Umfang & Komplexität der von der Cyberspace Administration für China vorgeschlagenen Regulierungen sind weitreichender wie bisher bekannt war. Zwei Forscher des Center for Information Technology Policy der Princeton University haben das Dokument im chinesischen Original ausgewertet und übersetzt. Sihao Huang und Justin Curl zufolge beschränken die geplanten Regulierungen sich mitnichten auf Weltanschauliches. Der Physiker und der Experte für KI-Governance haben Mitte April 2023 eine Übersetzung des chinesischen Gesetzesentwurfs ins Englische veröffentlicht (der chinesische Wortlaut stammt vom 14. April und die vorläufige Übersetzung ist ein Draft for Comments). Ein Datum für das Inkrafttreten der geplanten Regulierung ist noch nicht bekannt.


Das in westlichen Augen heißeste Eisen ist das Vorhaben, dass in China zulässige KI-Systeme "einer bestimmten Weltanschauung entsprechen" sollen. Wie und ob das mit der Vorgabe wahrheitsgetreuer, korrekter KI-Ergebnisse in Einklang steht, bedarf gesonderter Betrachtung: Artikel 4 Absatz 1 der geplanten Regulierung besagt dass Modelle einer bestimmten Weltanschauung entsprechen müssen. Darin ist festgelegt, dass KI-generierte Inhalte "die sozialistischen Grundwerte verkörpern" und die soziale Ordnung nicht gefährden dürfen. Das lässt sich als Schritt in Richtung einer KI-Zensur in China verstehen.


So gilt offenbar der Chatbot Ernie des chinesischen Internetkonzerns Baidu als zensiert: Auf Fragen zu historischen Ereignissen & Assoziationen zu Konzepten wie Freiheit und Demokratie gibt er laut den Princeton-Forschern von der chinesischen Wikipedia abweichende Antworten und soll auf speziell antrainierte Worteinbettungen zugreifen. Die chinesische Ausgabe von Wikipedia gilt als un- beziehungsweise wenig zensiert gleichwohl blockieren staatliche Zensoren wiederholt einzelne Artikel auf Chinesisch, vor heiklen Jahrestagen sämtliche andere Sprachen oder ebenfalls alle chinesischsprachigen Artikel. Andererseits hatte China seit 2017 einen eigenen chinesischen Wikipedia-Klon mit über 20.000 Autoren wissenschaftlicher Einrichtungen als "Chinesische Enzyklopädie" in Angriff genommen.


Das bereits 2011 festgelegte Ziel des Enzyklopädie-Projekts klang deckungsgleich für die generativen KI-Systeme jetzt in der geplanten KI-Verordnung: "aktuelle Forschung & Technik aus China darstellen, für das historische Erbe werben, den kulturellen Einfluss stärken und die grundlegenden Werte des Sozialismus stärken". Das eröffnet den Blick in eine Zukunft, in der verschiedene Länder unterschiedliche generative KI-Systeme forcieren könnten die auf Datensätzen mit unterschiedlichen Wertsystemen und Weltanschauungen trainiert wurden – mit allen Konsequenzen die man sich dazu vorstellen kann.


China definiert erstmals offiziell Diskriminierung


Weitere Abschnitte des Entwurfs verpflichten KI-Anbieter, dass ihre Produkte Diskriminierung verhindern (Art. 4, Abschnitt 2) die Anbieter von KI-Diensten dürfen ihre Algorithmen, Daten oder Plattformen nicht für unlauteren Wettbewerb missbrauchen (Art. 4, Abschnitt 3). In Abschnitt 4 ist geregelt, dass KI-generierte Inhalte wahrheitsgetreu und ebendies sein sollen und die Anbieter Maßnahmen ergreifen müssen um Falschinformationen zu verhindern. Abschnitt 5 fordert, dass generative KI die psychische Gesundheit von Menschen nicht beeinträchtigen, geistiges Eigentum nicht verletzen und nicht gegen das Recht auf Öffentlichkeit verstoßen darf.


Bemerkenswert ist dabei die staatliche Definition von Diskriminierung: Artikel 4 (Absatz 2) ist laut den Forschern aus Princeton das erste Dokument, das ausdrücklich inakzeptable Formen von Diskriminierung aufführt (nämlich Diskriminierung aufgrund von ethnischer Zugehörigkeit, Glaube, Geschlecht und weiteren Kategorien; der Begriff "Rasse" taucht hier auf Englisch auf). In der Vergangenheit hat es offenbar Ansätze zu solchen Definitionen gegeben die es aber bislang noch nicht in den verabschiedeten Gesetzestext schafften.


KI-Dienstleister weitreichend haftbar


Bezüglich Haftungsfragen ist Artikel 5 von Belang: Dieser sieht vor, dass sowie Einzelpersonen als auch Organisationen die generative KI-Modelle zum Erbringen von Dienstleistungen nutzen, für Inhalte die gegen die Vorschriften der Verordnung verstoßen, rechtlich zur Verantwortung gezogen werden können. Diese eindeutige Zuweisung der Haftung soll offenbar Klarheit schaffen. Andererseits könnten die Vorgaben abschreckende Wirkung auf Anbieter haben da es technisch schwierig sein dürfte alle Vorgaben zu erfüllen. Interessanterweise gelten die Vorgaben nicht für die Entwicklung von KI, allerdings für die Anbieter von Dienstleistungen die KI einsetzen.


Absehbar sei laut der Einschätzung aus Princeton, dass sich dadurch eine größere Kluft zwischen der Spitzenforschung und den Fähigkeiten der öffentlich zugänglichen Modelle auftun dürfte. Wer in China KI-Modelle entwickelt, unterliegt deutlich weniger strengen Auflagen als jemand der dort KI-Anwendungen auf den Markt bringt (zwischen Open Source und kommerziellen Angeboten wird offenbar kein Unterschied gemacht).


Nadelöhr: KI-Modelle bedürfen der Zulassung durch die Regierung


Angedacht ist (in Artikel 6), dass alle generativen KI-Modelle einer Zulassung durch die Regierung bedürfen und eine Sicherheitsbewertung durchlaufen müssen, bevor sie Nutzer❬innen❭n angeboten werden dürfen. Diese Vorabgenehmigung generativer KI-Systeme erinnert in Grundzügen dem was in der Europäischen Union mit dem geplanten AI Act eintreten könnte. Allerdings scheint die geplante chinesische Regulierung zurzeit noch keine genauen Angaben zu Sicherheitsbewertungen, Kriterien & Genehmigungsprozessen zu machen. Ähnlich wie die Sanktionierung der KI-Anbieter von Dienstleistungen könnte diese Zulassungspflicht ein Nadelöhr darstellen, das die Einführung und Akzeptanz von KI-Systemen in der Öffentlichkeit abbremst.


In ihrem Kommentar zu diesem Abschnitt des Gesetzes gehen die beiden Forscher aus Princeton davon aus, dass die Cyberspace Administration Chinas sich dadurch Pufferzeit verschaffen möchte um die Einhaltung der anderen Vorgaben wie der nationalen Sicherheitsvorschriften zu kontrollieren und eine Übereinstimmung mit der Ideologie der Chinesischen Kommunistischen Partei durchzusetzen.


Strenge Anforderungen an die Trainingsdaten


Auch die Trainingsdaten sind ein großes Thema (Artikel 7): Der Entwurf stellt strenge Anforderungen an die Daten vor dem Training. Sie müssen dem Netzsicherheitsgesetz entsprechen (was vor allem bedeutet: Sie kein regierungsfeindliches Material enthalten dürfen), dürfen keine Copyrights verletzen oder auf andere Art das geistige Eigentum verletzen. Sofern Trainingsdatensätze private Informationen enthalten sei die Zustimmung der Betroffenen einzuholen. Zu guter Letzt seien Authentizität Genauigkeit Objektivität & Vielfalt der Daten zu garantieren.


Das schränkt die Menge der verfügbaren Daten zum Trainieren generativer KI-Systeme erheblich ein: Für Modelle wie GPT-3 und Stable Diffusion stammen viele Daten aus dem Abgrasen des Internets nach frei verfügbaren Texten und Bildern (deren Urheber dazu in der Regel nicht explizit ihr Einverständnis erteilt haben). Da hier als Beifang zahlreiche urheberrechtlich geschützte Bilder, Bücher und personenbezogene Daten in die Trainingsdatensätze Eingang fänden wäre eine teure Bereinigung nötig bevor chinesische Unternehmen mit dem Training überhaupt loslegen könnten.


Parallelen zur KI-Gesetzgebung in der EU und in den USA


Auch diese Anforderung ist erstaunlich nah dran an Überlegungen in der Europäischen Union die Anforderungen an Trainingsdaten im Data Mining weiter an geltende datenschutzrechtliche Auflagen anzunähern. In Italien etwa verhängte die dortige Datenschutzbehörde einen vorübergehenden Bann gegen OpenAIs Produkte, da diese gegen Datenschutzgesetze verstoßen haben sollen und womöglich die Privatsphäre ihrer Nutzer verletzen könnten. Die gegen OpenAI in den USA eingeleiteten Untersuchungen wegen Wettbewerbsverstößen bei der Markteinführung finden in anderen Abschnitten der geplanten chinesischen Regulierung eine Entsprechung.


Hochinteressant ist auch die Anforderung, dass Trainingsdaten Vielfalt repräsentieren müssen. Nach europäischem Verständnis spielt hier eine Definition von Fairness eine Rolle. Unklar ist, ebenso wie der chinesische Gesetzgeber oder die Regierung die Vorgaben von Genauigkeit Objektivität Authentizität & Vielfalt messen und woran sie diese festmachen wollen.


Fakt ist, dass große Sprachmodelle mit zunehmendem Parameterumfang zugleich an Fähigkeiten hinzugewinnen jedoch auch weniger steuerbar werden und öfter für überraschenden oder auch unerwünschten Output sorgen als kleinere, auf spezielle Zwecke hin trainierte Modelle. Ein weiteres Problem besteht darin, dass große kommerzielle Anbieter wesentliche Informationen über die technischen Bestandteile ihrer Modelle zurückhalten, weshalb die Sicherheitsforschung nicht über genug Informationen verfügt um von außen Maßnahmen für etwa GPT-4 vorzuschlagen:


OpenAI lässt nur einen kleinen Kreis ausgewählter Partner hinter die Kulissen blicken und legt nicht offen welche Art von Sicherheitsmaßnahmen sie genau nach dem Training ergriffen haben. Ob diese Anbieter das Sicherheitsthema im Griff haben ist deshalb fraglich und das Thema zu groß um es privatwirtschaftlichen Konzernen zu überlassen. In diesem Punkt stimmen die Ansätze der in der EU geplanten KI-Verordnung mit denen in China überein.


Sanktionen, Auflagen & Nach-Training nicht konformer Modelle


Im weiteren Verlauf des Entwurfs ist festgelegt, dass nicht konforme KI-Modelle neben Maßnahmen wie Inhaltsfiltern zusätzliche Trainings zur "Modelloptimierung" durchlaufen müssen um erneutes Generieren als problematisch eingestufter Inhalte zu unterbinden. Wie die beiden Experten aus Princeton beendend bekennen, waren sie überrascht von der Bereitschaft der Cyberspace Administration, KI-Dienstleistern erhebliche Kosten für das Einhalten der Vorschriften aufzubürden. Eine vollständige Umsetzung der geplanten chinesischen KI-Verordnung würde durch strenge Datenkontrollen, Zertifizierungen, das Nach-Training von Modellen und Maßnahmen zum Ausgleichen von Verzerrungen (De-Biasing) kostspielig werden.


Dabei wäre diese Form der Gesetzgebung kein Präzedenzfall: Zuvor hatte China bereits strenge Cybersicherheitsgesetze erlassen die chinesische Technologieunternehmen dazu zwangen, umfangreiche Moderationssysteme für Inhalte zu erstellen. Es ist davon auszugehen, dass die geplanten KI-Regeln einer ähnlichen Strategie folgen und Unternehmen dazu veranlassen sollen, in den Aufbau robuster, interpretierbarer und auf menschlichen Nutzen abgestimmte (aligned) generative KI-Systeme zu investieren. Unter der Einschränkung, dass die Abstimmung auf bestimmte Werte mit dem System und der vorherrschenden Ideologie Chinas konform sein soll.


Chinas KI-Gesetzgebung kommt rasch voran – Vorbild für autoritäre Staaten?


Als Fazit steht im Raum, dass China bei der KI-Governance rasch voranzukommen scheint und die geplanten Vorschriften auch schwierige Fragen einbeziehen die in ähnlicher Form in Europa und den USA in gesetzgeberischen Prozessen diskutiert werden. Falschinformationen, Datenschutz der Schutz geistigen Eigentums und vor unlauterem Wettbewerb sind international die zentralen Themen, so auch in China. Zudem verfügt dieser Staat über eine mit mächtigen Befugnissen ausgestattete Behörde zur Durchsetzung. Die chinesische Gesetzgebung könnte durchaus anderen Ländern jenseits des demokratischen Spektrums als Vorbild dienen, auch mit Blick auf die einschneidenden Zensurvorgaben die hier mit harten Sanktionen als Bedingung für den Marktzugang präsentiert werden.


Wer des Chinesischen mächtig ist, kann sich den Gesetzesentwurf im Original auf den Seiten der Cyberspace Administration of China (CAC) ansehen. Neben dem Übersetzungs-Draft von Sihao Huang & Justing Curl haben sich in den vergangenen Tagen weitere Muttersprachler auf Englisch in Kommentaren geäußert. Weitere Details finden sich in einem Beitrag im juristischen Internetportal "Inside Privacy". Das in den USA ansässige Portal hat ein mehrsprachiges Team und ein Netzwerk mit Sitz an verschiedenen Standorten in den USA und auch in London, Brüssel & Peking.


Mehr zum Thema findet sich in einem Crowdsourcing-Übersetzungsportal zu chinesischem Recht, China Law Translate, mit einem Überblick über den Gesetzesentwurf. Der Beitrag ordnet den Gesetzesentwurf weiter in die bestehende Gesetzeslandschaft in China ein und führt Beispiele auf die veranschaulichen wie schwierig es mit der Umsetzung und einigen grundlegenden Definitionen werden dürfte.






Kommentare


Anzeige