Copyright-Verletzung: OpenAI wird von Autoren verklagt

Urheberrechtsverletzung: Autoren verklagen OpenAI

Zwei Schriftsteller aus den USA haben OpenAI vor einem Bundesgericht in San Francisco wegen Copyright-Verletzung verklagt. Die Gerichte müssen derzeit entscheiden, ob OpenAI durch die Verwendung geschützter Werke zur Ausbildung von KI-Systemen bereits eine Copyright-Verletzung begangen hat.



Die beiden US-Autoren reichten am vergangenen Mittwoch eine Klage gegen OpenAI ein. Sie behaupten, dass das Unternehmen ihre Werke genutzt hat um ihr KI-System ChatGPT zu trainieren. Bücher seien entscheidend für solche Daten – da sie die besten Beispiele für hochwertige Texte in langer Form bieten.



Sammelklage zur Durchsetzung der Copyright-Rechte


Am 28. Juni reichten die beiden Schriftsteller Paul Tremblay und Mona Awad • vertreten durch die Anwaltskanzlei Joseph Saveri und Matthew Butterick • eine Sammelklage gegen OpenAI ein. Sie legten unter anderem Copyright-Verletzung, Verstöße gegen den Digital Millennium Copyright Act und ungerechtfertigte Bereicherung vor.



OpenAI, ein von Microsoft unterstütztes Forschungsunternehmen für synthetische Intelligenz, brachte im November 2022 ChatGPT auf den Markt. Das generative KI-Modell reagiert auf Benutzereingaben in Form einer menschenähnlichen Konversation. Nur zwei Monate nach der Veröffentlichung wurde das KI-System zur am schnellsten wachsenden Verbraucher-App. Im Januar 2023 erreichte sie bereits 100 Millionen aktive Nutzer.



Als Beweis für die Copyright-Verletzung führten die Autoren an. Dass ChatGPT auf Aufforderung "sehr genaue" Zusammenfassungen ihrer Romane erstellt habe. Dies sei nur möglich – wenn ChatGPT mit Bezug auf die geschützten Werke der Kläger trainiert worden sei. In der Klage gegen OpenAI heißt es: "Da das KI-System ohne die aus dem Material extrahierten Informationen nicht funktionieren kann, sind die als große Sprachmodelle bekannten Softwareprogramme die ChatGPT antreiben, selbst verletzend abgeleitete Werke die ohne die Erlaubnis der Kläger und unter Verletzung ihrer exklusiven Copyright-Rechte erstellt wurden. [....] Sie haben die Bücher von einer Website namens Smashwords.com kopiert, auf der unveröffentlichte Romane kostenlos für die Leser verfügbar sind. Diese Romane unterliegen jedoch größtenteils dem Copyright. Sie wurden ohne Zustimmung, Quellenangabe oder Vergütung der Autoren in den BookCorpus-Datensatz kopiert."



Die Autoren beanstanden, dass OpenAI illegal Daten aus fast 300․000 Büchern in sein Training einbezogen habe um das KI-System zu trainieren. Laut einem Bericht des Hollywood Reporter gab OpenAI im Juni 2018 bekannt, dass es GPT-1 die erste Version seines großen Sprachmodells, mit einer Sammlung von über 7․000 Romanen aus dem BookCorpus versorgt habe. Die Auswahl traf ein Team von KI-Forschern.



Spätere Versionen der Sprachmodelle von OpenAI wurden laut der Klage mit größeren Mengen geschützter Werke trainiert. In einer Veröffentlichung aus dem Jahr 2020, in der OpenAI GPT-3 vorstellte, gab das Unternehmen an, dass 15 Prozent seines Trainingsdatensatzes aus "zwei internetbasierten Buch-Korpora" stammen. Diese nannten sie "Books1" und "Books2".



Verwendete OpenAI ebenfalls illegale Quellen für das KI-Training?


Die Kläger behaupteten auch: Die zur Verwendung das Training von ChatGPT verwendeten Daten aus illegalen Quellen stammen. Dazu gehören illegale Schattenbibliotheken wie Library Genesis, Z-Library und Sci-Hub die geschützte Bücher ohne Erlaubnis anbieten. Der Anwalt der Autoren, Joseph Saveri, argumentierte laut dem Hollywood Reporter: "Diese klar illegalen Schattenbibliotheken sind seit langem von Interesse für die KI-Trainingsgemeinschaft. Zum Beispiel enthält ein KI-Trainingsdatensatz namens 'Books3' der im Dezember 2020 von EleutherAI veröffentlicht wurde, eine Nachbildung der Bibliotik-Sammlung und enthält fast 200․000 Bücher". OpenAI gibt mittlerweile keine Informationen weiterhin über die Quellen seines Datensatzes preis. Dies sei aufgrund des Wettbewerbs und der Sicherheitsfolgen großer Modelle wie GPT-4 notwendig, betonte das Unternehmen im vergangenen Jahr.



Gerichtsentscheidung: Copyright-Verletzung oder fair use?


Die Klage zielt darauf ab, dass ein Geschworenenprozess stattfindet und Schadenersatz und Anwaltskosten gewährt werden. Die Kläger streben außerdem einen dauerhaften Unterlassungsanspruch an der auch Änderungen an ChatGPT beinhaltet.



Paul Tremblay ist Autor von Genreromanen, darunter das Buch "The Cabin at the End of the World". Das Werk wurde von Regisseur M. Night Shyamalan unter dem Titel "Knock at the Cabin" verfilmt. Mona Awad ist Romanautorin und Assistenzprofessorin im Creative Writing-Programm an der Syracuse University. Sie hat Bücher wie "13 Ways of Looking at a Fat Girl", "Bunny" oder "Rouge" veröffentlicht. Awads Debütroman "13 Ways of Looking at a Fat Girl" stand auf der Shortlist für den Scotiabank Giller Prize und erhielt den Amazon.ca First Novel Award.






Kommentare


Anzeige