The Times they are a-changin’ – Bob Dylan

NEW YORK TIMES VS. MICROSOFT. Der Prozess, den der Zeitungsverlag gegen den Digital-Giganten gerade führt, kann richtungsweisende Erkenntnisse für den Umgang mit Urheberrechten bringen. Die wohl renommierteste Mediengruppe der Welt wehrt sich gegen die "Verarbeitung" ihrer Inhalte mithilfe künstlicher Intelligenz.

Die New York Times (“Times”) ist, neben dem Wall Street Journal, der Los Angeles Times und der Washington Post, eine der vier nationalen Newspapers of Record. (Leider hat die Los Angeles Times gerade 100 Mitarbeiter abgebaut und befindet sich in einer prekären Lage, was zum Teil auf fehlende Urheberrechtseinnahmen von Google und Meta zurückzuführen ist - mehr davon unten). Ein Newspaper of Record verdient sich diesen Titel durch strenge Faktenprüfung und Authentizität der Artikel sowie Berichterstattung über Themen von nationaler Bedeutung.

Die Times ist möglicherweise die berühmteste Zeitung der Welt, Microsoft ist derzeit das wertvollste Unternehmen der Welt mit einem Marktwert von 3,009 Billionen US Dollar. Diese beiden Giganten liegen nun im Clinch. Es ist nicht das erste Mal, dass die Times Geschichte schreibt, indem ihr Name mit einem Gerichtsverfahren in Verbindung gebracht wird. Das Urteil New York Times v. Sullivan (1964) ist eine der bedeutendsten Entscheidungen der Supreme Court zum Recht auf freie Meinungsäußerung nach dem Ersten Verfassungszusatzartikel (First Amendment). Es besagt, dass ein public official, um Verleumdung zu beweisen, nachweisen muss, dass die gegen ihn oder sie gemachte Aussage arglistig („actual malice") d.h. in dem Wissen, dass sie falsch war, oder mit reckless disregard for the truth getätigt wurde. Bis dato wurde das Sullivan Urteil zumindest 28.315 Mal in Gerichtsentscheidungen und Sekundärquellen wie Rechtszeitschriften zitiert.

 

Monumentale Auswirkungen

Die Klage New York Times v. Microsoft Corp. and OpenAI, Inc. wurde am 27. Dezember 2023 eingereicht und könnte, wenn sie nicht außergerichtlich verglichen wird (was durchaus möglich ist), in ihrer Bedeutung ebenso monumental werden wie der Fall Sullivan. Der Fall könnte entweder das Ende des generativen maschinellen Lernens (künstliche Intelligenz oder KI), wie es derzeit praktiziert wird, oder des Urheberrechts, wie wir es kennen, bedeuten. Die Times wirft Microsoft und ChatGPT von OpenAI vor, gegen die US-Verfassung und das US-Urheberrecht verstoßen zu haben, indem sie die massiven Investitionen der Times in ihren Journalismus als Trittbrettfahrer ausnutzten und ihr dadurch nicht näher bezifferte, aber offensichtlich Hunderte von Milliarden Dollar an entgangenen Lizenzeinnahmen vorenthalten haben. Die Times argumentiert, dass die generative künstliche Intelligenz ("GenAI") der Beklagten auf large-language models ("LLMs") zurückgreift, die durch das Kopieren und die Verwendung von Millionen von urheberrechtlich geschützten Nachrichtenartikeln, ausführlichen Untersuchungen, Kommentaren, Rezessionen, Anleitungen und mehr der Times erstellt wurden. Die Times räumt zwar ein, dass die Beklagten in großem Umfang auch aus vielen anderen Quellen kopiert haben, aber da die Times wahrscheinlich die wichtigste Zeitung ist, haben sie bei der Erstellung der LLMs besonderen Wert auf die Inhalte der Times gelegt, so dass CHATGPT in Hunderten von Fällen wortwörtlich das auswirft, was in der Times erschienen ist. Schlimmer noch, CHATGPT "halluziniert" manchmal, was bedeutet, dass es glaubhaft Fakten erfindet, die es der Times zuschreibt, und so die Leserschaft verwirrt und dem Ruf der Times schadet.

 

3 – 5 Milliarden Seiten pro Monat KI-Firmen wie Microsoft nutzen in der Regel Common Crawl, eine 2007 gegründete gemeinsützige Einrichtung, um ihre KI-Funktionen zu trainieren. Common Crawl enthält über 250 Milliarden Seiten an Informationen und fügt jeden Monat 3 - 5 Millionen neue Seiten hinzu. Ein Großteil der Informationen, die Common Crawl in seine Datenbank aufnimmt, stammt aus Wikipedia und anderen Quellen, vor allem aber auch aus der Times. Die zu verarbeitenden Informationen werden hingegen als „Token“, d. h. Informationspakete, gespeichert. GPT-3 besteht derzeit aus 13 Billionen Token, von denen, nach Angaben der Times, 100 Millionen, also 0,1% von ihr stammen. Da die Times jedoch für ihre Zuverlässigkeit bekannt ist, wird der Inhalt der Times beim Training stärker gewichtet, was dazu führt, das ChatGPT Times Token häufiger verwendet als andere und sich die gefundenen Informationen eher direkt „merkt“ als sie mit anderen Quellen "zusammenzufassen". Damit CHATGPT in natürlicher Sprache sprechen kann, werden diese Token auf der Grundlage einer statistischen Algorithmus ausgeworfen bei dem Wörter generiert werden, die bei einer bestimmten Abfrage wahrscheinlich auf einander folgen (ähnlich wie bei Autofill Funktion).

In der Klage führt die Times mindestens 100 Fälle an, in denen das, was in der Times veröffentlicht wurde, mit dem identisch ist, was ChatGPT in "natürlicher Sprache" ausgibt. In dieser Hinsicht unterscheidet sich der Fall der Times von einer ähnlichen Klage, Authors Guild v. Google, die 2015 vom Second Circuit Court of Appeals entschieden wurde und die der Supreme Court 2016 zuließ. Dieser Fall wurde mehr als ein Jahrzehnt lang verhandelt und auf der Grundlage von „fair use“ entschieden.

 

 

„Google Books“ als Argument

Der Hintergrund von Author‘s Guild ist folgender: Im Jahr 2004 hatte Google die philanthropische Idee, 20 Millionen Bücher aus den Sammlungen einiger der wichtigsten Forschungsbibliotheken des Landes zu digitalisieren. Die daraus resultierende Datenbank sollte es den Lesern ermöglichen, mit Hilfe von Schlüsselwörtern oder -sätzen nach Büchern zu suchen und dann einen Textausschnitt abzurufen. Die Autoren behaupten, dass es sich hierbei um ein kommerzielles Unternehmen handle und dass ihre Werke ohne Entschädigung raubkopiert würden. Google entgegnete, dass genau das Gegenteil der Fall sei und argumentierte wie folgt: Google Books gives readers a dramatically new way to find books of interest. By formulating their own text queries and reviewing search results, users can identify, determine the relevance of and locate books they might otherwise never have found.” Das Gericht stellte fest, dass Google Books eine Umgestaltung darstellt und somit keine Verletzung der Urheberrechte der Autoren an ihren eigenen Werken. "Transformative fair use" ist ein juristisches Kozept, das auf dem US-Copyright ACt (17 USC §107) beruht und eine unrechtmäßige Verletzung verneint, wenn das neue Werk das „Original“ durch eine neue “expression, meaning or message” verändert. Je größer die Veränderung ist, desto wahrscheinlicher ist es, dass ein Gericht zu dem Schluss kommt, dass keine Rechtsverletzung vorliegt, selbst wenn das zweite Werk einen kommerziellen Zweck verfolgt. In Author’s Guild wurde dazu folgendes festgestellt: “The purpose of [Google’s] copying is highly transformative, the public display of text is limited and the revelations to not provide a significant market substitute for the protected aspects of the originals.”

 

„Wir sind ja nur eine Bibliothek“

Im aktuellen Fall hat Microsoft die Klage der Times noch nicht beantwortet, aber es ist wahrscheinlich, dass man sich auf den Fall Author‘s Guild stützen wird. Das Unternehmen wird argumentieren, dass seine Schulungsmethodik nichts anderes ist als das, was Bibliotheken tun, nämlich Bücher sammeln, speichern und katalogisieren. Was diesen Fall jedoch von Author‘s Guild unterscheidet, ist, dass das, was CHATGPT auf Anfrage produziert, dem, was die Times über Jahre hinweg mit enormen Kosten recherchiert und entwickelt hat, sehr nahekommt. Im Gegensatz zu Author‘s Guild ist es nicht nur ein „Schnipsel“. Die Times argumentiert, dass der Leser nicht nur Informationen findet, die er sonst vielleicht nicht gefunden hätte, sondern dass er die Times gar nicht mehr zu nutzen braucht, also auf deren Kosten ein „free ride“ stattfindet.

 

Ein Jahrhundert Arbeit kostenlos?

Die Times verfügt über mehr als 3 Millionen registrierte Urheberrechte, sie beschäftigt JournalistInnen in über 160 Ländern, die produziert täglich über 250 Originalartikel, sie hat 135 Pulitzer- Preise gewonnen (doppelt so viele wie jede andere Organisation), sie hat 10,1 Millionen bezahlte digitale AbonnentInnen und 50 bis 100 Millionen unbezahlte BesucherInnen pro Woche, die über Suchmaschinen wie Google und Microsofts Bing auf die Inhalte zugreifen. Um diese Kerninvestitionen von Hunderten von Millionen Dollar zu decken, lizenziert das Unternehmen seine Inhalte. Auf der anderen Seite war CHATCPT von Microsoft einen virale  Sensation. Innerhalb des ersten Monats nach seiner Veröffentlichung hatte es 1 Million NutzerInnen, innerhalb von drei Monaten über 100 Millionen NutzerInnen und hat aktuell einen geschätzten Marktwert von 90 Milliarden Dollar. Der Times zufolge profitiert das Unternehmen von fast einem Jahrhungert Arbeit der Times, ohne einen Cent dafür zu zahlen.

Die Times hat Lizenzvereinbarungen für die von Google, Meta und Apple, aber nicht die von Microsoft entwickelten Nachrichtenprodukte ausgehandelt. Dementsprechend stehen die Chancen gut, dass dieser Fall außergerichtlich beigelegt wird, um die sehr heikle Frage zu vermeiden, was im Zusammenhang mit KI fair use ist und was nicht. Andererseits sind die Summen, die auf dem Spiel stehen, so gigantisch, dass dies vielleicht auch nicht der Fall sein wird. Only Times may tell… '

Der Blogger Andres Guadamuz, der den Fall Microsoft in TechnoLlama bespricht, bat CHATGPT um einen abschließenden Witz und erhielt diese Antwort: “Media companies and tech companies in court is like watching two keyboards argue, one stuck on ‘print’ and the other on ‘delete’!”