Blog
Daniel Niedermayer
Chief Sales Officer, Retresco
Schon länger ist bekannt, dass große Sprachmodelle wie ChatGPT oder Google Gemini Verlagsinhalte für ihre eigenen Trainingszwecke nutzen. Dabei erfolgt weder eine finanzielle Beteiligung noch liegt eine offizielle Zustimmung vor. Zudem bleiben die Urheberschaft und die Quellen der Informationen unerwähnt. So nutzte OpenAI beispielsweise Inhalte aus dem CommonCrawl, um seine GPT-Modelle zu trainieren. CommonCrawl schöpft regelmäßig Internet-Inhalte ab und gibt diese kostenlos zum Download "zur weiteren Verwendung". Dabei kommt CommonCrawl nicht hinter korrekt konfigurierte Paywalls. In CommonCrawl sind viele URLs hinterlegt – dies gilt auch für die deutsche Medienlandschaft.
Dies wirft für Medien und Publisher als Urheber der Inhalte eine Reihe von Fragen auf. Trotz der Bemühungen der Verlagsbranche ist dies aufgrund der aktuellen Rechtssituation herausfordernd, wobei weltweit bereits zahlreiche Klagen auf dem Tisch liegen. Diese Systeme nutzen journalistischen Content, lernen daraus und geben transformierte Inhalte als Antworten aus. Während KI-basierte Suchmaschinen wie Bing, Neeva und You.com zumindest teilweise ihre Quellen preisgeben, ist etwa mit ChatGPT nie eindeutig, welche Daten wie genutzt wurden.
„Es ist nichts ,transformativ‘ daran, die Inhalte der Times ohne Bezahlung zu nutzen, um Produkte zu schaffen, die die Times ersetzen”. Mit diesen Worten hat nun die international renommierte Tageszeitung New York Times zum Jahresende Klage gegen zwei der mächtigsten KI-Player der Welt erhoben – nämlich OpenAI und Microsoft. Schon länger hatte die New York Times geprüft, ob sie OpenAI und Microsoft wegen Verletzungen des Urheberrechts beanstanden sollte. Nun muss das New Yorker Gericht entscheiden, wobei Insider spekulieren, ob die NYT und OpenAI nicht im vergangenen Jahr verhandelt haben, ohne eine Einigung erzielen zu können.
Dieser Fall hat in der Medien- und Verlagsbranche sowie darüber hinaus für enormes Aufsehen gesorgt, denn viele Marktteilnehmer werfen OpenAI und Co. vor, Urheber/innen und Verwerter/innen nicht für Klicks und Werbung zu vergüten. Vor diesem Hintergrund beleuchten wir in diesem Artikel rechtliche Aspekte, Unsicherheiten und Potenziale aus der Praxis. In Anbetracht dieser Herausforderungen erörtern wir, wie Medien und Publisher ihre Inhalte schützen können. Darüber hinaus werden Strategien im Umgang mit großen Sprachmodellen sowie die Möglichkeiten der Entwicklung neuer Angebote auf Basis verlagseigener Inhalte diskutiert. Hierbei geht es darum, wie generative KI genutzt werden kann, um die Chancen und Möglichkeiten dieser Technologien für Medien und Publisher optimal zu nutzen.
Die Methoden, die zum Training großer Sprachmodelle angewandt werden, lassen sich im Kern als Content-Scraping charakterisieren – eine Praktik, die keineswegs eine Innovation darstellt. Seit dem Beginn des Internets ist das Scraping oder das „Aufsaugen“ von Online-Inhalten eine Herausforderung dar. Medienhäuser und Publisher, die regelmäßig Inhalte veröffentlichen und damit monetarisieren, können davon betroffen sein. Das Prinzip des Content-Scrapings besteht darin, Inhalte von Drittanbietern zu übernehmen und für Trainings bzw. das „Zurechtmachen“ eigener Sprachmodelle zu nutzen – meist mithilfe automatisierter Tools wie Bots oder Plugins, ohne dabei die eigentlichen Urheber/innen zu würdigen und zu vergüten.
In der Regel widerspricht die Praxis des Content-Scraping den Urheberrechtsgesetzen in den USA und den europäischen Ländern. Auch Google steht dieser Praxis – im Prinzip – ablehnend gegenüber und rät dazu, originäre Inhalte zu generieren. Die Schöpfer großer Sprachmodelle wie OpenAI hingegen verteidigen dagegen ihre Praxis mit dem Argument, dass ihre Verwendung der Inhalte unter die Ausnahmeregelung des „Fair Use“ falle. Sie begründen dies damit, dass ihre Nutzung der Inhalte einem neuen „transformativen“ Zweck dient. Diese Fair-Use-Argumentation rechtfertigt die Nutzung urheberrechtlich geschützter Content-Gewerke ohne Zustimmung der Rechteinhaber für spezifische Zwecke wie Kritik, Kommentierung, Berichterstattung, Lehre oder Forschung.
Gerade erst im Dezember 2023 hat Axel Springer eine Vereinbarung mit OpenAI zur Nutzung verlagseigener Inhalte geschlossen. Es handelt sich hierbei um einen bahnbrechenden Deal und in seiner Größenordnung bislang unerreicht. Axel Springer wird regelmäßig dafür vergütet, das ChatGPT-Nutzer künftig weltweit Zusammenfassungen ausgewählter Nachrichteninhalte von Verlagspublikationen wie Bild, Welt, Politico oder Business Insider erhalten. Dies gilt auch für kostenpflichtige Inhalte. Die Antworten von ChatGPT auf Nutzeranfragen sollen Quellenangaben und Links zu den kompletten Artikeln enthalten, „um für Transparenz zu sorgen und Nutzern weiterführende Informationen zu bieten“. Die Pläne sehen auch die Nutzung von Inhalten der Medienmarken von Axel Springer vor, um das Training von OpenAIs Large Language Models voranzutreiben. Eine vergleichbare Vereinbarung gab es bereits im Sommer 2023 mit der führenden Nachrichtenagentur AP (Associated Press). Aktuell spricht wohl auch Apple mit OpenAI, wobei der Konzern aus Cupertino laut Insidern weitreichende Rechte einfordert.
Interessanterweise verhandelt OpenAI gemäß Presseberichten auch mit führenden Medienhäusern über die Lizenzierung von Inhalten für das Training der eigenen Sprachmodelle. So berichtete zu Jahresbeginn glaubwürdig der US-Finanzdienst Bloomberg. Hierbei der bei dem KI-Unternehmen soll es um Urheberrechtsschutz und die Nutzung verlagseigener Inhalte gehen. Eine Einigung ist im Laufe des Jahres zu erwarten. Es stellt sich allerdings die Frage, ob OpenAI es solche Deals auch für kleinere Medien und Publisher abschließen bzw. standardmäßig anbieten wird. Und wie verhält es sich mit sonstigen Anbietern großer Sprachmodelle und KI-Antwortmaschinen wie Anthropic oder Perplexity?
Die frühzeitige Einigung mit OpenAI war definitiv ein kluger Schachzug von Axel Springer, da die verfügbaren Summen für derlei Vereinbarungen voraussichtlich von Deal zu Deal kleiner werden dürften. Für OpenAI stellt diese Art von Lizenzabkommen wiederum eine Möglichkeit dar, sich vor künftiger Kritik aus dieser Richtung zu schützen und schnellen Zugang zu neuesten Inhalten sicherzustellen. Hierbei ist Google mit Gemini – grundsätzlich – ja immer noch zeitlich voraus, das ChatGPT immer noch nur bis Januar 2022 aktualisiert ist. Durch einen allgemeinen Deal von OpenAI mit Medienhäusern und Publishern wäre der Weg für ein legales Scraping frei. Zugleich sollten die Verlage davon profitieren, dass die Antworten von ChatGPT eine Quellenangabe und Links zu den vollständigen Artikeln enthalten, denen die Inhalte entstammen.
Mit den neuen Verhandlungen reagiert OpenAI auf die Sperrung des „GPT-Bot“, dem Crawler von OpenAI, durch große Medienhäuser wie die New York Times, CNN, Reuters, Disney, Bloomberg und die Washington Post. Auch viele deutsche Medienhäuser sind den Schritt inzwischen gegangen. Im August 2023 hatte OpenAI erstmals öffentlich darüber informiert, wie Website-Betreiber/innen den „GPT-Bot“ vom crawlen von Inhalten abhalten können. Sie müssen dafür wie auch bei anderen Bots üblich der robots.txt-Datei auf ihrer Website einen entsprechenden „Disallow“-Eintrag hinzufügen.
Da die bisherigen Versionen von OpenAIs Sprachmodellen schon große Teile des Internets ohne um Erlaubnis zu fragen „gescrapt“ haben und dies nicht mehr rückgängig zu machen ist, sehen viele Publisher nun trotzdem nur noch die Möglichkeit zu klagen.
Unsere Empfehlung für Medienhäuser und Publisher ist, den Zugang zum GPT-Bot zu blockieren. Ohne einen solchen Ansatz könnten die eigenen Inhalte unbeabsichtigt in die Trainingsdatensätze von OpenAI und Co. einfließen bzw. diese wurden unter Umständen bereits entsprechend von Dritten „abgeschöpft“. Grundsätzlich läuft es den Interessen der Verlage zuwider eigenen Inhalten einfach „scrapen“ zu lassen, insbesondere im Hinblick auf den Schutz ihres Qualitätsjournalismus. Das bedeutet zugleich, dass sich Medienunternehmen und Herausgeber mit der Aktualisierung ihrer Content-Strategie auseinandersetzen müssen, um den neuen Herausforderungen, die große Sprachmodelle und KI-Antwortmaschinen mit sich bringen. Grundsätzlich droht dadurch weniger Website-Traffic, Nutzer/innen, Klickzahlen und Werbeeinnahmen. Gemäß den US-Marktforschern von Gartner hat KI einen unmittelbaren Einfluss auf den organischen Traffic von Suchmaschinen. So wird erwartet, dass die organische Reichweite bei Google und Co. bis 2028 um 50 % sinken wird.
Aber KI bietet Medien und Publishern auch völlig neue Möglichkeiten! Google und Co. nutzen Künstliche Intelligenz, um Inhalte zu „scrapen“ und zusammenzufassen. Damit werden individuelle Nutzersuchen beantwortet. Die Ergebnisse werden in Form von Texten, Bildern und Links zu den gesuchten Themen ausgegeben. Effektiv wird die Suche zu einer KI-Antwortmaschine. Deshalb sind hochwertige, variantenreiche und in die Tiefe gehende Inhalte wichtiger denn je. Google und Co. liefern maßgeschneiderte Suchergebnisse auf Basis von Information Retrievals, d. h., dass die Relevanz für jede Anfrage anhand der Qualität und Vollständigkeit der auffindbaren Inhalte ermittelt wird. Kurzum: Der organische Traffic von Suchmaschinen wird sich vielleicht verringern, aber durch eine gezielte Content-Personalisierung lassen sich Medien-Inhalte maßgeschneiderter auslegen und für einzelne Nutzer auffindbarer machen.
Angesichts dieser Tatsache hat Google damit begonnen, neue Sprachmodelle und KI-Suchen zu implementieren. Neben den USA ist diese neue KI-Suche von Google „Search Generative Experience“ weltweit bereits in mehr als 120 Ländern ausgerollt. Aktuell fehlen nur noch der EU-Raum und UK. Mit SGE wird ein Großteil der individuellen Nutzeranfragen direkt innerhalb der Suchmaschine beantwortet.
Dies sollten Medien und Publisher in ihrer neuen Content-Strategie berücksichtigen:
Content-Scraping durch große Sprachmodelle wie ChatGPT, Google Gemini und Co. wirft eine Reihe von rechtlichen und ethischen Fragen auf, mit denen sich Medien und Publisher auseinandersetzen sollten, da sie sowohl ihre Urheberrechte, Datenschutz als auch Einnahmequellen betreffen. Lizenzabkommen, wie das zwischen OpenAI und Axel Springer, weisen auf eine erste potenzielle Lösung hin, bei der Medienhäuser und Publisher sowohl ihre Inhalte schützen als auch von KI und ihren Möglichkeiten profitieren. Trotzdem empfiehlt es sich verlagseigene Content-Strategien neu zu denken und auszurichten.
Die Nutzung von Textautomatisierung bei wiederkehrenden Content-Formaten kann etwa dazu beitragen, hochwertigen Traffic gezielt zu generieren, gefunden zu werden und Monetarisierungspotenziale abzurufen. Zugleich kann die Erzeugung von Unique Content, der für SEO optimiert ist, die Sichtbarkeit und Reichweite bei Google und Co. signifikant erhöhen. Die Automatisierung von textbasierten Prozessen fördert die Effizienz.
Mit Blick auf die Zukunft erscheint es also als eine notwendige strategische Entscheidung für Medien und Publisher, das Potenzial großer Sprachmodelle zu nutzen, ohne dabei ihre eigenen Interessen und Urheberrechte zu vernachlässigen. Es gilt, die neuen Technologien nicht nur als Herausforderung, sondern auch als Impuls zur Erneuerung zu begreifen. Die Zukunft in der Medien- und Verlagsbranche liegt in dem klugen und strategieorientierten Umgang mit großen Sprachmodellen und KI-Antwortmaschinen – ein Wandel, der sowohl Herausforderungen als auch große Chancen bietet.
Für Fragen und weitere Informationen rund um das Thema Content-Scraping sowie den Umgang mit großen Sprachmodellen und KI stehen wir gerne zur Verfügung. Sprich uns an – unsere Expert/innen melden sich gerne bei dir!