Blog 16.02.2024

Content-Scraping von Verlagsinhalten: Herausforderungen und Chancen für Medien und Publisher

Daniel Niedermayer

Chief Sales Officer, Retresco

Schon länger ist bekannt, dass große Sprachmodelle wie ChatGPT oder Google Gemini Verlagsinhalte für ihre eigenen Trainingszwecke nutzen. Dabei erfolgt weder eine finanzielle Beteiligung noch liegt eine offizielle Zustimmung vor. Zudem bleiben die Urheberschaft und die Quellen der Informationen unerwähnt. So nutzte OpenAI beispielsweise Inhalte aus dem CommonCrawl, um seine GPT-Modelle zu trainieren. CommonCrawl schöpft regelmäßig Internet-Inhalte ab und gibt diese kostenlos zum Download "zur weiteren Verwendung". Dabei kommt CommonCrawl nicht hinter korrekt konfigurierte Paywalls. In CommonCrawl sind viele URLs hinterlegt – dies gilt auch für die deutsche Medienlandschaft.

Dies wirft für Medien und Publisher als Urheber der Inhalte eine Reihe von Fragen auf. Trotz der Bemühungen der Verlagsbranche ist dies aufgrund der aktuellen Rechtssituation herausfordernd, wobei weltweit bereits zahlreiche Klagen auf dem Tisch liegen. Diese Systeme nutzen journalistischen Content, lernen daraus und geben transformierte Inhalte als Antworten aus. Während KI-basierte Suchmaschinen wie Bing, Neeva und You.com zumindest teilweise ihre Quellen preisgeben, ist etwa mit ChatGPT nie eindeutig, welche Daten wie genutzt wurden.

„Es ist nichts ,transformativ‘ daran, die Inhalte der Times ohne Bezahlung zu nutzen, um Produkte zu schaffen, die die Times ersetzen”. Mit diesen Worten hat nun die international renommierte Tageszeitung New York Times zum Jahresende Klage gegen zwei der mächtigsten KI-Player der Welt erhoben – nämlich OpenAI und Microsoft. Schon länger hatte die New York Times geprüft, ob sie OpenAI und Microsoft wegen Verletzungen des Urheberrechts beanstanden sollte. Nun muss das New Yorker Gericht entscheiden, wobei Insider spekulieren, ob die NYT und OpenAI nicht im vergangenen Jahr verhandelt haben, ohne eine Einigung erzielen zu können.

Dieser Fall hat in der Medien- und Verlagsbranche sowie darüber hinaus für enormes Aufsehen gesorgt, denn viele Marktteilnehmer werfen OpenAI und Co. vor, Urheber/innen und Verwerter/innen nicht für Klicks und Werbung zu vergüten. Vor diesem Hintergrund beleuchten wir in diesem Artikel rechtliche Aspekte, Unsicherheiten und Potenziale aus der Praxis. In Anbetracht dieser Herausforderungen erörtern wir, wie Medien und Publisher ihre Inhalte schützen können. Darüber hinaus werden Strategien im Umgang mit großen Sprachmodellen sowie die Möglichkeiten der Entwicklung neuer Angebote auf Basis verlagseigener Inhalte diskutiert. Hierbei geht es darum, wie generative KI genutzt werden kann, um die Chancen und Möglichkeiten dieser Technologien für Medien und Publisher optimal zu nutzen.

Was ist Content-Scraping und wie legal ist es?

Die Methoden, die zum Training großer Sprachmodelle angewandt werden, lassen sich im Kern als Content-Scraping charakterisieren – eine Praktik, die keineswegs eine Innovation darstellt. Seit dem Beginn des Internets ist das Scraping oder das „Aufsaugen“ von Online-Inhalten eine Herausforderung dar. Medienhäuser und Publisher, die regelmäßig Inhalte veröffentlichen und damit monetarisieren, können davon betroffen sein. Das Prinzip des Content-Scrapings besteht darin, Inhalte von Drittanbietern zu übernehmen und für Trainings bzw. das „Zurechtmachen“ eigener Sprachmodelle zu nutzen – meist mithilfe automatisierter Tools wie Bots oder Plugins, ohne dabei die eigentlichen Urheber/innen zu würdigen und zu vergüten.

In der Regel widerspricht die Praxis des Content-Scraping den Urheberrechtsgesetzen in den USA und den europäischen Ländern. Auch Google steht dieser Praxis – im Prinzip – ablehnend gegenüber und rät dazu, originäre Inhalte zu generieren. Die Schöpfer großer Sprachmodelle wie OpenAI hingegen verteidigen dagegen ihre Praxis mit dem Argument, dass ihre Verwendung der Inhalte unter die Ausnahmeregelung des „Fair Use“ falle. Sie begründen dies damit, dass ihre Nutzung der Inhalte einem neuen „transformativen“ Zweck dient. Diese Fair-Use-Argumentation rechtfertigt die Nutzung urheberrechtlich geschützter Content-Gewerke ohne Zustimmung der Rechteinhaber für spezifische Zwecke wie Kritik, Kommentierung, Berichterstattung, Lehre oder Forschung.

Wie können Medien und Publisher gegen Content-Scraping vorgehen?

Gerade erst im Dezember 2023 hat Axel Springer eine Vereinbarung mit OpenAI zur Nutzung verlagseigener Inhalte geschlossen. Es handelt sich hierbei um einen bahnbrechenden Deal und in seiner Größenordnung bislang unerreicht. Axel Springer wird regelmäßig dafür vergütet, das ChatGPT-Nutzer künftig weltweit Zusammenfassungen ausgewählter Nachrichteninhalte von Verlagspublikationen wie Bild, Welt, Politico oder Business Insider erhalten. Dies gilt auch für kostenpflichtige Inhalte. Die Antworten von ChatGPT auf Nutzeranfragen sollen Quellenangaben und Links zu den kompletten Artikeln enthalten, „um für Transparenz zu sorgen und Nutzern weiterführende Informationen zu bieten“. Die Pläne sehen auch die Nutzung von Inhalten der Medienmarken von Axel Springer vor, um das Training von OpenAIs Large Language Models voranzutreiben. Eine vergleichbare Vereinbarung gab es bereits im Sommer 2023 mit der führenden Nachrichtenagentur AP (Associated Press). Aktuell spricht wohl auch Apple mit OpenAI, wobei der Konzern aus Cupertino laut Insidern weitreichende Rechte einfordert.

Interessanterweise verhandelt OpenAI gemäß Presseberichten auch mit führenden Medienhäusern über die Lizenzierung von Inhalten für das Training der eigenen Sprachmodelle. So berichtete zu Jahresbeginn glaubwürdig der US-Finanzdienst Bloomberg. Hierbei der bei dem KI-Unternehmen soll es um Urheberrechtsschutz und die Nutzung verlagseigener Inhalte gehen. Eine Einigung ist im Laufe des Jahres zu erwarten. Es stellt sich allerdings die Frage, ob OpenAI es solche Deals auch für kleinere Medien und Publisher abschließen bzw. standardmäßig anbieten wird. Und wie verhält es sich mit sonstigen Anbietern großer Sprachmodelle und KI-Antwortmaschinen wie Anthropic oder Perplexity?

Die frühzeitige Einigung mit OpenAI war definitiv ein kluger Schachzug von Axel Springer, da die verfügbaren Summen für derlei Vereinbarungen voraussichtlich von Deal zu Deal kleiner werden dürften. Für OpenAI stellt diese Art von Lizenzabkommen wiederum eine Möglichkeit dar, sich vor künftiger Kritik aus dieser Richtung zu schützen und schnellen Zugang zu neuesten Inhalten sicherzustellen. Hierbei ist Google mit Gemini – grundsätzlich – ja immer noch zeitlich voraus, das ChatGPT immer noch nur bis Januar 2022 aktualisiert ist. Durch einen allgemeinen Deal von OpenAI mit Medienhäusern und Publishern wäre der Weg für ein legales Scraping frei. Zugleich sollten die Verlage davon profitieren, dass die Antworten von ChatGPT eine Quellenangabe und Links zu den vollständigen Artikeln enthalten, denen die Inhalte entstammen.

Mit den neuen Verhandlungen reagiert OpenAI auf die Sperrung des „GPT-Bot“, dem Crawler von OpenAI, durch große Medienhäuser wie die New York Times, CNN, Reuters, Disney, Bloomberg und die Washington Post. Auch viele deutsche Medienhäuser sind den Schritt inzwischen gegangen. Im August 2023 hatte OpenAI erstmals öffentlich darüber informiert, wie Website-Betreiber/innen den „GPT-Bot“ vom crawlen von Inhalten abhalten können. Sie müssen dafür wie auch bei anderen Bots üblich der robots.txt-Datei auf ihrer Website einen entsprechenden „Disallow“-Eintrag hinzufügen.

Da die bisherigen Versionen von OpenAIs Sprachmodellen schon große Teile des Internets ohne um Erlaubnis zu fragen „gescrapt“ haben und dies nicht mehr rückgängig zu machen ist, sehen viele Publisher nun trotzdem nur noch die Möglichkeit zu klagen.

Worauf kommt es beim Umgang mit der Entwicklung großer Sprachmodelle an?

Unsere Empfehlung für Medienhäuser und Publisher ist, den Zugang zum GPT-Bot zu blockieren. Ohne einen solchen Ansatz könnten die eigenen Inhalte unbeabsichtigt in die Trainingsdatensätze von OpenAI und Co. einfließen bzw. diese wurden unter Umständen bereits entsprechend von Dritten „abgeschöpft“. Grundsätzlich läuft es den Interessen der Verlage zuwider eigenen Inhalten einfach „scrapen“ zu lassen, insbesondere im Hinblick auf den Schutz ihres Qualitätsjournalismus. Das bedeutet zugleich, dass sich Medienunternehmen und Herausgeber mit der Aktualisierung ihrer Content-Strategie auseinandersetzen müssen, um den neuen Herausforderungen, die große Sprachmodelle und KI-Antwortmaschinen mit sich bringen. Grundsätzlich droht dadurch weniger Website-Traffic, Nutzer/innen, Klickzahlen und Werbeeinnahmen. Gemäß den US-Marktforschern von Gartner hat KI einen unmittelbaren Einfluss auf den organischen Traffic von Suchmaschinen. So wird erwartet, dass die organische Reichweite bei Google und Co. bis 2028 um 50 % sinken wird.

Aber KI bietet Medien und Publishern auch völlig neue Möglichkeiten! Google und Co. nutzen Künstliche Intelligenz, um Inhalte zu „scrapen“ und zusammenzufassen. Damit werden individuelle Nutzersuchen beantwortet. Die Ergebnisse werden in Form von Texten, Bildern und Links zu den gesuchten Themen ausgegeben. Effektiv wird die Suche zu einer KI-Antwortmaschine. Deshalb sind hochwertige, variantenreiche und in die Tiefe gehende Inhalte wichtiger denn je. Google und Co. liefern maßgeschneiderte Suchergebnisse auf Basis von Information Retrievals, d. h., dass die Relevanz für jede Anfrage anhand der Qualität und Vollständigkeit der auffindbaren Inhalte ermittelt wird. Kurzum: Der organische Traffic von Suchmaschinen wird sich vielleicht verringern, aber durch eine gezielte Content-Personalisierung lassen sich Medien-Inhalte maßgeschneiderter auslegen und für einzelne Nutzer auffindbarer machen.

Angesichts dieser Tatsache hat Google damit begonnen, neue Sprachmodelle und KI-Suchen zu implementieren. Neben den USA ist diese neue KI-Suche von Google „Search Generative Experience“ weltweit bereits in mehr als 120 Ländern ausgerollt. Aktuell fehlen nur noch der EU-Raum und UK. Mit SGE wird ein Großteil der individuellen Nutzeranfragen direkt innerhalb der Suchmaschine beantwortet.

Dies sollten Medien und Publisher in ihrer neuen Content-Strategie berücksichtigen:

Mehr Traffic generieren mit Textautomation
Um mehr Traffic zu generieren, sollten Medien und Publisher die Vorteile der Textautomatisierung nutzen. Die Automatisierung von Standardnachrichten wie Horoskopen, Wahlen, Wetterberichten, Sportnachrichten und Verkehrsnachrichten kann dabei helfen, die Monetarisierungskonzepte zu skalieren und Tausende von Berichten in Echtzeit zu produzieren. Die Voraussetzung dafür sind strukturierte Daten, die in großer Menge vorhanden sind oder generiert werden können. Mit der Technologie der "Natural Language Generation" (NLG) können variantenreiche und personalisierte Texte automatisiert erstellt werden. Mittlerweile gibt es Lösungen, die sowohl strukturierte als auch unstrukturierte Daten vollautomatisch verarbeiten und kanal- und zielgruppenspezifische Inhalte in allen gewünschten Formaten und Sprachen erstellen können. Auf diese Weise profitieren Medien und Publisher von hoher Textqualität, einer einheitlichen Ausdrucksweise und garantierter Datenschutzkonformität, selbst wenn sie Zehn- oder Hunderttausende von Texten erstellen.
Unique Content vs. Fast-food Content
Im Bereich der Medienbranche kann die Nutzung von KI-Modellen die Personalisierung und Effizienz der Kommunikation verbessern. KI-Modelle können so trainiert werden, dass sie Inhalte im vorgegebenen Ton und Stil erzeugen, was zu einer konsistenteren Markendarstellung führt. Dies ist besonders in Zeiten des "Fast Food Content" wichtig, indem einzigartiger Inhalt entscheidend für die Suchmaschinenoptimierung ist. KI-Modelle ermöglichen es Medienunternehmen zudem, ihre Inhalte besser auf ihre Zielgruppe zuzuschneiden, anstatt sie einfach zu kopieren. Dies kann zu einer personalisierten Nutzererfahrung und einer stärkeren Markenbindung führen.
Textbasierte Business-Prozesse automatisieren
Medien und Publisher können textbasierte Geschäftsprozesse automatisieren, indem sie KI als voll integrierte Assistenzlösung in ihr Content-Management-System (CMS) einbinden. Sie können Agenturbeiträge an verschiedene Zielgruppen anpassen und die Relevanz sowie den Informationsgehalt für verschiedene Nutzergruppen genau entwickeln. Generative KI-Systeme können automatisch kurze Zusammenfassungen oder Teaser für Artikel erstellen und so das Interesse der Nutzer/innen am vollständigen Artikel wecken. Künstliche Intelligenz kann dabei helfen, Texte und Artikel hinsichtlich der Suchmaschinenoptimierung zu verbessern, indem sie relevante Keywords, Meta-Tags und andere SEO-relevante Elemente generiert und in den automatisch erstellten Texten berücksichtigt. Zudem können Medien KI-Systeme nutzen, um ihre Texte zu verbessern, indem sie Vorschläge für bessere Formulierungen, Grammatik und Stil geben.

Fazit

Content-Scraping durch große Sprachmodelle wie ChatGPT, Google Gemini und Co. wirft eine Reihe von rechtlichen und ethischen Fragen auf, mit denen sich Medien und Publisher auseinandersetzen sollten, da sie sowohl ihre Urheberrechte, Datenschutz als auch Einnahmequellen betreffen. Lizenzabkommen, wie das zwischen OpenAI und Axel Springer, weisen auf eine erste potenzielle Lösung hin, bei der Medienhäuser und Publisher sowohl ihre Inhalte schützen als auch von KI und ihren Möglichkeiten profitieren. Trotzdem empfiehlt es sich verlagseigene Content-Strategien neu zu denken und auszurichten.

Die Nutzung von Textautomatisierung bei wiederkehrenden Content-Formaten kann etwa dazu beitragen, hochwertigen Traffic gezielt zu generieren, gefunden zu werden und Monetarisierungspotenziale abzurufen. Zugleich kann die Erzeugung von Unique Content, der für SEO optimiert ist, die Sichtbarkeit und Reichweite bei Google und Co. signifikant erhöhen. Die Automatisierung von textbasierten Prozessen fördert die Effizienz.

Mit Blick auf die Zukunft erscheint es also als eine notwendige strategische Entscheidung für Medien und Publisher, das Potenzial großer Sprachmodelle zu nutzen, ohne dabei ihre eigenen Interessen und Urheberrechte zu vernachlässigen. Es gilt, die neuen Technologien nicht nur als Herausforderung, sondern auch als Impuls zur Erneuerung zu begreifen. Die Zukunft in der Medien- und Verlagsbranche liegt in dem klugen und strategieorientierten Umgang mit großen Sprachmodellen und KI-Antwortmaschinen – ein Wandel, der sowohl Herausforderungen als auch große Chancen bietet.

Für Fragen und weitere Informationen rund um das Thema Content-Scraping sowie den Umgang mit großen Sprachmodellen und KI stehen wir gerne zur Verfügung. Sprich uns an – unsere Expert/innen melden sich gerne bei dir!

Zurück zur Newsübersicht

Content-Scraping von Verlagsinhalten: Herausforderungen und Chancen für Medien und Publisher

Was ist Content-Scraping und wie legal ist es?

Wie können Medien und Publisher gegen Content-Scraping vorgehen?

Worauf kommt es beim Umgang mit der Entwicklung großer Sprachmodelle an?

Mehr Traffic generieren mit Textautomation

Unique Content vs. Fast-food Content

Textbasierte Business-Prozesse automatisieren

Fazit