Saubere Daten als Must-have für erfolgreiche NLG-Projekte

NLG-Technologie formt Texte, die auf Daten beruhen. Daten bilden somit das Fundament eines jeden Projektes rund um Textgenerierung – und sind gleichzeitig einer der größten Knackpunkte. Welche Herausforderungen uns bei Retresco im täglichen Austausch mit Interessenten und Kunden begegnen und welche Lösungen sich als besonders tragfähig erwiesen haben, zeigt der folgende Beitrag.

Was sind die häufigsten Probleme mit Daten?

 

Daten liegen nicht in strukturierter Form vor: Nur strukturierte Daten sind maschinell lesbar und damit digital verwertbar. Ohne strukturierte Daten können keine Texte generiert werden. Und auch wenn strukturierte Daten vorliegen: nur die Sachverhalte, die in ihnen abgebildet werden, werden im automatisch generierten Text vorkommen. Beispiel automatisierte Fußballberichte: Relevante Geschehnisse, die ein menschlicher Fußballreporter beobachten und möglicherweise erwähnen würde – die Stimmung im Stadion, der strömende Regen, der Wutausbruch des Trainers am Spielfeldrand – können im Text nicht berücksichtigt werden, wenn sie nicht strukturiert vorliegen und in den Storyplot des Textgenerierungsprojekts eingebunden wurden. Zwar bestehen Ansätze, nach denen zukünftig auch unstrukturierte Inhalte als Basis für die Textgenerierung dienen können. Systeme, die Beispieltexte erhalten, Muster extrahieren und auf Basis der gewonnenen Daten neue Texte erschaffen, liefern noch keinen Output auf hohem Niveau.

Retrescos Lösung: Falls Daten nicht in strukturierter Form vorliegen, berät Retresco Sie gerne hinsichtlich möglicher Lösungsoptionen und gibt kundenspezifische Hilfestellungen. Beispielsweise liefern wir Ihnen eine Vorlage, die genau die für Sie relevante Strukturierungslösung enthält. Dies kann anschließend auch als Grundlage für Demo-Cartridges dienen, damit der Kunde sich vorstellen kann, was mit den strukturierten Daten anschließend passiert.

 

Daten sind inkonsistent: Zwar gilt, je umfassender die Daten, desto detailreicher und überzeugender die generierten Texte – aber auch desto fehleranfälliger. Lückenhafte oder widersprüchliche Datensätze verhindern die Erstellung eines einheitlichen und effektiv funktionierenden Datenmodells. Problematisch wird das bspw. bei der Erstellung von Produktbeschreibungen: Liegen zu einem Produkt Informationen zu Preis und Größe vor, zu einem anderen aber nur zu Material und Farbe, kann kein einheitliches Modell zur Betextung dieser Produkte aufgesetzt werden. Natural Language Generation kann sich das zu vertextende Produkt nicht anschauen und kreative Verkaufsargumente ausdenken. Mithilfe der Technologie können auf Fakten beruhende Vorzüge ansprechend präsentiert werden. Das macht entsprechende Texte so überzeugend: es handelt sich um eine faktenbasierte und objektive Darstellung der Verkaufsargumente. Eine umfassende Datenlage ist hierbei also gut, vor allem dann, wenn die Daten konsistent sind.

Retrescos Lösung: Falls Ihre Daten in inkonsistenter Form vorliegen, bietet Ihnen Retresco Hilfestellung bei der Lösung dieser Herausforderung. Ebenso wie im Falle von unstrukturierten Daten können wir Ihnen beispielsweise Vorlagen zur Verfügung stellen, in denen lückenhafte oder widersprüchliche Daten eliminiert werden.

 

Daten enthalten fehlerhafte Informationen: Ob Tippfehler oder Unwissen – wenn falsche Sachverhalte in den Daten abgebildet werden, werden diese im automatisch generierten Text vorkommen. Dazu ein Beispiel aus der Praxis: Aufgrund strömenden Regens musste ein Fußballspiel verfrüht abgebrochen werden, Zwischenstand 1:1. Die bis zu diesem Zeitpunkt stattgefundenen Spielereignisse wurden wie üblich in die Datenbasis eingegeben – jedoch ohne Hinweis auf die bezeichnende Wetterlage, die zum – ebenso unerwähnten – verfrühten Abbruch führte. Als Folge dessen wurde das Spiel so betextet als wäre es in der 90. Minute mit einem Unentschieden ausgegangen. Natürlich erkennt der Algorithmus numerische Auffälligkeiten oder Ausreißer; inhaltliche Fehler wie diesen hingegen nicht.

Eine daraus resultierende, fehlerhafte Berichterstattung kann zwar ärgerlich für das Nachrichtenangebot und die Fans sein, bleibt aber ungefährlich und wird im besten Fall mit Humor genommen. Es sind aber bedenklichere Szenarien als ein falsch betextetes Fußballspiel denkbar. Man stelle sich ein Bilderkennungssystem als Grundlage für das autonome Fahren vor, welches mit falsch getaggten Bildern trainiert wird. Vertrauenswürdige Datenquellen und höchste Sorgfalt bei der Verwertung sind unerlässlich bei der Entwicklung von und Arbeit mit Technologien.

Retresco Lösung: Auch wenn fehlerhafte Datensets in der Praxis eher selten vorkommen, bietet Retresco auch hier eine kundenspezifische Beratung nah am Einzelfall an. Eine Lösungsmöglichkeit bietet beispielsweise die gemeinsame Abstimmung der Referenz- und Trainingsdaten.

 

Daten bilden zu komplexe Sachverhalte ab: Je detaillierter die Datenlage, desto anspruchsvoller wird auch ihre Verwertung. Denn je mehr Aspekte oder Kennzahlen, die sich gegenseitig bedingen, in einen Bericht einbezogen werden sollen, desto schwieriger wird es, ein allgemeines Modell hierfür zu formulieren. Entweder ist die Gesamtheit aller Aspekte gar nicht abbildbar oder mit einem großen Aufwand beim Setup verbunden.

Retrescos Lösung: Eine mögliche Lösung für zu komplexe Daten bieten sogenannten Dispatcher. Dieser kann verschiedene Aufgaben übernehmen und u.a. die Daten verflachen oder normalisieren. Jedoch sollte hier im Vorfeld immer der Einzelfall betrachtet und abwogen werden, ob durch einen Dispatcher auch alle Informationen tatsächlich dargestellt werden können.

 

Ein Datenproblem richtig zu identifizieren, ist der erste Schritt auf dem Weg, es zu lösen. Aber wie haben qualitativ hochwertige Daten im besten Fall auszusehen? Zur Feststellung der Datenqualität lassen sich verschiedene Kriterien heranziehen, deren Zusammenspiel die Qualität maßgeblich bestimmt.

 

Was zeichnet gute Daten aus?

 

Struktur: Eine digitale Verwertung von Daten ist nur möglich, wenn sie strukturiert vorliegen. Nur was in den strukturierten Daten abgebildet wird, lässt sich im Text formulieren. Und nur solche Aussagen lassen sich automatisiert treffen, die sich in einem allgemeingültigen Modell festgehalten werden können.

Konsistenz: Der Bedarf konsistenter Daten bezieht sich sowohl auf Widersprüche in den vorhandenen Daten als auch auf fehlende Werte. Ein Beispiel: So gut der generierte Nachbericht zum Fußballspiel auch klingen mag – wenn die Datenlage einen Endstand von 5:0, aber einen Pausenstand von 3:1 aufzeigt, hat sich offensichtlich ein Fehler eingeschlichen. Auch wenn der Algorithmus Auffälligkeiten wie diese bemerken kann, kann er sie nicht eigenständig beheben.

Korrektheit: Natürlich ist das Wetter nicht immer vorhersehbar, auch wenn entsprechende Technologien immer besser werden. Produktbeschreibungen hingegen sollten zu 100% mit dem Produkt übereinstimmen, dass der Kunde nach Bestellung in seinen Händen hält. Das zählt genauso für automatisch generierte Börsennachrichten, bei denen Falschmeldungen verheerenden Einfluss auf den Aktienmarkt haben können. Es ist daher unabdingbar, mit verlässlichen und vertrauenswürdigen Quellen zu arbeiten.

Relevanz: Die Daten müssen relevant für die Erstellung des Endprodukts sein. Wie am Beispiel des abgebrochenen Fußballspiels deutlich wird, kann das Wetter die Geschehnisse im Sport beeinflussen und damit für die Erstellung von Sportberichten durchaus relevant werden. In der Finanzkommunikation wären Hinweise auf das Wetter hingegen irrelevant und wahrscheinlich eher fehl am Platz.

Verfügbarkeit: Leichter gesagt als getan: Wer Texte generieren möchte, muss auf die Daten zugreifen können. Nur wer Daten hat, kann sie in ein NLG-System wie textengine.io einspielen und auf Basis dieser Texte generieren. In welchem Format (JSON, XML etc.) die Daten dabei vorliegen, ist erst einmal zweitrangig. Hauptsache ist, die Daten sind strukturiert, konsistent, korrekt, relevant und eben verfügbar.

 

Fazit: Daten bilden das Fundament eines jeden Technologie-Projekts. So kann auch die beste Strategie noch an der Umsetzung scheitern. Gerne unterstützen wir Sie dabei herauszufinden, wie Sie das Beste aus Ihren Daten herausholen können. Wir freuen uns auf Ihre Kontaktaufnahme.

 

Über Retresco

2008 in Berlin gegründet, hat sich Retresco als eines der führenden Unternehmen in der Automatisierung von Content etabliert. Retresco entwickelt auf Künstlicher Intelligenz basierende Lösungen aus den Bereichen Natural Language Generation (NLG) und Natural Language Understanding (NLU). Anwendungen wie die Self-Service-Plattform textengine.io, Inhaltsklassifikationen oder Enterprise Chatbots unterstützen Unternehmen dabei, Prozesse zu automatisieren, Kommunikation effektiver zu gestalten und neue Zielgruppen zu erreichen.