Entitätenextraktion

Automatische Texterstellung revolutioniert die Erstellung von Inhalten in immer mehr Bereichen. So setzen Nachrichten-Portale im Content-Mix zunehmend auf Roboterjournalismus. Online-Shops nutzen computergenerierte Texte zur Inszenierung von Produkten. Smarte Anwendungen kreieren automatisiert individuelle Reports wie Geschäftsberichte, Immobilien-Exposés oder Fondsreports.

Die Extraktion von Entitäten, auch bekannt als „Named entity extraction“ (NER) oder „Entitätenerkennung“, ist eine Technik zur Extraktion von Informationen aus einem unstrukturierten Text. Bei der Entitätenextraktion werden in einem Text Schlüsselelemente identifiziert sowie klassifiziert und vorab definierten Kategorien zugeordnet.

Ziel der Extraktion von Entitäten ist es, unstrukturierte Daten in strukturierte Daten umzuwandeln, also Informationen für eine weitere Verarbeitung maschinenlesbar zu machen. Named entity recognition ist eine Methode der Computerlinguistik und gehört zum Teilgebiet Natural Language Processing.

Entitäten in einem Text wie einem Beitrag auf der News-Seite eines Online-Portals sind in erster Linie: Personen(-namen), Organisationen, Produkte und Orte. Neben solchen Named entities verbergen sich in einem Text möglicherweise Phänomene wie medizinische Codes, Zeitangaben, Mengen, Prozentangaben oder Geldwerte.

Bei der Extraktion durchsucht ein Algorithmus Text, im Fall eines News-Beitrages eine HTML-Seite, und markiert die erkannten Entitäten. Diese automatische Erkennung von Entitäten erzielt in Sachtexten sehr hohe Trefferquoten. Auch wenn die Lösungen sprachliche Mehrdeutigkeiten nicht immer vollständig auflösen können („Entity linking“), liegen die Erfolgsquoten menschlicher Zuweiser im Vergleich nur wenige Prozent höher.

Wo wird Entitätenextraktion angewandt?

Named entity recognition kommt dort zum Einsatz, wo große Mengen an Inhalten aufbereitet werden. Nachrichtenmedien und Verlage etwa erzeugen täglich große Mengen an Online-Content. Zur Optimierung des Nutzererlebnisses einerseits und die Monetarisierung von Inhalten andererseits ist es zentral, die Informationen aus diesen Artikeln zu strukturieren.

Ein Algorithmus zur Entitätenextraktion kann automatisch ganze Artikel scannen und definieren, welche wichtigen Personen, Organisationen, Produkte, Orte oder allgemeine Schlagworte darin auftauchen. Sind diese Informationen extrahiert, hilft das bei der automatischen Kategorisierung der Artikel in definierten Hierarchien. Auf Basis dieser Informationen lassen sich Suchergebnisse präziser zusammenstellen, Inhalte zu thematischen Clustern kuratieren, dem User inhaltlich verwandte Beiträge anzeigen oder zielgerichtet Werbung ausspielen.

Neben dem Einsatz auf Nachrichtenportalen basieren auch die Empfehlungsfeatures von Mediendiensten auf Named entity recognition. Ein weiteres Anwendungsfeld abseits der Medienbranche wären etwa der Google Service Google AdSense oder die Sortierung von Supportanfragen per E-Mail bzw. Chat durch Entitätenextraktion.

Quellen & PDF:

Machine Learning for Named Entity Recognition (Günter Neumann & Feiyu Xu | LT-lab, DFKI, PDF)

Annotation

Artikelarchive

Automatische Texterstellung

Business Intelligence

Chatbots

Chief Artificial Intelligence Officer

Computerlinguistik

Content At Scale

Content-Automation

Conversational AI

Customer Experience

Data-Mining

Datenstrategie

Deep-Learning

Duplicate Content

Entitaetenextraktion

Finanzkommunikation

Frontend-Widget

Generative Engine Optimisation

Generative-KI

Human-in-the-Loop (HITL)

Interne Verlinkung

JSON

KI-Agenten

KI-Halluzinationen

KI-Winter

Künstliche Intelligenz

Lemma

Maschinelles-Lernen

Morphologie

Natural Language Generation

Natural Language Understanding

Neuronale Netze

Ontologien

Produktbeschreibungen

Produktinformationsmanagement-System (PIM)

Prompting

Python

RAG

Restful-API

Roboterjournalismus

Semantische Anreicherung

Sportberichte

Spracherkennung

Strukturierte Daten

Text-Spinning

Trusted AI

Varianz

Was ist ein Story Plot?

Was ist Natural Language Processing

Wetterberichte