semantik_api

Semantische Technologien: Wie aus Text Wissen ensteht

Ob die Herausforderung darin liegt, interne Archive nutzerfreundlich zu erschließen oder die Themen kommerzieller Websites optimal zu monetarisieren: Semantische Verfahren sind eine Schlüsseltechnologie zur Verwertung von Inhalten. Sie ermöglichen die Extraktion von Informationen – auch bekannt unter dem Begriff Information Retrieval –, sodass Text als Wissensrohstoff optimal genutzt werden kann. Semantische Technologien stellen somit die Eckpfeiler eines innovativen und elaborierten Wissensmanagements dar. Das Ziel: So viel Wissen wie möglich aus Texten automatisch zu extrahieren. Aus diesem Grund sind semantische Verfahren für die Verlagswelt, aber auch für zahlreiche weitere Branchen höchst relevant. Mit dem aktuellen Release der Semantik API von Retresco können Interessierte sich einen kostenlosen Überblick über Potenziale und Kapazitäten von semantischen Technologien verschaffen – für mehr Wissen und wertvollere Daten. 

 

Wie funktionieren semantische Verfahren?

In der digitalen Welt automatisieren semantische Technologien die Klassifikation von Text und ermöglichen die Zuordnung von Inhalten zu bestimmten thematischen Bereichen.  

Die Herkunft von Inhalten spielt für die Analyse der Bedeutung keine entscheidende Rolle. Algorithmen zur semantischen Analyse verarbeiten Content aus jeder verfügbaren internen und externen Quelle. Dazu zählen etwa Content-Management-Systeme (CMS), Customer-Relationship-Management-Lösungen (CRM), aber auch Dateien aus dem firmeneigenen Intranet sowie offen zugänglichen Quellen im Internet. 

 

 

Text-, Audio-, Video- oder Office-Formate – grundsätzlich ist jedes digitale Dateiformat für die semantische Anreicherung geeignet. Doch auch wenn sich Bilder und auditive Ereignisse prinzipiell analysieren lassen, ist die semantische Anreicherung von Texten am weitesten ausgereift. Semantische Anreicherung von Texten analysiert Überschriften, Teaser, Texte und Metadaten sämtlicher Inhalte. Ein Algorithmus durchsucht dabei den Content auf bestimmte Schlüsselworte und identifiziert sogenannte Entitäten, d.h. relevante Personen, Orte, Organisationen, Produkte, Veranstaltungen sowie allgemeine Schlagworte. 

Anschließend berechnet der Algorithmus eine Relevanzinformation, bei der ermittelt wird, wie wichtig eine Entität für die Bedeutung eines Textes ist. In einem dritten Schritt kennzeichnet semantische Anreicherung erkannte Entitäten in einem Text. 

semantic_api

Somit werden aus unstrukturierten Texten strukturierte, maschinenlesbare Daten erstellt und Inhalte generiert, die für jedes Unternehmen digital verwertbar sind. Die Funktionen von semantischen Lösungen für Unternehmen und Institutionen können in Kürze wie folgt beschrieben werden: 

  • Per Extraktion aus unstrukturierten Inhalten strukturierte Daten ableiten 
  • Automatisches Tagging von Entitäten und interne Verlinkung 
  • Klassifikation und Kuratierung von Content 
  • Maschinelles Lernen für die optimale Auswertung historischer Daten 
  • Einfache Integration in jedes CMS 

In konkreten Lösungen unterstützt semantische Anreicherung beispielsweise die Redakteure von News-Portalen bei der automatischen Verschlagwortung von Beiträgen. Ebenso auf semantischer Anreicherung basieren Tools zur Erstellung von Themen-Seiten, die alle Beiträge einer Nachrichten-Website nutzerfreundlich aggregieren. Signifikante Effekte ergeben sich zudem für die Sichtbarkeit eines Informationsangebotes in den Suchmaschinen, für die Nutzerfreundlichkeit und die wirtschaftliche Verwertung von digitalen Inhalten. 

  

Wo werden semantische Technologien eingesetzt?

Die Branchen und Anwendungsbereiche, in denen semantische Verfahren eingesetzt werden können sind ebenso vielseitig wie spannend: Überall dort, wo Wissen aus internem Datenschätzen gewonnen oder wo Informationen aus unterschiedlichen Quellen aggregiert und (neu-)verwertet werden sollen, kommt der Einsatz von semantischen Technologien infrage. Unternehmen und Organisation profitieren insbesondere durch folgende Vorteile:  

  • Wissen aus internem Datenschatz gewinnen 
  • Sichtbarkeit & Relevanz eigener Themen erhöhen 
  • Inhalte aus unterschiedlichsten Quellen aggregieren und verwerten 

Semantische Verfahren finden daher insbesondere dort eine praktische Anwendung, wo das optimale Management einer stetig wachsenden Menge an Textinhalten auf die strategischen Ziele einer Organisation einzahlt. Verlage, Archive und Service-Abteilungen sind potentielle Profiteure semantischer Lösungen. Aber auch Unternehmen aus weiteren Branchen – zum Beispiel E-Commerce-Händler mit großen Mengen an Produktdaten und -texten oder Unternehmen im Bereich Wissensmanagement – setzen semantische Technologien zur Klassifikation ihres Produktangebotes ein.

So konnte beispielsweise die Mediathek des Stasi-Unterlagen-Archivs die multimedialen Inhalte ihrer Online-Datenbank durch den Einsatz von semantischen Technologien effizienter organisieren. Das Resultat: Die Vielfalt der multimedial aufgestellten Mediathek wird sichtbarer gestaltet, der Zugang zu den Dokumenten der Datenbank optimiert. Weitere spannende Anwendungsbeispiele finden Sie in unserer Case Study Rubrik 

 

 

Über Retresco | @retresco

Bereits seit 2008 entwickelt Retresco führende KI-Lösungen im Bereich Content Automation. In den letzten Jahren hat sich das Unternehmen zunehmend zu einem der weltweit führenden Anbieter in der automatischen Textgenerierung (Natural Language Generation) entwickelt und dutzende Projekte für Kunden aus den Bereichen Medien, E-Commerce und Finanzdienstleistungen umgesetzt.