Was ist Data Mining?

Data Mining ist die systematische Anwendung statistischer und durch Künstliche Intelligenz gestützte Methoden, um in vorhandenen Datenbeständen automatisch Muster, Trends, Querverbindungen oder Zusammenhänge zu finden. Data Mining wird dabei oft, aber fälschlicherweise, synonym für „Knowledge Discovery in Databases“ verwendet. KDD beinhaltet aber auch Vorverarbeitung und Auswertung und ist dem Data Mining daher übergeordnet.

Data Mining ist notwendig und motiviert durch Big Data: Riesige Datenmengen, die durch verschiedene Tools relativ leicht gesammelt werden können, die aber manuell kaum zu analysieren sind. Um Wissensverlust vorzubeugen, wird es branchen- und disziplinübergreifend eingesetzt. Gegenüber den klassischen statistischen Verfahren hat Data Mining den Vorteil, dass nicht nur manuell aufgestellte Hypothesen be- oder widerlegt werden, sondern neue Thesen generiert und so Entscheidungsprozesse angepasst und validiert werden können.

Data Mining und Machine Learning (Maschinelles lernen)

Oberflächlich betrachtet stellen Data Mining und Maschinelles Lernen ein gegensätzliches Paar bei der Arbeit mit großen Datenmengen dar. Beim Maschinellen Lernen werden vordergründig bekannte Muster in neuen Datensätzen wiedererkannt. Umgekehrt wird Data Mining genutzt, um neue Zusammenhänge zu erkennen und zu verarbeiten (ähnlich funktioniert das sogenannte unüberwachte Lernen beim maschinellen Lernen). Ganz voneinander lösen lassen sich deswegen die beiden Prozesse aufgrund der vielen Gemeinsamkeiten nicht. Mithilfe von Data Mining zusammengetragene Erkenntnisse, Regeln und Muster werden für das maschinelle Lernen gebraucht.

Abgrenzung zum Text Mining

Das Text Mining ist eine dem Data Mining ähnliche Verfahrensweise, allerdings wird es nicht auf Big Data sondern auf natürlich-sprachliche Quellen oder Dokumente angewendet. Mit Hilfe von statistischen und linguistischen Methoden gewinnt eine Text-Mining-Software Strukturen, Muster, Bedeutungszusammenhänge und Kerninformationen, die dem Nutzer helfen, den wesentlichen Inhalt des Textes zu erfassen, ohne ihn komplett lesen zu müssen. Diese Prozesse sind weitgehend automatisiert.

Im Anschluss wird auf die gewonnenen Daten aus den Texten oft ein Data Mining Verfahren angewendet, um die Daten und die zugrunde liegenden Texte in Beziehung zu setzen und hier Zusammenhänge und Verbindungen zu erkennen. Entlehnte Verfahren aus dem Information Retrieval (IR) ermöglichen es außerdem, Kerndaten und Informationen zu erfassen, die zur Beantwortung von Suchanfragen dienen. In Datenbanken mit einer großen Anzahl von Quellen werden so die relevanten Einzeldokumente identifiziert.

Quellen:

Data Mining (Gabler Wirtschaftslexikon)

Text Mining (Datenbanken verstehen)

Annotation

Automatische Texterstellung

Business Intelligence

Chatbots

Chief Artificial Intelligence Officer (CAIO)

Computerlinguistik

Content At Scale

Content-Automation

Customer Experience

Data-Mining

Datenstrategie

Deep-Learning

Duplicate Content

Entitaetenextraktion

Finanzkommunikation

Generative Engine Optimisation

Generative-KI

HR-Chatbots

Human-in-the-Loop (HITL)

Interne Verlinkung

JSON

KI-Agenten

KI-Halluzinationen

KI-Winter

Künstliche Intelligenz

Lemma

Maschinelles-Lernen

Morphologie

Natural Language Generation

Natural Language Processing

Natural Language Understanding

Neuronale Netze

Ontologien

Produktbeschreibungen

Produktinformationsmanagement-System (PIM)

Prompting

Python

Restful-API

Retrieval Augmented Generation (RAG)

Roboterjournalismus

Semantische Anreicherung

Sportberichte

Spracherkennung

Story Plot

Strukturierte Daten

Text-Spinning

Varianz

Wetterberichte