Was ist Data Mining?

Data Mining ist die systematische Anwendung statistischer und durch Künstliche Intelligenz gestützte Methoden, um in vorhandenen Datenbeständen automatisch Muster, Trends, Querverbindungen oder Zusammenhänge zu finden. Data Mining wird dabei oft, aber fälschlicherweise, synonym für „Knowledge Discovery in Databases“ verwendet. KDD beinhaltet aber auch Vorverarbeitung und Auswertung und ist dem Data Mining daher übergeordnet.

Data Mining ist notwendig und motiviert durch Big Data: Riesige Datenmengen, die durch verschiedene Tools relativ leicht gesammelt werden können, die aber manuell kaum zu analysieren sind. Um Wissensverlust vorzubeugen, wird es branchen- und disziplinübergreifend eingesetzt. Gegenüber den klassischen statistischen Verfahren hat Data Mining den Vorteil, dass nicht nur manuell aufgestellte Hypothesen be- oder widerlegt werden, sondern neue Thesen generiert und so Entscheidungsprozesse angepasst und validiert werden können.

Data Mining und Machine Learning (Maschinelles lernen)

Oberflächlich betrachtet stellen Data Mining und Maschinelles Lernen ein gegensätzliches Paar bei der Arbeit mit großen Datenmengen dar. Beim Maschinellen Lernen werden vordergründig bekannte Muster in neuen Datensätzen wiedererkannt. Umgekehrt wird Data Mining genutzt, um neue Zusammenhänge zu erkennen und zu verarbeiten (ähnlich funktioniert das sogenannte unüberwachte Lernen beim maschinellen Lernen). Ganz voneinander lösen lassen sich deswegen die beiden Prozesse aufgrund der vielen Gemeinsamkeiten nicht. Mithilfe von Data Mining zusammengetragene Erkenntnisse, Regeln und Muster werden für das maschinelle Lernen gebraucht.

Abgrenzung zum Text Mining

Das Text Mining ist eine dem Data Mining ähnliche Verfahrensweise, allerdings wird es nicht auf Big Data sondern auf natürlich-sprachliche Quellen oder Dokumente angewendet. Mit Hilfe von statistischen und linguistischen Methoden gewinnt eine Text-Mining-Software Strukturen, Muster, Bedeutungszusammenhänge und Kerninformationen, die dem Nutzer helfen, den wesentlichen Inhalt des Textes zu erfassen, ohne ihn komplett lesen zu müssen. Diese Prozesse sind weitgehend automatisiert.

Im Anschluss wird auf die gewonnenen Daten aus den Texten oft ein Data Mining Verfahren angewendet, um die Daten und die zugrunde liegenden Texte in Beziehung zu setzen und hier Zusammenhänge und Verbindungen zu erkennen. Entlehnte Verfahren aus dem Information Retrieval (IR) ermöglichen es außerdem, Kerndaten und Informationen zu erfassen, die zur Beantwortung von Suchanfragen dienen. In Datenbanken mit einer großen Anzahl von Quellen werden so die relevanten Einzeldokumente identifiziert.

Quellen:

Zurück zur Newsübersicht