Data Mining

 

  1. Was ist Data Mining?
  2. Data Mining und machi­ne learning (maschi­nel­les Ler­nen)
  3. Abgren­zung zum Text Mining

 

 

Was ist Data Mining?

Data Mining ist die sys­te­ma­ti­sche Anwen­dung sta­tis­ti­scher und durch künst­li­che Intel­li­genz gestütz­te Metho­den, um in vor­han­de­nen Daten­be­stän­den auto­ma­tisch Mus­ter, Trends, Quer­ver­bin­dun­gen oder Zusam­men­hän­ge zu fin­den. Data Mining wird dabei oft, aber fälsch­li­cher­wei­se, syn­onym für “Know­ledge Dis­co­very in Data­ba­ses” ver­wen­det. KDD beinhal­tet aber auch Vor­ver­ar­bei­tung und Aus­wer­tung und ist dem Data Mining daher über­ge­ord­net.

Data Mining ist not­wen­dig und moti­viert durch Big Data: Rie­si­ge Daten­men­gen, die durch ver­schie­de­ne Tools rela­tiv leicht gesam­melt wer­den kön­nen, die aber manu­ell kaum zu ana­ly­sie­ren sind. Um Wis­sens­ver­lust vor­zu­beu­gen, wird es bran­chen- und dis­zi­plin­über­grei­fend ein­ge­setzt. Gegen­über den klas­si­schen sta­tis­ti­schen Ver­fah­ren hat Data Mining den Vor­teil, dass nicht nur manu­ell auf­ge­stell­te Hypo­the­sen be- oder wider­legt wer­den, son­dern neue The­sen gene­riert und so Ent­schei­dungs­pro­zes­se ange­passt und vali­diert wer­den kön­nen.

 

Data Mining und machine learning (maschinelles Lernen)

 

Ober­fläch­lich betrach­tet stel­len Data Mining und maschi­nel­les Ler­nen ein gegen­sätz­li­ches Paar bei der Arbeit mit gro­ßen Daten­men­gen dar. Beim maschi­nel­len Ler­nen wer­den vor­der­grün­dig bekann­te Mus­ter in neu­en Daten­sät­zen wie­der­erkannt. Umge­kehrt wird Data Mining genutzt, um neue Zusam­men­hän­ge zu erken­nen und zu ver­ar­bei­ten (ähn­lich funk­tio­niert das soge­nann­te unüber­wach­te Ler­nen beim maschi­nel­len Ler­nen). Ganz von­ein­an­der lösen las­sen sich des­we­gen die bei­den Pro­zes­se auf­grund der vie­len Gemein­sam­kei­ten nicht. Mit­hil­fe von Data Mining zusam­men­ge­tra­ge­ne Erkennt­nis­se, Regeln und Mus­ter wer­den für das maschi­nel­le Ler­nen gebraucht.

 

Abgrenzung zum Text Mining

 

Das Text Mining ist eine dem Data Mining ähn­li­che Ver­fah­rens­wei­se, aller­dings wird es nicht auf Big Data son­dern auf natür­lich-sprach­li­che Quel­len oder Doku­men­te ange­wen­det. Mit Hil­fe von sta­tis­ti­schen und lin­gu­is­ti­schen Metho­den gewinnt eine Text-Mining-Soft­ware Struk­tu­ren, Mus­ter, Bedeu­tungs­zu­sam­men­hän­ge und Kern­in­for­ma­tio­nen, die dem Nut­zer hel­fen, den wesent­li­chen Inhalt des Tex­tes zu erfas­sen, ohne ihn kom­plett lesen zu müs­sen. Die­se Pro­zes­se sind weit­ge­hend auto­ma­ti­siert.

Im Anschluss wird auf die gewon­ne­nen Daten aus den Tex­ten oft ein Data Mining Ver­fah­ren ange­wen­det, um die Daten und die zugrun­de lie­gen­den Tex­te in Bezie­hung zu set­zen und hier Zusam­men­hän­ge und Ver­bin­dun­gen zu erken­nen. Ent­lehn­te Ver­fah­ren aus dem Infor­ma­ti­on Retrie­val (IR) ermög­li­chen es außer­dem, Kern­da­ten und Infor­ma­tio­nen zu erfas­sen, die zur Beant­wor­tung von Such­an­fra­gen die­nen. In Daten­ban­ken mit einer gro­ßen Anzahl von Quel­len wer­den so die rele­van­ten Ein­zel­do­ku­men­te iden­ti­fi­ziert.

 

Quel­len: