Strukturierte Daten

 

  1. Struk­tu­rier­te Daten vs. unstruk­tu­rier­te Daten
  2. SQL (Struc­tu­red Que­ry Lan­guage)
  3. Umwand­lung unstruk­tu­rier­ter Daten
  4. Struk­tu­rier­te Daten in der Natu­ral Lan­guage Gene­ra­ti­on
  5. Struk­tu­rier­te Daten im SEO

 

Strukturierte Daten vs. unstrukturierte Daten

 

Die Erklä­rung, was struk­tu­rier­te Daten sind und wel­che Bedeu­tung sie haben, führt schnell zu ihrem Gegen­teil, den unstruk­tu­rier­ten Daten. Bei­spie­le für unstruk­tu­rier­te Daten sind etwa ana­lo­ge oder digi­ta­le Text-Doku­men­te, Audio­da­tei­en, Vide­os und Bil­der. Sol­che Inhal­te ent­hal­ten eine Rei­he von rele­van­ten Daten wie Per­so­nen­na­men, Orts­an­ga­ben oder Men­gen­be­zeich­nun­gen — nur eben in “frei­er”, unspe­zi­fi­scher Form.

Die Her­aus­for­de­rung bei sol­chen Daten ist, dass die ent­hal­te­nen Infor­ma­tio­nen kaum orga­ni­siert bzw. wei­ter­ver­ar­bei­tet wer­den kön­nen. Nur struk­tu­rier­te Daten las­sen sich effi­zi­ent ver­wal­ten und nut­zen, das gilt vor allem für EDV-Lösun­gen und Inter­net-Anwen­dun­gen. Online-Shops, aber auch News-Por­ta­le, Wet­ter­diens­te oder Sport­sei­ten ver­ar­bei­ten gro­ße Men­gen an Infor­ma­tio­nen. Die Appli­ka­tio­nen kön­nen Daten nur hand­ha­ben, wenn die­se in Tabel­len­form, also in Spal­ten und Zei­len, auf­be­rei­tet sind.

 

SQL (Structured Query Language)

 

Wäh­rend für über­schau­ba­re Bestän­de eine Excel-Tabel­le noch aus­reicht, orga­ni­sie­ren Daten­ban­ken gro­ße Men­gen an Infor­ma­tio­nen. Zur Ver­wal­tung von Ver­zeich­nis­sen struk­tu­rier­ter Daten hat sich die Daten­bank­spra­che SQL eta­bliert. SQL ermög­licht es, Daten­men­gen von belie­bi­ger Grö­ße zu spei­chern, zu durch­su­chen, neue Infor­ma­tio­nen hin­zu­zu­fü­gen, zu aktua­li­sie­ren und zu löschen.

Die Syn­tax der Daten­bank­spra­che ist ver­gleichs­wei­se intui­tiv und mit Abfra­ge­be­feh­len wie “SELECT”, “FROM”, “ORDER BY2 an die eng­li­sche Spra­che ange­lehnt. SQL bie­tet eine Pro­gram­mier­schnitt­stel­le zu ande­ren Spra­chen wie C, C++, COBOL, Ada aber auch Java und C#.

 

Umwandlung unstrukturierter Daten

 

Schät­zun­gen gehen davon aus, dass 85 — 90 % aller online ver­füg­ba­ren Daten unstruk­tu­riert sind. Daten aus im Inter­net anzu­tref­fen­den For­ma­ten wie .pdf, mp4, .jpeg aber auch .docx und HTML-Doku­men­ten kön­nen nicht ohne Wei­te­res in einer Daten­ban­ken abge­legt wer­den.

Sol­len Daten aus sol­chen unstruk­tu­rier­ten For­ma­ten genutzt wer­den, müs­sen die Infor­ma­tio­nen zunächst aus dem Inhalt extra­hiert und in einer Tabel­le abge­legt wer­den. Das geschieht zum Bei­spiel mit Ver­fah­ren der seman­ti­schen Ana­ly­se, einem Teil­ge­biet des Fel­des Natu­ral Lan­guage Under­stan­ding. Dabei scan­nen Algo­rith­men Inhal­te, etwa Arti­kel aus einem Online-New­s­por­tal, erken­nen dar­in die rele­van­ten Phä­no­me­ne und Inhal­te und fas­sen die Daten in maschi­nen­les­ba­ren Tabel­len zusam­men.

 

Strukturierte Daten in der Natural Language Generation

 

Natu­ral Lan­guage Gene­ra­ti­on (NLG) ist die Erstel­lung von Tex­ten aus struk­tu­rier­ten Daten. Infor­ma­tio­nen in struk­tu­rier­ter Form sind eine Vor­aus­set­zung für eine NLG-Soft­ware, eine ande­re vor­for­mu­lier­te Text­bau­stei­ne und Bedin­gun­gen, die defi­nie­ren, wie sich ein Text auf­baut. Im Zusam­men­spiel aus Vor­la­gen und struk­tu­rier­ten Daten ent­ste­hen auto­ma­ti­siert natür­lich­sprach­li­che Tex­te wie Fonds­re­ports, Spiel­be­rich­te von Fuß­ball­be­geg­nun­gen, Pro­dukt­tex­te oder Wet­ter­be­rich­te.

Am Bei­spiel Wet­ter­be­rich­te sind struk­tu­rier­te Daten etwa die Infor­ma­tio­nen zu Tem­pe­ra­tur, Luft­druck oder Nie­der­schlags­wahr­schein­lich­keit an einem Ort. Auf Bör­sen-News bezo­gen kön­nen das die Wer­te wie Zu- bzw. Abnah­me eines Inde­xes oder Kurs­schwan­kun­gen sein, beim Betex­ten von Pro­dukt­be­schrei­bun­gen Arti­kel­merk­ma­le wie Far­be, Grö­ße oder Gewicht. NLG-Anwen­dun­gen ermög­li­chen es, gro­ße Daten­men­gen per direk­tem Upload oder über eine API in ein NLG-Sys­tem ein­zu­spie­len und so Tex­te in ska­lier­ba­rer Men­ge effi­zi­ent zu erstel­len.

 

Strukturierte Daten im SEO

 

Der Begriff struk­tu­rier­te Daten spielt auch in der Such­ma­schi­nen­op­ti­mie­rung eine wich­ti­ge Rol­le. Bezo­gen auf SEO sind struk­tu­rier­te Daten Aus­zeich­nun­gen, die Such­ma­schi­nen bei der bes­se­ren Ein­ord­nung von Web­sites und deren The­men hel­fen. So las­sen sich mit struk­tu­rier­ten Daten etwa zusätz­li­che Infor­ma­tio­nen bereit­stel­len, etwa zu Prei­sen, Orten, zeit­li­chen Rah­men­da­ten, Ver­an­stal­tun­gen oder Kun­den­mei­nun­gen. Der Stan­dard zu struk­tu­rier­ten Daten für Web­pages ist auf schema.org fest­ge­legt. Goog­le hono­riert die zusätz­li­chen Infor­ma­tio­nen und rei­chert das Snip­pet in den Such­ergeb­nis­sen ent­spre­chend an. Für Web­site-Betrei­ber erge­ben sich durch die Ver­wen­dung der “struc­tu­red data” mit gestei­ger­ter Sicht­bar­keit und dar­aus resul­tie­ren­der höhe­rer Klick­ra­te durch­weg posi­ti­ve Effek­te.

 

Quel­len: