Entitätenextraktion

Die Extrak­ti­on von Enti­tä­ten, auch bekannt als “Named ent­i­ty extrac­tion” (NER) oder “Enti­tä­ten­er­ken­nung”, ist eine Tech­nik zur Extrak­ti­on von Infor­ma­tio­nen. Bei der Enti­tä­ten­ex­trak­ti­on wer­den in einem Text Schlüs­sel­ele­men­te iden­ti­fi­ziert sowie klas­si­fi­ziert und vor­ab defi­nier­ten Kate­go­ri­en zuge­ord­net.

Ziel der Extrak­ti­on von Enti­tä­ten ist es, unstruk­tu­rier­te Daten in struk­tu­rier­te Daten umzu­wan­deln, also Infor­ma­tio­nen für eine wei­te­re Ver­ar­bei­tung maschi­nen­les­bar zu machen. Named ent­i­ty reco­gni­ti­on ist eine Metho­de der Com­pu­ter­lin­gu­is­tik und gehört zum Teil­ge­biet Natu­ral Lan­guage Pro­ces­sing.

Enti­tä­ten in einem Text wie einem Bei­trag auf der News-Sei­te eines Online-Por­tals sind in ers­ter Linie: Personen(-namen), Orga­ni­sa­tio­nen und Orte. Neben sol­chen Named ent­i­ties ver­ber­gen sich in einem Text mög­li­cher­wei­se Phä­no­me­ne wie medi­zi­ni­sche Codes, Zeit­an­ga­ben, Men­gen, Pro­zent­an­ga­ben oder Geld­wer­te.

Bei der Extrak­ti­on nun wird Text, hier eine HTML-Sei­te, durch­sucht und die erkann­ten Objek­te mar­kiert. Die auto­ma­ti­sche Bestim­mung von Enti­tä­ten erzielt in Sach­tex­ten sehr hohe Tref­fer­quo­ten. Auch wenn die Algo­rith­men mit sprach­li­chen Mehr­deu­tig­kei­ten kon­fron­tiert sind, lie­gen die Erfolgs­quo­ten mensch­li­cher Zuwei­ser nur weni­ge Pro­zent höher.

 

Wo wird Entitätenextraktion angewandt?

 

Named ent­i­ty reco­gni­ti­on kommt dort zum Ein­satz, wo gro­ße Men­gen an Inhal­ten auf­be­rei­tet wer­den. Nach­rich­ten und Ver­la­ge etwa erzeu­gen täg­lich gro­ße Men­gen an Online-Con­tent. Für das bes­te Nut­zer­er­leb­nis einer­seits und die Mone­ta­ri­sie­rung von Inhal­ten ande­rer­seits ist es zen­tral, die Infor­ma­tio­nen aus die­sen Arti­keln zu struk­tu­rie­ren.

Ein Algo­rith­mus zur Enti­tä­ten­ex­trak­ti­on kann auto­ma­tisch gan­ze Arti­kel scan­nen und defi­nie­ren, wel­che wich­ti­gen Per­so­nen, Orga­ni­sa­tio­nen und Orte dar­in auf­tau­chen. Sind die­se Infor­ma­tio­nen extra­hiert, hilft das bei der auto­ma­ti­schen Kate­go­ri­sie­rung der Arti­kel in defi­nier­ten Hier­ar­chi­en. Auf Basis die­ser Infor­ma­tio­nen las­sen sich Such­ergeb­nis­se prä­zi­ser zusam­men­stel­len, Inhal­te zu the­ma­ti­schen Clus­tern kura­tie­ren, dem User inhalt­lich ver­wand­te Bei­trä­ge anzei­gen oder ziel­ge­rich­tet Wer­bung aus­spie­len.

Neben dem Ein­satz auf Nach­rich­ten­por­ta­len basie­ren auch die Emp­feh­lungs­fea­tures ande­rer Medi­en­diens­te auf Named ent­i­ty reco­gni­ti­on. Ein wei­te­res Anwen­dungs­feld abseits der Medi­en­bran­che wäre die Sor­tie­rung von Sup­port­an­fra­gen per E-Mail oder Chat durch Enti­tä­ten­ex­trak­ti­on.

 

Quel­len & PDF: