1. Was ist ein Lemma?
  2. Lemmatisierung
  3. Warum ist das Lemma für die Computerlinguistik wichtig?

 

 

Was ist ein Lemma?

 

Lemma in der LinguistikAls Lemma wird in der Linguistik und in der Lexikographie die Form eines Wortes verstanden, unter der sie in einem Wörterbuch eingetragen ist. Ein Lemma ist sozusagen das Stichwort in dem jeweiligen Nachschlagewerk. Hilfreich ist dies, da nicht alle möglichen Wortformen eines Wortes einen eigenen Eintrag in einem Lexikon bekommen. Zum Beispiel sind laufe, läufst, laufen, läuft Formen von ein und derselben Grundform: laufen; laufen ist dabei das Lemma.

Der Begriff des Lemmas hängt eng zusammen mit dem des Lexems. Ein Lexem ist ein semantisches Konzept, das beim Ordnen von flektierten Wortformen helfen soll. Als flektiert gilt ein Wort, wenn es durch grammatikalische Anpassung nicht mehr in seiner Grundform steht. Also immer dann, wenn es konjugiert oder auch dekliniert wurde. So bilden zum Beispiel die konjugierten Wortformen gebe, gibst, gibt, gebt, geben, gab, gabst, gaben, gäbe, gäbest, gäbet, gäben, gegeben, gib zusammen das Lexem GEBEN. Das Lexem kann man sich demnach als Abstraktion aus der Menge der möglichen Formen eines Wortes vorstellen.

Wie unterscheiden sich jetzt aber Lexeme und Lemmata? Eine Unterscheidung gelingt über die Betrachtung im funktionellen Kontext. Denn tatsächlich wird, je nach Sprache, oftmals das Lexem auch als Lemma genutzt. Ein Lemma definiert sich also vor allem über seine Eigenschaft, das Stichwort in einem Wörterbuch oder Lexikon zu sein.

 

Lemmatisierung

 

Der Vorgang, der festlegt, welches Lemma für den jeweiligen Begriff genutzt wird, heißt Lemmatisierung. Dabei ist die Festlegung dieser Grundform prinzipiell beliebig, unterliegt aber gewissen Konventionen. Im Deutschen hat es sich durchgesetzt Verben im Infinitiv Präsens Aktiv (z.B. laufen) zu zitieren, Nomen werden für gewöhnlich im Nominativ Singular zitiert (z.B. Lauf). In anderen Sprachen können aber durchaus andere Konventionen für die Bildung von Lemmata gelten.

 

Warum ist das Lemma für die Computerlinguistik wichtig?

 

In der Computerlinguistik ist die Lemmatisierung unter anderem hilfreich, um Aussagen darüber treffen zu können, wie häufig ein Wort in einem Text vorkommt. Das wiederum kann in einem späteren Schritt dafür wichtig werden, wenn die Maschine in einer semantischen Analyse Inhalte erfassen und einordnen will.

Die Anlegung eines Lemma-Lexikons ist grundlegend hierfür, da die Zahl der Wortformen durch Flexion bedeutend größer ist als die Anzahl der zugehörigen Wörter. Folgendes Beispiel soll das verdeutlichen:

„Als wir durch den Wald liefen habe ich ihr gesagt, dass ich von allem auf und davon laufen will. Sie lachte nur und sagte: ‚Du läufst niemals davon.‘ Doch da war ich schon losgerannt und lief und lief, bis meine Beine mich nicht mehr tragen konnten.“

Hier finden wir fünf syntaktische Wörter mit vier verschiedenen Wortformen vor (liefen/laufen/läufst/lief/lief). Ohne die Anlage eines Lexikons würde die Maschine nicht erkennen, dass es sich im folgenden Beispiel wiederholend um flektierte Formen des Wortes laufen handelt. Lediglich die beiden Varianten lief würden als identisch erkannt werden.

Verfügt die Maschine aber über ein Lemma Lexikon, das ihr ermöglicht die Begriffe zu sortieren und als flektierte Formen des gleichen Begriffs zu erkennen, ist das eine wichtige Voraussetzung dafür, dass eine semantische Text-Analyse gelingen kann.

 

Quellen:

  • Gallmann, Peter: Wort, Lexem und Lemma. In: Augst, Gerhard / Schaeder, Burkhard: Rechtschreibwörterbücher in der Diskussion. Geschichte – Analyse – Perspektiven. Frankfurt am Main / Bern / New York / Paris, 1991: Peter Lang (= Theorie und Vermittlung der Sprache, 13). Seiten 261–280.
  • Haß-Zumkehr, Ulrike: Das Wort in der Korpuslinguistik. In: von Ágel, Vilmos/Gardt, Andreas/ Haß-Zumkehr, Ulrike/Roelcke, Thorsten (Hrsg.): «Das Wort. Seine strukturelle und kulturelle Dimension. Festschrift für Oskar Reichmann zum 65. Geburtstag. Tübingen: Niemeyer, 2001. S. 45–70.
  • Hausser, Roland: Grundlagen der Computerlinguistik. Mensch-Maschine-Kommunikation in natürlicher Sprache. Berlin, Heidelberg, New York, 2000. S. 274-277.
  • Glück, Helmut: etzler Lexikon Sprache. Zweite, überarbeitete und erweiterte Auflage». Stuttgart/Weimar, 2000. S. 403 u. 407.
  • Meibauer, Jörg: Einführung in die germanistische Linguistik. 2. Aktualisierte Auflage. Stuttgart/Weimar, 2002, S. 17ff.

 

Weitere Lexikonartikel, die Sie interessieren könnten: