Was ist ein Lemma?

Als Lemma wird in der Linguistik und in der Lexikographie die Form eines Wortes verstanden, unter der sie in einem Wörterbuch eingetragen ist. Ein Lemma ist sozusagen das Stichwort in dem jeweiligen Nachschlagewerk. Hilfreich ist dies, da nicht alle möglichen Wortformen eines Wortes einen eigenen Eintrag in einem Lexikon bekommen. Zum Beispiel sind laufe, läufst, laufen, läuft Formen von ein und derselben Grundform: laufen; laufen ist dabei das Lemma.

Der Begriff des Lemmas hängt eng zusammen mit dem des Lexems. Ein Lexem ist ein semantisches Konzept, das beim Ordnen von flektierten Wortformen helfen soll. Als flektiert gilt ein Wort, wenn es durch grammatikalische Anpassung nicht mehr in seiner Grundform steht. Also immer dann, wenn es konjugiert oder auch dekliniert wurde. So bilden zum Beispiel die konjugierten Wortformen gebe, gibst, gibt, gebt, geben, gab, gabst, gaben, gäbe, gäbest, gäbet, gäben, gegeben, gib zusammen das Lexem GEBEN. Das Lexem kann man sich demnach als Abstraktion aus der Menge der möglichen Formen eines Wortes vorstellen.

Wie unterscheiden sich jetzt aber Lexeme und Lemmata? Eine Unterscheidung gelingt über die Betrachtung im funktionellen Kontext. Denn tatsächlich wird, je nach Sprache, oftmals das Lexem auch als Lemma genutzt. Ein Lemma definiert sich also vor allem über seine Eigenschaft, das Stichwort in einem Wörterbuch oder Lexikon zu sein.

Lemmatisierung

Der Vorgang, der festlegt, welches Lemma für den jeweiligen Begriff genutzt wird, heißt Lemmatisierung. Dabei ist die Festlegung dieser Grundform prinzipiell beliebig, unterliegt aber gewissen Konventionen. Im Deutschen hat es sich durchgesetzt Verben im Infinitiv Präsens Aktiv (z.B. laufen) zu zitieren, Nomen werden für gewöhnlich im Nominativ Singular zitiert (z.B. Lauf). In anderen Sprachen können aber durchaus andere Konventionen für die Bildung von Lemmata gelten.

Warum ist das Lemma für die Computerlinguistik wichtig?

In der Computerlinguistik ist die Lemmatisierung unter anderem hilfreich, um Aussagen darüber treffen zu können, wie häufig ein Wort in einem Text vorkommt. Das wiederum kann in einem späteren Schritt dafür wichtig werden, wenn die Maschine in einer semantischen Analyse Inhalte erfassen und einordnen will.

Die Anlegung eines Lemma-Lexikons ist grundlegend hierfür, da die Zahl der Wortformen durch Flexion bedeutend größer ist als die Anzahl der zugehörigen Wörter. Folgendes Beispiel soll das verdeutlichen:

„Als wir durch den Wald liefen habe ich ihr gesagt, dass ich von allem auf und davon laufen will. Sie lachte nur und sagte: ‚Du läufst niemals davon.‘ Doch da war ich schon losgerannt und lief und lief, bis meine Beine mich nicht mehr tragen konnten.“

Hier finden wir fünf syntaktische Wörter mit vier verschiedenen Wortformen vor (liefen/laufen/läufst/lief/lief). Ohne die Anlage eines Lexikons würde die Maschine nicht erkennen, dass es sich im folgenden Beispiel wiederholend um flektierte Formen des Wortes laufen handelt. Lediglich die beiden Varianten lief würden als identisch erkannt werden.

Verfügt die Maschine aber über ein Lemma Lexikon, das ihr ermöglicht die Begriffe zu sortieren und als flektierte Formen des gleichen Begriffs zu erkennen, ist das eine wichtige Voraussetzung dafür, dass eine semantische Text-Analyse gelingen kann.

Quellen:

Gallmann, Peter: Wort, Lexem und Lemma. In: Augst, Gerhard / Schaeder, Burkhard: Rechtschreibwörterbücher in der Diskussion. Geschichte – Analyse – Perspektiven. Frankfurt am Main / Bern / New York / Paris, 1991: Peter Lang (= Theorie und Vermittlung der Sprache, 13). Seiten 261–280.
Haß-Zumkehr, Ulrike: Das Wort in der Korpuslinguistik. In: von Ágel, Vilmos/Gardt, Andreas/ Haß-Zumkehr, Ulrike/Roelcke, Thorsten (Hrsg.): «Das Wort. Seine strukturelle und kulturelle Dimension. Festschrift für Oskar Reichmann zum 65. Geburtstag. Tübingen: Niemeyer, 2001. S. 45–70.
Hausser, Roland: Grundlagen der Computerlinguistik. Mensch-Maschine-Kommunikation in natürlicher Sprache. Berlin, Heidelberg, New York, 2000. S. 274-277.
Glück, Helmut: etzler Lexikon Sprache. Zweite, überarbeitete und erweiterte Auflage». Stuttgart/Weimar, 2000. S. 403 u. 407.
Meibauer, Jörg: Einführung in die germanistische Linguistik. 2. Aktualisierte Auflage. Stuttgart/Weimar, 2002, S. 17ff.

Annotation

Automatische Texterstellung

Business Intelligence

Chatbots

Chief Artificial Intelligence Officer (CAIO)

Computerlinguistik

Content At Scale

Content-Automation

Customer Experience

Data-Mining

Datenstrategie

Deep-Learning

Duplicate Content

Entitaetenextraktion

Finanzkommunikation

Generative Engine Optimisation

Generative-KI

HR-Chatbots

Human-in-the-Loop (HITL)

Interne Verlinkung

JSON

KI-Agenten

KI-Halluzinationen

KI-Winter

Künstliche Intelligenz

Lemma

Maschinelles-Lernen

Morphologie

Natural Language Generation

Natural Language Processing

Natural Language Understanding

Neuronale Netze

Ontologien

Produktbeschreibungen

Produktinformationsmanagement-System (PIM)

Prompting

Python

Restful-API

Retrieval Augmented Generation (RAG)

Roboterjournalismus

Semantische Anreicherung

Sportberichte

Spracherkennung

Story Plot

Strukturierte Daten

Text-Spinning

Varianz

Wetterberichte