hackathon_nlg

Spannende Impulse rund um die automatische Textgenerierung

Hackathon bei Retresco heißt, dass sich die gesamte Belegschaft – von Entwicklung über Linguistik bis hin zu Sales – in bunt gemischten, interdisziplinären Teams zusammenfindet und – abseits des Tagesgeschäfts – an selbstgewählten Projekten arbeitet. Das Explorieren und Experimentieren gehört bei Retresco fest zum Selbstverständnis als Pionier auf den Gebieten Natural Language Processing (NLP) und Natural Language Generation (NLG).

Wie der Einblick in die Ergebnisse des Herbst-Hackathon zeigt, haben die Kolleginnen und Kollegen auch in diesem Jahr vielseitige und kreative Ansätze entwickelt, die Lösungen von Retresco in zukunftsweisende Richtungen lenken und neue technologische Standards setzen werden.

Hands on: Spannende Features und bessere Performance für unsere Technologien

Gleich drei Teams beschäftigten sich mit verschiedensten Fragestellungen rund um unsere NLG-Plattform textengine.io:

Der Digital Commerce nutzt textengine.io, um automatisiert große Mengen von Produkten zu betexten. Doch in Onlineshops benötigen nicht nur Produktseiten hochwertigen Content. Eines der Teams hat sich daher mit der Frage beschäftigt, ob auch für übergeordnete Seiten Inhalte automatisch generiert werden können. Die erfreuliche Antwort: Ja, das ist möglich! Nur ein Textmodell – und keine zusätzlichen Daten waren notwendig, um Inhalte für Landing Pages wie spezielle Kategorieseiten zu erstellen. Ein spannendes Feature insbesondere für die SEO-Experten zahlreicher Retresco-Kunden.

Mehrsprachigkeit ist im Digital Commerce vor allem im Zuge von Internationalisierungsstrategien ein zentrales Thema. textengine.io befähigt zur automatischen Textgenerierung in mehreren Sprachen, nur leider sind die erforderlichen Daten nicht immer in allen Sprachen vorhanden. Ein Team hat darum nach dem effizientesten Weg zur Übersetzung der Daten für die Textgenerierung mit der NLG-Plattform gesucht und kam zu dem Ergebnis: Der derzeit beste Weg ist die direkte Übersetzung der Textmodelle inklusive des Datensets – möglich für Cartridges mit überschaubar vielen Attributen. Die Arbeit des Teams hat damit wichtige Anregungen für die Entwicklung künftiger Features unserer Plattform gegeben.

Nicht nur Features, auch die Performance unserer Produkte möchten wir stets optimieren: Mit Cython konvertierte eines der Hackathon-Teams den Code der textengine.io Programmbibliothek von Python nach C. Denn die Programmiersprache ist besonders für zwei Eigenschaften bekannt: sie ist schnell und kompiliert. Während die Schnelligkeit für eine bessere Performance für unsere Kunden sorgen sollte, dient das Kompilieren dem Schutz unseres geistigen Eigentums – unseren zukunftsweisenden Technologien.

Und auch ein weiterese Hackathon-Projekt spielte sich im Umfeld der Textgenerierung ab: Das Ziel bestand hier darin, mehr Variation in Nachrichtentexten der nationalen Presseagenturen zu erreichen. Denn von den meisten Medienunternehmen werden die Presseberichte der großen Agenturen unverändert übernommen und publiziert – da es sich dabei jedoch offensichtlich nicht um unique Inhalte handelt, ist diese Vorgehensweise aus SEO-Perspektive nicht optimal. Die Idee war daher, Nachrichten automatisiert zu variieren, sodass diese direkt publiziert werden. Newsportalen würden somit über die Möglichkeit verfügen, mit einzigartigen Texten die Reichweite zu steigern.

Zoom out: Ein Blick auf Forschung und Entwicklung

Als NLP-Pioniere ist Retresco natürlich stets an den technologischen Entwicklungen im Bereich des Natural Language Processing interessiert – und OpenAI’s GPT-x ist unbestritten Teil dessen. Ziel eines weiteren Hackathon-Teams war es, sich das gigantische neuronale Netzwerk anzuschauen, für verschiedene Use Cases auszuprobieren und mit freien Alternativen wie GPT-J zu vergleichen.

Und zu guter Letzt: Inspiriert durch einen kürzlich erschienenen Forschungsartikel beschäftigte sich ein weiteres Hackathon-Team mit dem Aufsetzen eines Machine Learning Models, das automatisiert Fragen beantwortet, indem es die richtige Antwort aus einem Textparagraphen extrahiert. Eine sehr komplexe Aufgabe, die eine unwahrscheinlich große Menge an Trainingsdaten erfordert.

Die Idee ist daher, das Modell mit einer ähnlichen Aufgabe – in diesem Fall mit selbstgenerierten Daten – vorzutrainieren, wofür im Hackathon nun die Voraussetzungen geschaffen wurden. Spannende Projekte, innovative Ideen und neuer Elan – der Hackathon war ein voller Erfolg und das gesamte Retresco-Team freut sich schon jetzt auf die nächste Runde. Wer zukünftig dabei sein möchte, findet auf der Karriereseite von Retresco zahlreiche offene Stellen.