Training von Übersetzungsmodellen

Beste Übersetzungsqualität für Unternehmen

Alle Quellen als Trainingsgrundlage: Websites, Glossare, Datenbanken, Dokumenten, TMS-Exporten

Extraktion der Trainingsdaten automatisiert und selbstständig

Validierung, Bereinigung und Verarbeitung der Sprachdaten

Trainieren und Finetuning der Sprachmodelle

Evaluation der Übersetzungsergebnisse in eigener Umgebung

Training von Übersetzungsmodellen

In Kürze zusammengefasst

Ihre bisherigen Übersetzungen sind ein Datenschatz, den Sie zu Ihrem Vorteil nutzen sollten. 

Durch die Investitionen der Vergangenheit, in Übersetzungen und Proofreading, hat Ihr Unternehmen eine große Menge an Sprachdaten geschaffen, die von sehr guter Qualität sind.

Diese Daten können wir für Sie nutzbar machen und erreichen damit die Qualität von menschlicher Übersetzung - mit der Effizienz von maschineller Übersetzung.

Gewinnen Sie Geschwindigkeit in weltweiten Rollouts von Inhalten und Kampagnen und erleichtern Sie Ihren lokalen Ländergesellschaften die Arbeit.

Welche Schritte durchläuft das Training? 

Das Training von maschineller Übersetzung auf Ihre Unternehmenssprache besteht aus 5 Schritten:

1. Sammlung - Erfassen der Sprachdaten aus Websites, Glossaren, Sprachdatenbanken, Dokumenten, TMS-Exporten
2. Extraktion - Herauslösen der Sprachpaare aus den gesammelten Daten
3. Verarbeitung - Validieren, Bereinigen und Verarbeiten der Sprachdaten für die Trainings
4. AI-Training - Trainieren der Sprachmodelle auf das Übersetzungswissen
5. Bewertung - Evaluation der Sprachmodelle durch den Kunden im Modell-Blindtest

Wie trainiert man Übersetzungsmodelle? 

Translate lernt Unternehmenssprache wie ein Übersetzer.

1. Sammlung:

Einem neuen Übersetzer würden Sie Sprachregelungen erklären. Sie zeigen ihm vielleicht ein Verzeichnis der Produktnamen. Eventuell existiert ein Glossar, in dem Sie Fachbegriffe und Übersetzungen festgelegt haben. In manchen Fällen können Sie sogar ein Dokument zur Corporate Language und dem Tone-of-Voice mitgeben. Oder Sie haben keine Struktur und weisen den Übersetzer an, dass er sich Ihre Veröffentlichungen anschauen soll und diesen Stil beibehalten soll. Diesen Teil der Sammlung machen wir vollautomatisch, sobald wir die Informationen erhalten.

2. Extraktion:

Aus allen Quellen und Daten die uns zur Verfügung gestellt werden, müssen wir Satzpaare finden.
Satzpaare sind die Währung des Trainings für Übersetzungsmodelle.

Ein Beispiel für einen Trainingssatz bei KWS Saat ist beispielsweise:

Deutsch: "Und so widerstandsfähig wie Roggen ist kaum ein anderes Getreide."
Englisch: "And there is hardly any other cereal that is so resistant as rye."

In diesem Satz ist sowohl Grammatik enthalten, als auch die sprachliche Tonalität, dass KWS von "cereal" spricht, während generische Übersetzungsmodelle  "grain" übersetzen würden.

3. Verarbeitung:

Die Daten die wir erhalten sind üblicherweise unsortiert. Gerade in veröffentlichten Dokumenten und Websites finden wir Texte, die nicht 1:1 an derselben Stelle und passend übersetzt worden sind. Daher haben wir eigene Technologie entwickelt, um diese Satzpaare zu finden und aufzubereiten. 
Damit wird ein Training wirtschaftlich und zeitlich sinnvoll machbar.

4. AI-Training:

Die aufbereiteten Sprachdaten führen wir in einem Trainingskorpus zusammen. Selbstverständlich mit Kontrollgruppe und für das zu trainierende Modell optimal aufbereitet. Die Trainingszyklen werden dann solange durchlaufen, bis die Ergebnisse gut genug sind für die Bewertung.

5. Bewertung:

In der Evaluationsphase stellen wir die Ergebnisse in einem separaten Bereich zur Verfügung. Dort können die Übersetzungsverantwortlichen die Ergebnisse der trainierten Unternehmensmodelle mit denen von generischen Modellen oder den bisherigen Übersetzungen validieren und überprüfen.

Und wie lernt die KI weiter? 

Translate lernt mit jedem Proofreading und jeder Veröffentlichung dazu.

Im Betrieb stellen wir Ihnen per API und Webfrontend Ihre trainierten Übersetzungsmodelle zur Verfügung. Bei jeder Übersetzung können Sie Veränderungen aus dem Proofreading mitgeben. Zusätzlichen nutzen wir periodisch die Trainingsquellen und prüfen im Abgleich, welche Veränderungen am Sprachschatz stattgefunden haben, um diese wieder ins Modell zu trainieren.

Und wenn wir ad-hoc Änderungen haben und beispielsweise ein neues Produkt veröffentlichen? In unserem Trainingscenter können Sie die Änderungen direkt verwalten und bestimmen, dass Übersetzungen ab sofort zu verändern sind. Ihre Anpassungen im Trainingscenter nehmen wir ebenfalls regelmäßig in das Modelltraining mit auf.

Wozu trainiert man Übersetzungsmodelle?

Kurz zusammengefasst:

Erlernen der Spezialbegriffe, Tonalität und Eigennamen des Unternehmens - für höchste Übersetzungsqualität.

Kontinuierliches Weiterlernen und Verbesserung im Betrieb - für zukünftige beste Ergebnisse.

Verarbeitung aller Datenquellen für das Training - egal ob Websites, TMS, Glossare, Dokumente oder weitere Quellen - für die Nutzung alle Sprachdaten die bisher erzeugt wurden.
Was das kostet:

Den kompletten Prozess von der Sammlung bis zur Verfügungsstellung der Evaluationsumgebung und der Bewertung der Trainingsergebnisses - bieten wir zu einem Pauschalpreis von 5.000€ pro Sprache an.

Wie lange dauert es eine KI zu trainieren? 

Translate Ihre Unternehmenssprache beizubringen ist sehr schnell möglich.

Die Phasen Datenaustausch, Training und Evaluation haben wir schon in wenigen Werktagen realisieren können. Ein üblicher Wert sind etwa 3-4 Wochen. Dabei ist der kritische Pfad der Zugang zu den Daten - gerade bei Drittsystemen wie Translation Memory Systemen. Und die Verfügbarkeit der Übersetzungsverantwortlichen für die Evaluation.

In der Evaluation werden etwa 200 Satzpaare geprüft, Sie sollten mit etwa 16 Stunden Aufwand rechnen.

Phasenplan Training & Betrieb

Von den Daten zur Übersetzung

01

Datenaustausch

wonk.ai erhält die Liste der Sprachen die übersetzt werden sollen und Zugang zu den Datenquellen die zum Training zur Verfügung stehen.

02

Data Checkup

wonk.ai prüft die Qualität der Sprachdaten und die Anzahl der zu erzielenden Sprachpaare und gibt Feedback zur Realisierbarkeit.

03

Festlegen der Tester

Der Kunde bestimmt welche Stakeholder und Fachleute im Unternehmen die Sprachmodelle überprüfen und die Ergebnisse bewerten - im Vergleich zu bisherigen Übersetzungen oder alternativen Lösungen.

04

Training der Sprachmodelle

wonk.ai extrahiert die Sprachdaten, validiert und bereinigt das Trainingsset und trainiert die Sprachmodelle mit mathematischer Bewertung.

05

Evaluation der Ergebnisse

Die Tester des Kunden bewerten die Sprachmodelle innerhalb einer eigenen Bewertungsumgebung und geben Feedback zu einzelnen Ergebnissen.

05

Inbetriebnahme

Wenn die Sprachmodelle initial abgenommen sind, können diese direkt in den Betrieb genommen werden und sind über die kundeneigene Webumgebung nutzbar. Die trainierten Modelle sind ebenfalls über die API in Drittsysteme integrierbar und so in der ganzen Systemlandschaft nutzbar.

Was kann Translate?

Translate kombiniert die Wirtschaftlichkeit von maschineller mit der Qualität menschlicher Übersetzung.

Websiteprojekte und Inhalte - .XLIFF

.xml, .xlif und weitere Formate, die ein CMS exportieren kann, nimmt Translate entgehen und übersetzt die Sprache formatgetreu.

Downloads - .PDF

Translate übersetzt schon fertig gesetzte Dokumente im Format .pdf in die gewünschten Sprachen.

Officedokumente - Word, Excel, Powerpoint

Klassische Dokumente die in der täglichen Büroarbeit entstehen können mit Translate übersetzt werden. Und behalten Ihre Formatierung und Ihre Gestaltung.

Eigene Unternehmenssprache

Innerhalb eines Trainingsprojektes trainieren wir Translate auf Basis der bestehenden Inhalte aus Websites, Translation-Memory-Systemen (TMS), Dokumenten jeglicher Form und bestehenden Glossaren.

Kataloge, Broschüren und Druckerzeugnisse - .IDML

Diese Inhalte werden üblicherweise in Indesign im Format .idml erzeugt. Translate übersetzt die Inhalte, so dass Sie editierbar und im Indesign-Format erhalten bleiben. 

100% DSVGO-konform

Integriert durch API in Microsoft Azure. Daten in EU & Deutschland - oder auf Wunsch on-premise

Unsere Kunden

Wie wäre es?

Automatisieren Sie Ihre Übersetzungen in hoher Qualität.

Das Training für translate ist klar...

was gibt es noch?