Nachdem wir vor ein paar Wochen geklärt haben, wofür BLEU Scores verwendet werden, wird es nun Zeit, uns dem Post-Editing Gegenstück von BLEU zuzuwenden: TER.
TER steht meist für "Translation Error Rate", wird manchmal aber auch "Translation Edit Rate" genannt. Während es bei BLEU vor allem darum geht, zu bestimmen, wie nah eine maschinelle Übersetzung einer menschlichen Referenz kommt, sagt TER aus, wie viele Schritte im Post-Editing benötigt werden, um von der erstellten maschinellen Übersetzung zur korrekten (menschlichen) Übersetzung zu gelangen.

brown and white cat in shallow focus shot
Photo by FuYong Hua / Unsplash

Genau wie bei BLEU liegen auch bei TER die größten Vorteile in der schnellen Auswertung von Ergebnissen und in der sprachübergreifenden Anwendung. Denn beide Algorithmen interessieren sich nicht dafür, mit welchen Sprachen sie arbeiten, sondern wollen nur herausfinden, wie viele Unterschiede es zwischen den ihnen vorliegenden Sätzen gibt.

Lücken im System

Eine wenig erfreuliche Gemeinsamkeit mit BLEU ist die leicht eingeschränkte Aussagekraft des TER Scores. So beinhaltet der Prozess des Post-Editing in Realität natürlich weitaus mehr Gedanken als ein Algorithmus sich überhaupt machen könnte. Erinnern wir uns kurz an die Erläuterung von BLEU Scores zurück: Bei der Arbeit mit BLEU (sowie auch bei der Arbeit mit TER) werden menschliche Referenz-Übersetzungen bereits vorgegeben. Dann wird gemessen, wie nah die maschinelle Übersetzung dieser Referenz gekommen ist. Über BLEU haben wir gelernt, dass der tote Winkel des Scores relativ umfassend ist, und genau so hat auch TER seine Limits. So achten menschliche Proofreader nicht nur auf mögliche Fehler, sondern zum Beispiel auch auf den Lesefluss und die kulturelle Angepasstheit der Übersetzung. Außerdem betrachten sie dabei nicht nur isolierte Sätze. Verschiedene Sätze in einem gemeinsamen Kontext zu betrachten gehört aber nicht zu den Fähigkeiten von TER. Genau wie BLEU ist eben auch TER nur zur schnellen Messung der Richtigkeit maschineller Übersetzungen gedacht. Beide Algorithmen können dabei nicht die Schwere möglicher Fehler bewerten, sondern vergleichen lediglich die Sätze miteinander, die ihnen vorgelegt werden. Wenn zu Beispiel ein Wortspiel nicht richtig übersetzt wurde, merken das weder BLEU noch TER. Was sie aber durchaus merken, ist dass der maschinell übersetzte Satz nicht der ihnen vorliegenden menschlichen Referenz entspricht. Und die Unterschiede zwischen diesen Sätzen können sie bewerten - denn genau dazu wurden sie entwickelt. Während BLEU also Fragen beantwortet wie: "Ist unser jetziges System besser als das alte?", liefert TER Resultate zu Fragen wie "Wie viele Schritte müssten jetzt noch gemacht werden, um ein gutes Ergebnis zu erzielen?".

red and brown book
Photo by Rita Morais / Unsplash

Was sagen die Experten?

Um ein genaueres Bild davon zu bekommen, wie die Realität der Arbeit mit Scores wie BLEU und TER aussieht, haben wir uns mit Svetlana Tchistiakova aus unserem Machine Translation Team unterhalten.

"Wenn man ein System baut, muss man dieses auswerten können um nachzuvollziehen wie gut es seine Aufgabe ausführt, und um es im Laufe der Zeit verbessern zu können. Für Machine Translation bedeutet dies, dass wir die Qualität der vom System produzierten Übersetzung verstehen müssen", sagt Svetlana zu Beginn unseres Gesprächs. Das Thema der Auswertung wurde auch in ihrem Computerlinguistik-Studium angesprochen. Diese Problematik ist komplex, denn es gibt keinen Blueprint, der für jeden Fall passt. Eher gibt es einen ganzen Stapel an verschiedenen Methoden zur Auswertung. Je nachdem was sie gerade brauchen, greifen MT Profis vor allem auf BLEU, TER und METEOR zurück.

Svetlana erklärt die Schwachstellen von TER folgendermaßen:
"Wie alle automatische Metriken hat auch TER einige Nachteile. Zum Beispiel gibt es oft mehrere mögliche Übersetzungen eines Dokuments, und auch viele Synonyme die für verschiedene Wörter verwendet werden könnten. Daher ist es schwierig, eine einzige 'beste' Referenz zu finden, mit der man die maschinelle Übersetzung vergleichen kann. Und auch wenn der Output des Systems nicht der Referenz-Übersetzung entspricht, heißt das noch lange nicht, dass dieser Output schlecht ist. BLEU löst dieses Problem immerhin teilweise, indem es die Verwendung verschiedener Referenz-Übersetzungen erlaubt und am Ende einen Durchschnittswert angibt. TER löst das Problem durch den Einbezug eines menschlichen Übersetzers."
Da es aber zu zeitaufwendig wäre, bei jedem Schritt des MT Prozesses mit menschlichen Übersetzern zu arbeiten (denn MT Teams trainieren und testen täglich mehrere verschiedene Modelle), müssen fürs Erste eben doch automatische Metriken verwenden werden: "Natürlich ist es immer gut wenn wir menschliche Übersetzer in den Prozess einbeziehen können, aber manchmal haben wir diesen Luxus einfach nicht."

Wie wir bereits gelernt haben, sehen BLEU und TER alle Fehler als gleichwertig an, auch wenn wir als Menschen natürlich wissen, dass manche Fehler viel schwerwiegender sind als andere. Dieses Thema spricht auch Svetlana an:
"TER kann (genau wie BLEU) wichtige Fehler in einer Übersetzung verdecken. Wenn man zum Beispiel ein medizinisches Dokument übersetzt, kann die fehlerhafte Übersetzung einer Einheit (z.B. 10 Milligramm) katastrophale Auswirkungen haben, würde von den Metriken aber nur als ein kleiner Fehler wahrgenommen werden, solange der restliche Satz korrekt ist."

Und wie sieht ihr Fazit aus?
"Keine der automatischen Metriken ist perfekt. Sie haben alle Vor- und Nachteile, und jede einzelne ist ein schlechter Ersatz für eine menschliche Auswertung. Der Trick liegt darin, eine Metrik zu finden, die für die eigenen Zwecke gut funktioniert, schnell genug ist um während der Entwicklung des Systems benutzt werden zu können, und die menschlichen Bewertungen entspricht. Das heißt, wenn Menschen sagen, dass die Übersetzung besser ist, dann verbessert sich auch die Metrik. Für jetzt ist das das beste was wir von einer Machine Translation Metrik erwarten können."

Das vollständige Interview (auf Englisch) gibt es hier.

Über Svetlana Tchistiakova
Svetlana hat in Los Angeles, Portland, Trient und im Saarland studiert und gearbeitet. Nach vier Jahren Arbeit in den Bereichen Speech Recognition und einem Abschluss in Computerlinguistik ist sie seit Anfang des Jahres Teil des lengoo Machine Translation Teams in Berlin.