BLEU Scores sind tägliches Brot für (fast) jeden der mit Machine Translation arbeitet. Wer sich jedoch als Laie mit MT beschäftigen möchte, beendet die Suche nach Antworten vermutlich kurz nachdem er sich im Internet vor einer Wand technischer Buzzwords wiederfindet. Um zumindest eines dieser Worträtsel zu lösen, erklären wir heute was sich hinter "BLEU Scores" versteckt - und wieso die Frage nach der Korrektheit von Übersetzungen in diesem Zusammenhang geradezu philosophische Ausmaße annimmt.

man holding blue powder while raising hand
Photo by Kristopher Allison / Unsplash

Das was sich im ersten Moment wie eine Farbe anhört, ist in Wirklichkeit ein Akronym für "Bilingual Evaluation Understudy". Im Juli 2002 gab eine Forschungsgruppe von IBM einen Bericht heraus, in welchem sie erklärten, dass die menschliche Auswertung von Machine Translation zu langwierig und zu teuer ist. Sie schlugen eine günstigere Methode vor, welche Menschen beim Erlangen zügiger Resultate unterstützen kann: BLEU.

"Human evaluations of machine translation are extensive but expensive. [...] We propose a method of automatic machine translation evaluation that is quick, inexpensive, and language-independent [...]. We present this method as an automated understudy to skilled human judges which substitutes for them when there is need for quick or frequent evaluations."

Die Idee des Teams (bestehend aus Kishore Papineni, Salim Roukos, Todd Ward und Wei-Jing Zhu) war im Grunde ganz einfach: BLEU Scores messen den Unterschied zwischen menschlichen und maschinellen Übersetzungen. Verwendet wird hierfür ein vergleichsweise simpler Algorithmus. Zunächst werden einzelne Segmente (meist Sätze) verglichen, später wird ein Durchschnittswert für den gesamten Text ermittelt. Je näher die maschinelle der menschlichen Übersetzung kommt, umso besser ist ihr Score. Generell wird dabei eine Skala von 0 bis 1 verwendet, auf welcher der Wert 1 identisch mit der menschlichen Referenz-Übersetzung ist, während ein Score von 0 signalisiert, dass die maschinelle Übersetzung keine Übereinstimmungen mit der menschlichen hat. Manche MT Entwickler multiplizieren diese Skala mit 10 oder 100, und erreichen so dementsprechend höhere Werte. Ein Score von 50 wäre also nicht 50-fach perfekt, sondern entspräche einer 0,5 auf der ursprünglichen Skala. Außerdem ist es gar nicht nötig einen Score von 1 (bzw. 10 oder 100) zu erreichen, da die Übersetzung in diesem Fall wirklich identisch mit einer der vorgegebenen Referenzen sein müsste. Und das ist nicht das Ziel. Es geht darum, möglichst korrekte Übersetzungen zu erreichen, nicht die vorgegebenen Referenzen zu imitieren.

gauge showing 30
Photo by Manki Kim / Unsplash

Besonders praktisch an BLEU ist, dass der Score für alle Sprachen gleich funktioniert, denn der Algorithmus ist für jede Sprache der selbe und interessiert sich nicht für die verwendeten Sprachen - nur für Unterschiede zwischen der "neuen" Übersetzung und der Referenz. Die erreichten Scores liegen meist zwischen 20 und 40, bzw. 0,2 und 0,4. Dies hört sich vielleicht niedrig an, aber da selbst Menschen keinen "perfekten" Score erreichen können, sind diese Werte um einiges beeindruckender als sie auf den ersten Blick erscheinen.
So weit so gut. Wo liegt nun aber das Problem?

Die Schwierigkeit der Accuracy Scores

Ein Grundproblem in der Machine Translation ist die schwierige Messung der Richtigkeit von Übersetzungen. Da Übersetzungen sich auch von Mensch zu Mensch unterscheiden, ist es schwierig zu sagen mit wem oder was man die maschinelle Übersetzung überhaupt vergleichen soll. Denn wann ist eine Übersetzung schon zu 100% korrekt?
Nehmen wir das simple Beispiel der Bilderkennung: Ist auf dem Bild eine blaue Wand zu sehen - ja oder nein? Diese Frage lässt sich leicht beantworten. Die Frage, ob eine Übersetzung korrekt ist, ist hingegen weitaus schwieriger zu klären.
Nehmen wir das englische Beispiel "Why don't you sit down?". "Warum setzt du dich nicht hin?" scheint auf den ersten Blick die beste Übersetzung zu sein. Bedenkt man nun aber, dass die "Why don't you"-Floskel im Englischen ein rhetorisches Mittel ist, welches nicht immer wörtlich zu verstehen ist, wird der Satz schon komplizierter. Außerdem: Wer redet hier mit wem? Sollte die Person geduzt oder gesiezt werden? Die Variationen "Nehmen Sie doch bitte Platz" oder "Setz dich" können ebenfalls korrekt sein.
Ein Problem sind auch Übersetzungen von gender-unspezifischen zu gender-spezifischen Sprachen. "I'm visiting a friend this weekend" lässt sich in viele Sprachen (u.a. Französich, Spanisch, Deutsch, ...) gar nicht so leicht übersetzen. Handelt es sich nun um einen Freund oder eine Freundin?
Die Bedeutung mancher Wörter ist zudem ohne Kontext schlichtweg nicht erkennbar. So sorgte Autorin Joanne K. Rowling im Jahr 2006 bei der Bekanntgebung des Buchtitels Harry Potter and the Deathly Hallows für viele Spekulationen. Wie sollte das Buch nun heißen? Harry Potter und die Heiligen des Todes, Harry Potter und die tödliche Weihestätte, Harry Potter und die heiligen Hallen des Todes? Ideen und Vermutungen gab es viele, doch nur der Inhalt des Buches (es handelte sich natürlich, wir erinnern uns, um die Heiligtümer des Todes) konnte schlussendlich deutlich machen, welche Übersetzung wirklich passt.

Wie richtig kann nun der Computer mit seinem Ergebnis liegen, wenn es auch für Menschen verschiedene Optionen gibt?

pot on window with flowers
Photo by Vincent Giersch / Unsplash

BLEU sieht nicht alles

BLEU hat einen stark ausgeprägten toten Winkel. So kann ein eigentlich korrekter Satz je nach verwendeter menschlicher Referenz einen niedrigen Score bekommen. Außerdem hat BLEU keine Möglichkeit, die Wichtigkeit der Fehler zu bewerten. Ein Fehler ist für den BLEU Score eben genau das: Ein Fehler. In Realität kann aber ein Wort an falscher Stelle die Bedeutung eines ganzen Satzes ändern. Die Schwere der Fehler werden somit in BLEU nicht berücksichtigt. Allgemein ist der Score nicht dazu geeignet (und auch gar nicht dazu gedacht) eine maschinelle Übersetzung zu bewerten. Ein sehr niedriger Score ist so zwar generell ein guter Hinweis auf eine schlechte Übersetzung, ein sehr hoher Score kann aber auch einfach durch einen Fehler im System entstanden sein. Oft ist es tatsächlich so, dass Unternehmen nur dann außergewöhnlich hohe Scores erreichen, wenn sie den maschinell übersetzten Inhalt mit mehreren Referenz-Übersetzungen vergleichen. Dies macht zwar Sinn, da es eben in den meisten Fällen verschiedene richtige Übersetzungen gibt, aber dieses Verfahren verzerrt trotzdem die Testergebnisse. BLEU ist außerdem für die Auswertung im Post-Editing kaum zu gebrauchen - hierfür gibt es mittlerweile aber einen ganz ähnlichen Score: TER.
Diese Lücken waren auch den Entwicklern von BLEU vor 17 Jahren schon bewusst. BLEU Scores sollen für eine Art effizientes Benchmarking verwendet werden und keine detaillierten Fehlerberichte und Verbesserungsvorschläge liefern. "Ist unser jetziges System besser als das alte?" ist eine Frage die BLEU beantworten kann. Genau hierfür wurde der Algorithmus entwickelt. Weitere Details werden dann manuell von Menschen ausgewertet.

Fazit

Würde man Sätze und Texte wortwörtlich übersetzen, dann wären Schwierigkeiten wie die der Messung wohl nicht vorhanden (und Machine Translation an sich wäre eine eher simple Mission), aber das tut man nun einmal nicht. So einfach sind Sprachen nicht - nicht einmal künstlich entwickelte. Verschiedene Sprachen haben verschiedene Satzstrukturen, und basieren zudem auf anderen kulturellen Gegebenheiten. Wortspiele, Rhythmen, Zielgruppen, ... all der Kontext und jegliche Stilmittel in welche ein Satz möglicherweise eingebettet ist, sind von überaus großer Bedeutung und sind eben nur von Menschen zu verstehen und umzusetzen. Detaillierte Kenntnisse der verwendeten Sprachen und ein ausgeprägtes Verständnis der Kultur des zugehörigen Landes sind für korrekte (und vor allem für gute) Übersetzungen unabdingbar, aber BLEU Scores helfen der Forschung durch die schnelle Auswertung immens weiter.

Mehr Informationen zur Arbeit mit Machine Translation gibt es in unserem Interview mit Data Scientist Martin Stamenov.