Während Hollywood-Filme die Zukunft oft grau, metallisch, und generell bedrohlich darstellen, sind technologische Fortschritte in der Realität meist eher hilfreich als gefährlich. Die Zukunft mit ihren scheinbar endlosen technologischen Möglichkeiten fasziniert - nicht zuletzt weil wir so wenig über sie wissen.
Wir bringen heute etwas mehr Licht ins Dunkle, denn nachdem wir uns in den letzten Wochen mit den frühen Rückschlägen und aktuellen Erfolgen der maschinellen Übersetzung beschäftigt haben, fehlt jetzt nur noch der Blick in die Zukunft.

astronaut floating in space
Photo by Niketh Vellanki / Unsplash

Um uns einen möglichst guten Einblick in den Stand der Forschung zu verschaffen, haben wir Data Scientist und Machine Translation Profi Martin Stamenov gefragt, wie sich die maschinelle Übersetzung in den nächsten Jahren weiterentwickeln wird. (Keine Sorge: Für alle die nicht zu tief in der Thematik stecken, haben wir unten ein Glossar angehängt. Die dort erläuterten Begriffe sind nachfolgend kursiv geschrieben.)

Martin, woran arbeiten du und das Machine Translation Team bei lengoo gerade?

Data Selection für MT Training ist für uns gerade ein riesiges Thema. Wir bauen Custom Engines für unterschiedliche Auftraggeber und benötigen dafür eine große Menge relevanter Daten. Aktuell haben wir vor allem in der Vorbereitung der Daten viel Arbeit. Verschiedene Kunden haben natürlich verschiedene Vorgaben, ich arbeite also daran die Schritte der Vor- und Nachbereitung zu standardisieren, um unser System skalierbar zu gestalten.

Was fasziniert dich so an dieser Arbeit?

Es macht mir Spaß, dass wir die Forschung aktiv vorantreiben können. Wir sind immer am Zahn der Zeit und arbeiten mit und an den neuesten Entwicklungen. Ich kann ständig mehrere neue Technologien testen und mich für die beste entscheiden. Außerdem setzen wir gerade eine sehr coolen Idee um, mit der wir die Qualität unserer Übersetzungen massiv steigern können. Diese hat auch wieder mit der Vorbereitung der Daten zu tun. Kurz erklärt lassen wir unsere Language Models ihre eigenen Trainingsdaten generieren. Mittlerweile ist die Technologie so weit, dass sich AI-Algorithmen untereinander beim Lernen unterstützen können, indem sie sich quasi gegenseitig "herausfordern". Langsam stellt sich heraus, dass der Mensch bei dieser Evaluation einfach zu langsam ist. Das hört sich vielleicht etwas futuristisch an, wir sind bei lengoo aber schon in der Lage so zu arbeiten und dabei trotzdem auf dem "Fahrersitz" unserer Algorithmen zu sitzen.

Was siehst du als den bisher größten Durchbruch im Bereich der Machine Translation?

Als neuronale Netze in der MT angekommen sind, waren viele Experten skeptisch. Ein wichtiger Schritt war die Erkenntnis, dass man mit Attention-Based Neural Networks am besten arbeiten kann. Ich arbeite aber auch erst in diesem Bereich seit es das Attention-Model gibt, für mich werden diese Durchbrüche daher wohl immer die größten sein. Wer schon einige Jahrzehnte dabei ist sieht das vielleicht anders und denkt eher an frühere Entwicklungen zurück.

Wie schätzt du den aktuellen Stand der Forschung ein? Glaubst du, dass Tech-Riesen kleineren Unternehmen gegenüber einen Vorteil haben?

Kurz gesagt: Ganz gut. Da große Unternehmen ihre Ergebnisse und Fortschritte veröffentlichen, glaube ich nicht, dass sie kleineren Entwicklern voraus sind. Andere Parteien müssen schließlich auch immer wissen ob diese Ergebnisse wirklich real sind. Wenn Google zum Beispiel etwas veröffentlicht, weise ich diese Ergebnisse auch selbst nach. Natürlich lassen sie bei ihren Publikationen oft Kleinigkeiten aus und das kann dann schon einmal frustrierend werden. Aber nein, einen wirklichen Vorteil haben sie in meinen Augen nicht.

Wie schätzt du die Zukunft der maschinellen Übersetzung ein?

Die Zukunft der MT liegt da wo man die meisten relevanten und qualitativ hochwertigen Daten hat und da wo man diese Daten auch erfolgreich clustern, also gruppieren, kann. Das kann automatisch funktionieren oder von Menschen unterstützt werden. Stichwort Data Labeling. Es gilt, für diese Gruppen Modelle zu bauen. Die Gruppen kann man dann mit den entsprechenden Daten parametrisieren um die besten Ergebnisse zu erhalten. Einzelne Modelle kann man dann auch wieder auf einem höheren, abstrakten Level zusammenführen. Daran arbeiten wir hier bei lengoo.
Normalerweise ist das Ziel beim generellen Machine Learning, dass ein Algorithmus für alle Probleme funktioniert. Das ist das Endziel, was aber natürlich sehr schwierig zu erreichen ist. Man sieht bei ML Aufgaben allgemein, dass Ensembles sehr populär geworden sind. Verschiedene Bestandteile, in diesem Fall Algorithmen, kümmern sich um verschiedene Aufgaben. Jeder kümmert sich um eine Teilmenge der Daten mit bestimmten Property Sets. Einer steht vorne und koordiniert - oder dirigiert. An diesen Vorgängen wird noch eine Weile gearbeitet werden.

Wie weit sind wir von einem möglichen Ende der Forschung entfernt?

Abschätzen wann das alles abgeschlossen sein soll kann ich nicht. Speech-to-Text Anwendungen scheinen zum Beispiel einen sehr hohen Qualitätsgrad erreicht zu haben. Es gibt keine "heißen" Entwicklungen mehr bei 98 % Qualität. Ob wir das auch mit Machine Translation erreichen können in den nächsten 50 Jahren? Das ist schwer zu sagen, denn Accuracy Scores sind hier viel schwieriger zu messen. Übersetzungen sind ja auch von Mensch zu Mensch nie gleich und hängen stark vom Kontext ab. Wie groß ist der "Human Error" mit dem man die Maschinen vergleichen kann? Reicht es, wenn wir diese menschliche Fehlerrate auch erreichen? Haben wir das Problem dann gelöst? Oder können wir sogar noch besser sein? Bei der Bilderkennung zum Beispiel liegt der Human Error bei etwa 5 %, bei Neural Networks ist er neuerdings geringer. Im Bereich der Bilderkennung sind Menschen vergleichsweise einfach zu ersetzen, im Bereich Übersetzung nicht. Hier geht es im Gegenteil zu vielen anderen Bereichen auch nicht darum, Menschen zu übertreffen, sondern vielmehr darum sie in ihrer Arbeit zu unterstützen. Da Sprache immer auch Geschmackssache ist - und Computer kein Gefühl für Sprachstil haben - sind sie in dieser Hinsicht sowieso immer auf menschliche Hilfe angewiesen. Je besser maschinelle Übersetzungen werden, umso mehr qualifizierte Fachübersetzer braucht man auch um mögliche Fehler zu finden und Verbesserungen vorzunehmen. Machine Translation ist in der Messbarkeit sowie in der generellen Umsetzung also ein vergleichsweise komplexes Thema, und von einem Ende der Forschung kann kaum die Rede sein. Ebensowenig davon, dass wir in naher Zukunft ohne Übersetzer auskommen können oder wollen. Wir vertrauen auf unser Netzwerk an Linguisten. In der Vergangenheit, heute, und natürlich auch in der Zukunft.

Martin beim "Sofia AI and Machine Learning Meetup", am Ende seines Vortrags zum Thema "Data Selection for Machine Translation". Sofia, Oktober 2018.

Glossar

Data Selection: Die Auswahl der zu verwendenden Daten ist essentiell für die finale Qualität des Produktes. Die Daten müssen hochwertig und repräsentativ sein.

Custom Engines: "Maßgeschneiderte" maschinelle Übersetzer, die auf bestimmte Unternehmen spezialisiert sind. So unterscheidet sich zum Beispiel je nach Branche das verwendete Vokabular und je nach Unternehmen auch die verwendeten Sprachen.

Language Models: Sprachmodelle drehen sich um die Vorherbestimmung des nächsten Wortes. Es geht um eine Zusammenstellung verschiedener Wahrscheinlichkeiten.

Attention-Based Neural Networks: Diese neuronalen Netzwerke wissen , auf welchen Satzteil sie sich zuerst konzentrieren sollen. So übersetzen sie nicht jeden Satz von vorne nach hinten, sondern fangen je nach Struktur der Sprache auch mal in der Mitte oder am Ende an.

Cluster: Eine Ansammlung von Daten mit ähnlichen Eigenschaften. In der Machine Translation werden semantisch ähnliche Sätze geclustert.

Data Labeling: Manuelles "etikettieren" von Datenmengen. Ein einfaches Beispiel hierfür ist die Bilderkennung. Bevor ein Computer zum Beispiel Fotos von verschiedenen Tieren unterscheiden kann, braucht er Daten mit Labels. Menschen müssen also zuerst manuell feststellen welches Tier auf einem gegebenen Bild zu sehen ist, bevor diese Daten dann dem Computer "beigebracht" werden. Ähnlich muss im Fall von Übersetzungen klar sein, um welche Sprache und welchen Fachbereich es sich handelt.

Property Sets: Daten haben gewisse Eigenschaften, welche sich in größeren Sets zusammenfügen lassen um eine Gruppierung zu erreichen.

Accuracy Scores: Wie akkurat ist eine Übersetzung? Theoretisch lässt sich dieser Korrektheits-Score in Prozent angeben, praktisch liegt aber genau hier eine Schwierigkeit der Machine Translation, wie Martin im Interview erklärt.

Human Error: In diesem Fall handelt es sich um eine Art menschliche Fehlerrate. Bei der Bilderkennung lag der Human Error zuletzt bei 5,1 %, während die Fehlerrate einer Microsoft AI auf nur 3,5 % sank.

Über Martin Stamenov

Martin Stamenov hat am KIT Informatik studiert und arbeitete bereits während sowie auch direkt nach seinem Studium im Bereich des Machine Learning. Seit Juni 2018 ist er Data Scientist bei lengoo und treibt unsere Machine Translation-Forschung voran.