Ioannis Papachimonas: How computers translate human language

Wie kommt es, dass so viele intergalaktische Arten in Film und Fernsehen zufällig perfekt Englisch sprechen? Kurz gesagt: Niemand will einer Raumschiffcrew dabei zusehen, wie sie jahrelang ein Alienwörterbuch erstellt. Aber um konsistent zu bleiben, haben die Schöpfer von Star Trek und anderen Science-Fiction-Welten das Konzept eines Universalübersetzers eingeführt, ein tragbares Gerät, das sofort jede Sprache übersetzen kann. Ist ein Universalübersetzer aber auch im echten Leben möglich? Wir haben schon jetzt viele Programme, die behaupten, genau das zu tun, ein Wort, einen Satz, oder ein gesamtes Buch aus einer Sprache in fast jede andere zu übersetzen, sei es nun modernes Englisch oder antikes Sanskrit. Wäre Übersetzung nur eine Frage des Nachschlagens von Wörtern, würden diese Programme Menschen locker übertreffen. Die Realität ist aber etwas komplizierter. Ein regelbasiertes Übersetzungsprogramm verwendet eine lexikalische Datenbank, die alle Wörter enthält, die in einem Wörterbuch stehen, sowie alle grammatikalischen Formen, die sie annehmen können, und Regeln zum Erkennen sprachlicher Grundelemente der Eingabesprache. Für einen scheinbar einfachen Satz wie "Die Kinder essen die Muffins", zerlegt das Programm zuerst seine Syntax oder grammatikalische Struktur, indem es die Kinder als Subjekt identifiziert, und den Rest des Satzes als Prädikat, das aus dem Verb "essen", und dem direkten Objekt "die Muffins" besteht. Es muss dann die englische Morphologie erkennen, oder wie Sprache in seine kleinsten bedeutungstragenden Einheiten zerlegt werden kann, wie z. B. das Wort Muffin und das Suffix "s", das den Plural kennzeichnet. Zu guter Letzt muss es die Semantik verstehen: was die verschiedenen Teile des Satzes tatsächlich bedeuten. Um diesen Satz richtig zu übersetzen, würde das Programm für jedes Element in der Zielsprache auf einen anderen Wortschatz und ein anderes Regelwerk verweisen. Aber hier wird es knifflig. Die Syntax mancher Sprachen lässt es zu, dass Wörter in beliebiger Reihenfolge angeordnet werden können, während das in anderen dazu führen würde, dass der Muffin das Kind isst. Auch Morphologie kann ein Problem darstellen. Slowenisch unterscheidet mithilfe eines Dualsuffixes zwischen zwei, drei oder mehr Kindern, was es in vielen Sprachen nicht gibt. Russisch hat keine bestimmten Artikel wodurch man sich vielleicht fragt, ob die Kinder bestimmte Muffins essen oder einfach nur Muffins im Allgemeinen. Sogar bei korrekter Semantik könnte das Programm die Feinheiten übersehen, also ob die Kinder die Muffins "mangiano" oder "divorano". Eine andere Methode ist die statistische maschinelle Übersetzung, die eine Datenbank von Büchern, Artikeln und Dokumenten überprüft, die schon von Menschen übersetzt wurden. Indem sie Treffer zwischen der Quelle und dem übersetzten Text findet, die vermutlich nicht zufällig auftreten, kann das Programm übereinstimmende Phrasen und Muster erkennen und sie für zukünftige Übersetzungen verwenden. Jedoch hängt die Qualität dieser Art von Übersetzungen von der Größe der ursprünglichen Datenbank und der Verfügbarkeit von Beispielen in bestimmten Sprachen oder Schreibstilen ab. Die Schwierigkeiten, die Computer mit Ausnahmen, Unregelmäßigkeiten und Bedeutungsnuancen haben, die Menschen intuitiv erfassen, lässt einige Forscher glauben, dass unser Sprachverständnis ein einzigartiges Erzeugnis unserer biologischen Hirnstrukturen ist. Eigentlich ist nämlich der berühmteste fiktive Universalübersetzer, der Babelfisch aus "Per Anhalter durch die Galaxis", gar keine Maschine, sondern eine kleine Kreatur, die die Hirnströme und Nervensignale von fühlenden Arten durch eine Form von Telepathie übersetzt. Fürs Erste erzielt das Sprachenlernen auf altmodische Art bessere Ergebnisse als jedes, momentan verfügbare Computerprogramm. Aber das ist keine leichte Aufgabe, und die schiere Anzahl an Sprachen in der Welt sowie die zunehmende Interaktion zwischen den Menschen, die sie sprechen, werden die automatische Übersetzung zu weiteren Fortschritten anspornen. Wenn wir einmal auf intergalaktische Lebensformen treffen, können wir vielleicht mit ihnen durch ein winziges Ding kommunizieren, oder wir müssen am Ende doch noch dieses Wörterbuch erstellen.

How is it that so many intergalactic species in movies and TV just happen to speak perfect English? The short answer is that no one wants to watch a starship crew spend years compiling an alien dictionary. But to keep things consistent, the creators of Star Trek and other science-fiction worlds have introduced the concept of a universal translator, a portable device that can instantly translate between any languages. So is a universal translator possible in real life? We already have many programs that claim to do just that, taking a word, sentence, or entire book in one language and translating it into almost any other, whether it's modern English or Ancient Sanskrit. And if translation were just a matter of looking up words in a dictionary, these programs would run circles around humans. The reality, however, is a bit more complicated. A rule-based translation program uses a lexical database, which includes all the words you'd find in a dictionary and all grammatical forms they can take, and set of rules to recognize the basic linguistic elements in the input language. For a seemingly simple sentence like, "The children eat the muffins," the program first parses its syntax, or grammatical structure, by identifying the children as the subject, and the rest of the sentence as the predicate consisting of a verb "eat," and a direct object "the muffins." It then needs to recognize English morphology, or how the language can be broken down into its smallest meaningful units, such as the word muffin and the suffix "s," used to indicate plural. Finally, it needs to understand the semantics, what the different parts of the sentence actually mean. To translate this sentence properly, the program would refer to a different set of vocabulary and rules for each element of the target language. But this is where it gets tricky. The syntax of some languages allows words to be arranged in any order, while in others, doing so could make the muffin eat the child. Morphology can also pose a problem. Slovene distinguishes between two children and three or more using a dual suffix absent in many other languages, while Russian's lack of definite articles might leave you wondering whether the children are eating some particular muffins, or just eat muffins in general. Finally, even when the semantics are technically correct, the program might miss their finer points, such as whether the children "mangiano" the muffins, or "divorano" them. Another method is statistical machine translation, which analyzes a database of books, articles, and documents that have already been translated by humans. By finding matches between source and translated text that are unlikely to occur by chance, the program can identify corresponding phrases and patterns, and use them for future translations. However, the quality of this type of translation depends on the size of the initial database and the availability of samples for certain languages or styles of writing. The difficulty that computers have with the exceptions, irregularities and shades of meaning that seem to come instinctively to humans has led some researchers to believe that our understanding of language is a unique product of our biological brain structure. In fact, one of the most famous fictional universal translators, the Babel fish from "The Hitchhiker's Guide to the Galaxy", is not a machine at all but a small creature that translates the brain waves and nerve signals of sentient species through a form of telepathy. For now, learning a language the old fashioned way will still give you better results than any currently available computer program. But this is no easy task, and the sheer number of languages in the world, as well as the increasing interaction between the people who speak them, will only continue to spur greater advances in automatic translation. Perhaps by the time we encounter intergalactic life forms, we'll be able to communicate with them through a tiny gizmo, or we might have to start compiling that dictionary, after all.

Ioannis Papachimonas: How computers translate human language

Ioannis Papachimonas: How computers translate human language

Related talks

Krystian Aparta: One of the most difficult words to translate...

Sajan Saini: The hidden network that makes the internet possible

John McWhorter: Are Elvish, Klingon, Dothraki and Na'vi real languages?

Related talks

Krystian Aparta: One of the most difficult words to translate...

Sajan Saini: The hidden network that makes the internet possible

John McWhorter: Are Elvish, Klingon, Dothraki and Na'vi real languages?