How is it that so many intergalactic species in movies and TV just happen to speak perfect English? The short answer is that no one wants to watch a starship crew spend years compiling an alien dictionary. But to keep things consistent, the creators of Star Trek and other science-fiction worlds have introduced the concept of a universal translator, a portable device that can instantly translate between any languages. So is a universal translator possible in real life? We already have many programs that claim to do just that, taking a word, sentence, or entire book in one language and translating it into almost any other, whether it's modern English or Ancient Sanskrit. And if translation were just a matter of looking up words in a dictionary, these programs would run circles around humans. The reality, however, is a bit more complicated. A rule-based translation program uses a lexical database, which includes all the words you'd find in a dictionary and all grammatical forms they can take, and set of rules to recognize the basic linguistic elements in the input language. For a seemingly simple sentence like, "The children eat the muffins," the program first parses its syntax, or grammatical structure, by identifying the children as the subject, and the rest of the sentence as the predicate consisting of a verb "eat," and a direct object "the muffins." It then needs to recognize English morphology, or how the language can be broken down into its smallest meaningful units, such as the word muffin and the suffix "s," used to indicate plural. Finally, it needs to understand the semantics, what the different parts of the sentence actually mean. To translate this sentence properly, the program would refer to a different set of vocabulary and rules for each element of the target language. But this is where it gets tricky. The syntax of some languages allows words to be arranged in any order, while in others, doing so could make the muffin eat the child. Morphology can also pose a problem. Slovene distinguishes between two children and three or more using a dual suffix absent in many other languages, while Russian's lack of definite articles might leave you wondering whether the children are eating some particular muffins, or just eat muffins in general. Finally, even when the semantics are technically correct, the program might miss their finer points, such as whether the children "mangiano" the muffins, or "divorano" them. Another method is statistical machine translation, which analyzes a database of books, articles, and documents that have already been translated by humans. By finding matches between source and translated text that are unlikely to occur by chance, the program can identify corresponding phrases and patterns, and use them for future translations. However, the quality of this type of translation depends on the size of the initial database and the availability of samples for certain languages or styles of writing. The difficulty that computers have with the exceptions, irregularities and shades of meaning that seem to come instinctively to humans has led some researchers to believe that our understanding of language is a unique product of our biological brain structure. In fact, one of the most famous fictional universal translators, the Babel fish from "The Hitchhiker's Guide to the Galaxy", is not a machine at all but a small creature that translates the brain waves and nerve signals of sentient species through a form of telepathy. For now, learning a language the old fashioned way will still give you better results than any currently available computer program. But this is no easy task, and the sheer number of languages in the world, as well as the increasing interaction between the people who speak them, will only continue to spur greater advances in automatic translation. Perhaps by the time we encounter intergalactic life forms, we'll be able to communicate with them through a tiny gizmo, or we might have to start compiling that dictionary, after all.
Hoe komt het dat zoveel buitenaardse wezens in films en op tv toevallig perfect Engels spreken? Het korte antwoord is dat je geen ruimteschipbemanning wilt zien dat jaren bezig is om een woordenboek Buitenaards-Engels samen te stellen. Maar om consequent te blijven, hebben de makers van Star Trek en andere science-fiction een universele vertaler bedacht. Een draagbaar apparaat dat ogenblikkelijk alle talen kan vertalen. Is zo'n universele vertaler in het echte leven mogelijk? Er bestaan al veel programma's die beweren dat te doen. Een woord, een zin of een compleet boek in een bepaalde taal vertalen naar bijna elke andere taal, of het nou modern Engels of Oud-Sanskriet is. Als vertalen alleen zou bestaan uit woorden opzoeken in een woordenboek, dan zouden die programma's de mens makkelijk verslaan. De realiteit is echter veel ingewikkelder. Een op regels gebaseerd vertaalprogramma gebruikt een lexicale database, die alle woorden bevat die in een woordenboek staan met alle grammaticale vormen die ze kunnen hebben, en een aantal regels om de taalelementen van de brontaal te herkennen. Voor een ogenschijnlijk eenvoudige zin als 'De kinderen eten de muffins' zoekt het programma eerst uit wat de syntax of grammaticale structuur is door de kinderen als onderwerp te benoemen en de rest van de zin als gezegde, bestaande uit het werkwoord 'eten' en het lijdend voorwerp 'de muffins'. Daarna moet het de Engelse woordstructuur herkennen, oftewel hoe de taal kan worden opgedeeld in de kleinste stukjes met betekenis, zoals het woord 'muffin' en het aanhangsel 's', dat het meervoud aangeeft. Tot slot moet het de semantiek begrijpen: wat de verschillende zinsdelen betekenen. Om deze zin netjes te vertalen, zou het programma moeten verwijzen naar een andere woordenschat en regels voor elk onderdeel in de doeltaal. Hier wordt het lastiger. Soms kan de syntax van een taal toestaan dat de woordvolgorde niet uitmaakt, terwijl dat bij andere talen betekent dat de muffin het kind eet. Morfologie kan ook nog roet in het eten gooien. Slovenen maken onderscheid tussen twee en drie of meer kinderen door twee achtervoegsels te gebruiken die veel andere talen niet hebben, terwijl je je door het Russische gebrek aan lidwoorden blijft afvragen of de kinderen bepaalde muffins eten, of muffins in het algemeen. Zelfs als de semantiek technisch klopt, kan het programma nog steeds de finesses missen, bijvoorbeeld of de kinderen de muffins 'mangiano' of 'divorano'. Een andere methode is de statistische machinevertaling, die een database analyseert met boeken, artikelen en documenten die al zijn vertaald door de mens. Door overeenkomsten te zoeken tussen de bron en de vertaalde tekst die niet toevallig lijken te bestaan, kan het programma overeenkomstige uitdrukkingen en patronen vinden, en ze gebruiken voor toekomstige vertalingen. De kwaliteit van dit soort vertalingen hangt echter af van de grootte van de database en de aanwezigheid van voorbeelden voor bepaalde talen of schrijfstijlen. Het probleem dat computers hebben met uitzonderingen, onregelmatigheden en nuances die mensen instinctief aanvoelen, hebben bij onderzoekers geleid tot de gedachte dat taalbegrip het unieke resultaat is van onze biologische hersenstructuur. Een van de beroemdste fictieve universele vertalers, Babelvis uit 'The Hitchhiker's Guide to the Galaxy', is immers geen machine, maar een klein wezen dat de hersengolven en zenuwsignalen van levende soorten vertaalt via een soort telepathie. Voorlopig geeft het leren van een taal op de ouderwetse manier betere resultaten dan welk computerprogramma ook. Dat is niet eenvoudig. Het grote aantal talen op de wereld en de toenemende interactie tussen de sprekers ervan zal het automatisch vertalen alleen maar sneller doen verbeteren. Tegen de tijd dat we buitenaardse levensvormen ontdekken, kunnen we wellicht praten via een gadget, of we moeten alsnog dat woordenboek schrijven.