How is it that so many intergalactic species in movies and TV just happen to speak perfect English? The short answer is that no one wants to watch a starship crew spend years compiling an alien dictionary. But to keep things consistent, the creators of Star Trek and other science-fiction worlds have introduced the concept of a universal translator, a portable device that can instantly translate between any languages. So is a universal translator possible in real life? We already have many programs that claim to do just that, taking a word, sentence, or entire book in one language and translating it into almost any other, whether it's modern English or Ancient Sanskrit. And if translation were just a matter of looking up words in a dictionary, these programs would run circles around humans. The reality, however, is a bit more complicated. A rule-based translation program uses a lexical database, which includes all the words you'd find in a dictionary and all grammatical forms they can take, and set of rules to recognize the basic linguistic elements in the input language. For a seemingly simple sentence like, "The children eat the muffins," the program first parses its syntax, or grammatical structure, by identifying the children as the subject, and the rest of the sentence as the predicate consisting of a verb "eat," and a direct object "the muffins." It then needs to recognize English morphology, or how the language can be broken down into its smallest meaningful units, such as the word muffin and the suffix "s," used to indicate plural. Finally, it needs to understand the semantics, what the different parts of the sentence actually mean. To translate this sentence properly, the program would refer to a different set of vocabulary and rules for each element of the target language. But this is where it gets tricky. The syntax of some languages allows words to be arranged in any order, while in others, doing so could make the muffin eat the child. Morphology can also pose a problem. Slovene distinguishes between two children and three or more using a dual suffix absent in many other languages, while Russian's lack of definite articles might leave you wondering whether the children are eating some particular muffins, or just eat muffins in general. Finally, even when the semantics are technically correct, the program might miss their finer points, such as whether the children "mangiano" the muffins, or "divorano" them. Another method is statistical machine translation, which analyzes a database of books, articles, and documents that have already been translated by humans. By finding matches between source and translated text that are unlikely to occur by chance, the program can identify corresponding phrases and patterns, and use them for future translations. However, the quality of this type of translation depends on the size of the initial database and the availability of samples for certain languages or styles of writing. The difficulty that computers have with the exceptions, irregularities and shades of meaning that seem to come instinctively to humans has led some researchers to believe that our understanding of language is a unique product of our biological brain structure. In fact, one of the most famous fictional universal translators, the Babel fish from "The Hitchhiker's Guide to the Galaxy", is not a machine at all but a small creature that translates the brain waves and nerve signals of sentient species through a form of telepathy. For now, learning a language the old fashioned way will still give you better results than any currently available computer program. But this is no easy task, and the sheer number of languages in the world, as well as the increasing interaction between the people who speak them, will only continue to spur greater advances in automatic translation. Perhaps by the time we encounter intergalactic life forms, we'll be able to communicate with them through a tiny gizmo, or we might have to start compiling that dictionary, after all.
Hogyan lehetséges, hogy sok, filmekben és tévében szereplő intergalaktikus faj tökéletesen beszél angolul? A rövid válasz az, hogy senki nem akarja végignézni, ahogy egy csillaghajó legénysége éveket tölt egy szótár összeállításával. De hogy következetesek maradjanak, a Star Trek és más tudományos-fantasztikus világok alkotói, bevezették az univerzális fordítóeszköz fogalmát. Ez egy hordozható eszköz, amely azonnal fordít bármely két nyelv között. Létezik ilyen univerzális fordítóeszköz a valóságban? Sok program tudja elvileg megcsinálni azt, hogy vesz egy szót, mondatot, vagy egy egész könyvet egy nyelven és lefordítja szinte bármely másikra, legyen az mai angol vagy ősi szanszkrit. És ha a fordítás csak annyiból állna, hogy megtaláljunk szavakat a szótárban, ezek a programok leköröznék az embereket. A valóság azonban egy kicsit bonyolultabb. A szabályokon alapuló fordítóprogram lexikális adatbázist használ, ami tartalmaz minden szótárban megtalálható szót, annak minden lehetséges nyelvtani alakjával, és egy szabályhalmazt, amivel felismeri a nyelvészeti alkotóelemeket a bemeneti nyelvben. Egy olyan egyszerűnek tűnő mondatot, mint "The children eat the muffins," a program először szintaktikailag elemez, vagyis a nyelvtani struktúrát nézi, és azonosítja, hogy a "the children" az alany, és a mondat további része az állítmány, ami az "eat" igéből és a "the muffins" tárgyból áll. Ezután következik az angol morfológiai elemzés, avagy hogyan lehet a nyelvet a legkisebb értelmes egységekre bontani, mint például a "muffin" szó és az "s" utótag, ami [az angolban] a többesszámot jelenti. Végül értenie kell a szemantikát, vagyis a mondat különböző részeinek jelentését. A mondat megfelelő lefordításához a program a célnyelv minden egyes elemére egy másik szó- és szabályhalmazt alkalmaz. És itt válik trükkössé a dolog. Pár nyelv szintaxisa lehetővé teszi, hogy a szavak bármilyen sorrendben legyenek, míg más nyelveken, ha így teszünk, akkor a muffin eszi meg a gyereket. A morfológia is problémás lehet. A szlovén különbséget tesz kettő, és három vagy több gyerek között a más nyelveken nem létező dupla utótag használatával. Az oroszban pedig a határozott névelők hiánya miatt azon gondolkodsz, hogy a gyerekek néhány konkrét muffint esznek vagy csak általában esznek muffint. Végül, még ha a szemantika gyakorlatilag helyes is, a program eltévesztheti a finomabb részleteket, mint például, hogy a gyerekek "mangiano" (megeszik) a muffinokat, vagy "divorano" (felfalják) azokat. Egy másik módszer a statisztikai gépi fordítás, ami egy olyan könyvekből, cikkekből és dokumentumokból álló adatbázist elemez, amit emberek már lefordítottak. Ha egyezéseket talál a forrás- és a célszövegek között, amik nem valószínű, hogy véletlenül fordulnak elő, a program összetartozó frázisokat és mintázatokat azonosíthat, és használhatja őket jövőbeni fordításokban. Viszont az effajta fordítás minősége függ a kezdeti adatbázis nagyságától, és attól, hogy mennyi minta áll rendelkezésre bizonyos nyelveken illetve bizonyos stílusú írásokból. Az emberek számára ösztönösen érezhető kivételek, szabálytalanságok és jelentésárnyalatok, amik a gépeknek nehézséget okoznak, azt a benyomást keltik a kutatókban, hogy a nyelv megértése biológiai agyunk struktúrájának egyedi terméke. Az egyik legismertebb kitalált univerzális fordítóeszköz, a Bábel-hal, a Galaxis útikalauz stopposoknak című alkotásból, valójában nem is egy gép, hanem egy apró teremtmény, amely az élőlények agyhullámait és idegjelzéseit egyféle telepátián keresztül fordítja le. Egyelőre a régimódi nyelvtanulás még mindig jobb eredményeket hoz, mint bármelyik jelenleg elérhető számítógépes program. De ez nem egyszerű feladat, a világ nyelveinek puszta száma, illetve a növekvő interakció a nyelveket beszélők között, továbbra is viszi előre az automatizált fordítás fejlesztését. Talán mire találkozunk az intergalaktikus életformákkal, tudunk majd kommunikálni velük egy apró kütyüvel. Vagy lehet mégis el kell kezdenünk összeállítani azt a szótárat.