How is it that so many intergalactic species in movies and TV just happen to speak perfect English? The short answer is that no one wants to watch a starship crew spend years compiling an alien dictionary. But to keep things consistent, the creators of Star Trek and other science-fiction worlds have introduced the concept of a universal translator, a portable device that can instantly translate between any languages. So is a universal translator possible in real life? We already have many programs that claim to do just that, taking a word, sentence, or entire book in one language and translating it into almost any other, whether it's modern English or Ancient Sanskrit. And if translation were just a matter of looking up words in a dictionary, these programs would run circles around humans. The reality, however, is a bit more complicated. A rule-based translation program uses a lexical database, which includes all the words you'd find in a dictionary and all grammatical forms they can take, and set of rules to recognize the basic linguistic elements in the input language. For a seemingly simple sentence like, "The children eat the muffins," the program first parses its syntax, or grammatical structure, by identifying the children as the subject, and the rest of the sentence as the predicate consisting of a verb "eat," and a direct object "the muffins." It then needs to recognize English morphology, or how the language can be broken down into its smallest meaningful units, such as the word muffin and the suffix "s," used to indicate plural. Finally, it needs to understand the semantics, what the different parts of the sentence actually mean. To translate this sentence properly, the program would refer to a different set of vocabulary and rules for each element of the target language. But this is where it gets tricky. The syntax of some languages allows words to be arranged in any order, while in others, doing so could make the muffin eat the child. Morphology can also pose a problem. Slovene distinguishes between two children and three or more using a dual suffix absent in many other languages, while Russian's lack of definite articles might leave you wondering whether the children are eating some particular muffins, or just eat muffins in general. Finally, even when the semantics are technically correct, the program might miss their finer points, such as whether the children "mangiano" the muffins, or "divorano" them. Another method is statistical machine translation, which analyzes a database of books, articles, and documents that have already been translated by humans. By finding matches between source and translated text that are unlikely to occur by chance, the program can identify corresponding phrases and patterns, and use them for future translations. However, the quality of this type of translation depends on the size of the initial database and the availability of samples for certain languages or styles of writing. The difficulty that computers have with the exceptions, irregularities and shades of meaning that seem to come instinctively to humans has led some researchers to believe that our understanding of language is a unique product of our biological brain structure. In fact, one of the most famous fictional universal translators, the Babel fish from "The Hitchhiker's Guide to the Galaxy", is not a machine at all but a small creature that translates the brain waves and nerve signals of sentient species through a form of telepathy. For now, learning a language the old fashioned way will still give you better results than any currently available computer program. But this is no easy task, and the sheer number of languages in the world, as well as the increasing interaction between the people who speak them, will only continue to spur greater advances in automatic translation. Perhaps by the time we encounter intergalactic life forms, we'll be able to communicate with them through a tiny gizmo, or we might have to start compiling that dictionary, after all.
영화나 텔레비전에 등장하는 수많은 외계 종족들은 어떻게 완벽한 영어를 구사하는 걸까요? 간단히 말하자면, 우주 승무원이 수년 간 외계어 사전을 번역하는 것을 아무도 보고 싶어하지 않기 때문일 겁니다. 그러나 일관성을 유지하기 위해서 "스타 트렉"과 다른 공상과학영화 제작자들은 '만능 번역기'라는 개념을 만들어냈습니다. 어떤 언어라도 바로 번역해주는 휴대용 번역기이죠. 그런데 과연 이게 현실에서 가능한 걸까요? 사실 그런 기능이 있다고 '주장'하는 프로그램들은 이미 많이 있습니다. 한 언어로 된 단어나 문장, 아니면 책 전체를 거의 모든 언어로 번역해주는 것이죠. 현대 영어로든, 고대 산스크리트어로든요. 만약 번역이 단순히 사전에서 단어를 찾는 것의 문제였다면 이런 번역 프로그램들은 인간을 훨씬 능가했을 겁니다. 하지만 현실은 좀 더 복잡합니다. 규칙 기반 번역 프로그램의 경우에는 '어휘 데이터베이스'를 사용하는데, 이는 사람들이 사전에서 찾는 단어와 사용하는 문법의 구조와 입력된 언어의 기본적인 요소들을 인식하는 법칙들을 모두 포함합니다. '아이들이 머핀을 먹는다.'와 같이 간단해 보이는 문장의 경우에 번역 프로그램은 가장 먼저 구문이나 문법구조를 분석합니다. '아이들'을 주어로 그리고 문장의 나머지 부분들은 '먹다'라는 동사와 '머핀'이라는 직접 목적어로 구성된 술부로 인식하는 거죠. 다음 단계로 프로그램은 영어를 형태론적으로 인지하거나 의미를 갖는 가장 작은 단위로 언어가 어떻게 분해되는지를 찾게 됩니다. 단어 'muffins'가 'muffin'과 복수형을 나타내는 접미사 's'로 나뉘는 것처럼요. 마지막으로 의미론에 대한 이해가 필요합니다. 다시 말해, 문장 각 부분의 실제 의미를 파악하는 거죠. 이 문장을 제대로 번역하기 위해 프로그램은 각각의 단어와 법칙들을 번역하려는 언어의 각 요소에 적용합니다. 하지만 이 과정은 정말 까다롭습니다. 몇몇 언어의 구문론에서는 단어를 어떤 순서로 배열하든 상관 없지만 어떤 언어의 경우에는 순서가 잘못되었을 때 '머핀이 아이들을 먹게' 될 수도 있습니다. 형태론과 관련해서도 문제가 발생할 수 있습니다. 슬로베니아어의 경우에는 두 명, 세 명, 또는 그 이상의 아이들을 다른 많은 언어에서는 볼 수 없는 '이중 접미사'를 이용해 구분합니다. 반면 러시아어에는 정관사가 부족하기 때문에 아이들이 '특정한 머핀'을 먹는 건지 아니면 '그냥 머핀'을 먹는 건지 의문을 남길 수 있습니다. 마지막으로 의미적인 부분이 기술적으로는 정확하다고 해도 번역 프로그램은 미세한 점을 놓칠 수 있습니다. 아이들이 머핀을 '그냥' 먹는지 아니면 '게걸스럽게' 먹는지요. 또 다른 번역 방식은 통계에 근거한 번역 시스템입니다. 이 프로그램의 경우에는 사람들이 이미 번역해 놓은 책, 기사 또는 문서들의 통계 자료를 분석해서 언어를 번역합니다. 원본과 번역본에서 어떤 부분이 우연히 일치할 가능성은 거의 없기 때문에 원본과 번역본 사이에 일치하는 부분을 찾음으로써 프로그램은 서로의 언어에 부합하는 구절과 패턴을 찾을 수 있고 이를 앞으로의 번역 과정에 사용할 수 있습니다. 하지만 이런 방식의 번역은 초기 데이터베이스의 규모와 특정 언어나 문체의 예시가 존재하는지의 여부에 따라 번역의 질이 좌우됩니다. 예외적 요소들이나 불규칙한 부분들, 혹은 말의 뉘앙스와 같이 인간에게 자연스러운 요소들이 컴퓨터에게는 어려운 점일 수 있으며 때문에 어떤 연구자들은 언어의 이해가 생물학적 뇌 구조의 독특한 산물이라고 봅니다. 실제로, 유명한 가상 번역기 중 하나인 '은하수를 여행하는 히치하이커를 위한 안내서'의 '바벨 피쉬'도 기계가 아닌 하나의 작은 생명체로서 텔레파시를 통해 지각이 있는 생명체들의 뇌파와 신경 신호를 번역합니다. 당분간은 컴퓨터 번역 프로그램을 사용하는 것보다 지금까지 그랬던 것처럼 언어를 배우는 게 더 나을 겁니다. 물론 언어를 배우는 일이 결코 쉬운 일은 아닙니다. 하지만 전 세계적으로 수많은 언어가 존재하고 다양한 언어를 사용하는 사람들 간의 의사소통이 증가하고 있는 만큼 자동 번역기의 발전을 위한 노력도 계속될 것입니다. 아마도 우리가 외계인을 만나게 될 때쯤이면 작고 간단한 장치를 통해 그들과 의사소통을 할 수 있을 겁니다. 아니면 결국 외계어 사전 편찬을 시작해야 할 지도 모르는 일이죠.