How is it that so many intergalactic species in movies and TV just happen to speak perfect English? The short answer is that no one wants to watch a starship crew spend years compiling an alien dictionary. But to keep things consistent, the creators of Star Trek and other science-fiction worlds have introduced the concept of a universal translator, a portable device that can instantly translate between any languages. So is a universal translator possible in real life? We already have many programs that claim to do just that, taking a word, sentence, or entire book in one language and translating it into almost any other, whether it's modern English or Ancient Sanskrit. And if translation were just a matter of looking up words in a dictionary, these programs would run circles around humans. The reality, however, is a bit more complicated. A rule-based translation program uses a lexical database, which includes all the words you'd find in a dictionary and all grammatical forms they can take, and set of rules to recognize the basic linguistic elements in the input language. For a seemingly simple sentence like, "The children eat the muffins," the program first parses its syntax, or grammatical structure, by identifying the children as the subject, and the rest of the sentence as the predicate consisting of a verb "eat," and a direct object "the muffins." It then needs to recognize English morphology, or how the language can be broken down into its smallest meaningful units, such as the word muffin and the suffix "s," used to indicate plural. Finally, it needs to understand the semantics, what the different parts of the sentence actually mean. To translate this sentence properly, the program would refer to a different set of vocabulary and rules for each element of the target language. But this is where it gets tricky. The syntax of some languages allows words to be arranged in any order, while in others, doing so could make the muffin eat the child. Morphology can also pose a problem. Slovene distinguishes between two children and three or more using a dual suffix absent in many other languages, while Russian's lack of definite articles might leave you wondering whether the children are eating some particular muffins, or just eat muffins in general. Finally, even when the semantics are technically correct, the program might miss their finer points, such as whether the children "mangiano" the muffins, or "divorano" them. Another method is statistical machine translation, which analyzes a database of books, articles, and documents that have already been translated by humans. By finding matches between source and translated text that are unlikely to occur by chance, the program can identify corresponding phrases and patterns, and use them for future translations. However, the quality of this type of translation depends on the size of the initial database and the availability of samples for certain languages or styles of writing. The difficulty that computers have with the exceptions, irregularities and shades of meaning that seem to come instinctively to humans has led some researchers to believe that our understanding of language is a unique product of our biological brain structure. In fact, one of the most famous fictional universal translators, the Babel fish from "The Hitchhiker's Guide to the Galaxy", is not a machine at all but a small creature that translates the brain waves and nerve signals of sentient species through a form of telepathy. For now, learning a language the old fashioned way will still give you better results than any currently available computer program. But this is no easy task, and the sheer number of languages in the world, as well as the increasing interaction between the people who speak them, will only continue to spur greater advances in automatic translation. Perhaps by the time we encounter intergalactic life forms, we'll be able to communicate with them through a tiny gizmo, or we might have to start compiling that dictionary, after all.
映画やテレビに出てくる宇宙人の多くが 苦もなく完璧な英語を話すのは 一体どういうわけなんでしょうか 端的に言えば 宇宙船の乗組員が何年もかけて 宇宙人語の辞書を編纂している姿なんて 誰も見たくないからです しかし辻褄を合わせる意味で スタートレックなどSF業界の製作者たちは 万能翻訳機というコンセプトを 世に送り出しました どんな言語間の翻訳も即座にできる 携帯機器です では現実の世界に万能翻訳機は 存在し得るのでしょうか それが可能だと言い張る プログラムはたくさんあります 単語でも文でも 本を丸ごと1冊でも ある言語から 別の たいていの言語に翻訳でき 現代英語も古代サンスクリット語も お手のものです もし翻訳というものが ただ単語を辞書で調べるだけのことなら こうしたプログラムは 人間の力を越えていると言えるでしょう しかし実際のところは もっと複雑です 規則に基づくタイプの翻訳プログラムは 辞書に載っているすべての単語や その単語が取りうる― 文法的に正しいすべての形を含んだ 語彙のデータベースと 入力言語の基本的な言語的要素を 認識するための一連の規則を用います 「その子たちはマフィンを食べる」は 一見 単純そうな文ですが プログラムは まず構文 つまり文法的な構造を解析します 「その子たち」が主語で 残りの部分は述語であり その中には動詞の「食べる」と 直接目的語「マフィン」があることを 割り出します 続いて英語の形態論に沿って 識別する必要があります 意味を持つ最小単位にまで 言語を分解するのです たとえば「マフィン」という語と 複数を示す接尾辞「s」とは 別々になります 最後に意味論の理解が必要です 文の各部分が実際にどういう意味か 判断するのです この文を正しく翻訳するために プログラムは 翻訳後の要素1つ1つに対して その言語の語彙や規則を参照しますが ここが微妙なところです 構文的に語順を自由に入れ替えてよい 言語もあれば 入れ替えると「マフィンが子どもを食べる」に なってしまう言語もあります 形態論が問題になることもあります スロベニア語では「2人の子ども」と 「3人以上の子ども」は区別され 他の多くの言語にはない双数形を示す 接尾辞を使います ロシア語には定冠詞がないので 子どもたちが食べているのは ある特定のマフィンなのか 一般的なマフィンなのか 戸惑ってしまうかもしれません 最後に プログラムは意味論に関して 間違いではなくても 細かいところを取りこぼす場合があります たとえば子どもたちがマフィンを 「普通に食べる」か 「ガツガツむさぼる」か拾いきれません また別の方法として 統計的機械翻訳というのがあります すでに人間の手で翻訳されている 本や記事や文書の データベースを分析する方法です このプログラムでは 偶然には起こりにくいと考えられる― 原文と翻訳が一致する箇所を探すことで 対応する表現やパターンを特定しておき それを後々 翻訳に利用します しかし このタイプの翻訳の質は 初期のデータベースの規模や 目的の言語のサンプルや 文体のサンプルが どれだけ使えるかに かかっています コンピュータは例外や変則的な表現 ニュアンスの違いに苦労しますが これは人間なら本能的にわかるものです このため研究者の中には 私たちの言語理解を 人間の脳の生物学的構造が生む 特徴だと考える人もいます 事実 もっとも有名な架空の万能翻訳機は 『銀河ヒッチハイク・ガイド』に登場する バベル魚ですが あれは機械などではなく 小さな生き物で 知覚を持つ生物の脳波と神経信号を テレパシーという形で 翻訳するというものでした 今のところは まだ 昔ながらの言語学習の方が 世の中の どのコンピュータプログラムより 良い結果を出しますが 言語学習は簡単ではありませんし 世界中には数多くの言語があり それを話す人々の間で 交流が増えていることにも後押しされて 自動翻訳は今後 進歩していく一方でしょう きっと私たちが 宇宙の生命体に出会う頃には 小型の装置を通じて コミュニケーションが可能になっているでしょう あるいは結局 例の辞書の編纂に 着手しているかもしれませんけどね