Rajesh Rao: A Rosetta Stone for a lost language

I'd like to begin with a thought experiment. Imagine that it's 4,000 years into the future. Civilization as we know it has ceased to exist -- no books, no electronic devices, no Facebook or Twitter. All knowledge of the English language and the English alphabet has been lost. Now imagine archeologists digging through the rubble of one of our cities. What might they find? Well perhaps some rectangular pieces of plastic with strange symbols on them. Perhaps some circular pieces of metal. Maybe some cylindrical containers with some symbols on them. And perhaps one archeologist becomes an instant celebrity when she discovers -- buried in the hills somewhere in North America -- massive versions of these same symbols. Now let's ask ourselves, what could such artifacts say about us to people 4,000 years into the future?

Tôi muốn bắt đầu bằng một ý tưởng Hãy tưởng tượng 4000 năm sau này Nền văn minh của chúng ta đã không còn tồn tại không còn những cuốn sách, không còn những thiết bị điện không Facebook hay Twitter Mọi hiểu biết về tiếng Anh lẫn bảng chữ cái của nó đã biến mất. Giờ hãy tưởng tượng về những nhà khảo cổ đào bới xuyên đống đổ vụn từ một trong những thành phố của chúng ta Họ sẽ tìm thấy được những gì? Có lẽ là những miếng nhựa hình chữ nhật với những kí hiệu lạ lẫm trên đó. Có lẽ vài mảnh kim loại tròn. Có lẽ là vài vật chứa hình trụ với những kí hiệu trên đó. Có lẽ một nhà khảo cổ sẽ ngay lập tức nổi tiếng khi cô tìm ra chôn dưới những ngọn đồi đâu đó ở Bắc Mỹ phiên bản lớn của những kí hiệu giống vậy. Bây giờ, chúng ta hãy tự hỏi mình những di vật đấy có thể nói gì về chúng ta với những người của 4000 năm sau?

This is no hypothetical question. In fact, this is exactly the kind of question we're faced with when we try to understand the Indus Valley civilization, which existed 4,000 years ago. The Indus civilization was roughly contemporaneous with the much better known Egyptian and the Mesopotamian civilizations, but it was actually much larger than either of these two civilizations. It occupied the area of approximately one million square kilometers, covering what is now Pakistan, Northwestern India and parts of Afghanistan and Iran. Given that it was such a vast civilization, you might expect to find really powerful rulers, kings, and huge monuments glorifying these powerful kings. In fact, what archeologists have found is none of that. They've found small objects such as these.

Đây không phải là câu hỏi chỉ mang tính giả thuyết Thực ra, đây chính là vấn đề mà chúng ta phải đối mặt khi chúng ta cố gắng để tìm hiểu về nền văn minh thung lũng Indus tồn tại 4000 năm trước. Nền văn minh Indus được phỏng đoán là cùng thời với những nền văn minh nổi tiếng khác như Ai Cập hay Lưỡng Hà nhưng nó thật ra còn lớn hơn bất kì một trong hai cái trên. Nó chiếm giữ một diện tích cỡ khoảng 1 triệu kilomet vuông bao phủ Parkistan ngày nay, Tây bắc Ấn Độ và một phần của Afghanistan và Iran. Vì nó là một nền văn minh rộng lớn bạn có lẽ nghĩ rằng nó có những người cai trị đầy mạnh mẽ, những vị vua chúa và những lăng tẩm khổng lồ để tưởng niệm những ông vua quyền lực đó. Thực tế là những nhà khảo cổ không tìm thấy bất kì thứ gì như vậy. Họ đã tìm được những vật thể nhỏ như thế này.

Here's an example of one of these objects. Well obviously this is a replica. But who is this person? A king? A god? A priest? Or perhaps an ordinary person like you or me? We don't know. But the Indus people also left behind artifacts with writing on them. Well no, not pieces of plastic, but stone seals, copper tablets, pottery and, surprisingly, one large sign board, which was found buried near the gate of a city. Now we don't know if it says Hollywood, or even Bollywood for that matter. In fact, we don't even know what any of these objects say, and that's because the Indus script is undeciphered. We don't know what any of these symbols mean.

Đây là ví dụ cho một trong số chúng. Đương nhiên, đây chỉ là một bản sao. Nhưng đây là ai? Một ông vua? Một vị thần? Một thầy tế? Hay chỉ là một người bình thường như bạn và tôi? Chúng ta không biết. Nhưng người Indus cũng đã để lại những hiện vật với chữ viết lên đó Tất nhiên, Không phải những mảnh nhựa nhưng là những con dấu bằng đá, những miếng đồng những món đồ gốm, và ngạc nhiên hơn một tấm bảng lớn được chôn gần cổng của một thành phố. Chúng ta giờ vẫn không biết nếu nó viết Hollywood hay thậm chí là Bollywood. Sự thật là, chúng ta vẫn không biết được rằng những vật này nói lên điều gì, vì chữ viết của người Indus chưa được giải mã. Chúng ta vẫn không biết rằng những kí hiệu này mang ý nghĩa gì.

The symbols are most commonly found on seals. So you see up there one such object. It's the square object with the unicorn-like animal on it. Now that's a magnificent piece of art. So how big do you think that is? Perhaps that big? Or maybe that big? Well let me show you. Here's a replica of one such seal. It's only about one inch by one inch in size -- pretty tiny. So what were these used for? We know that these were used for stamping clay tags that were attached to bundles of goods that were sent from one place to the other. So you know those packing slips you get on your FedEx boxes? These were used to make those kinds of packing slips. You might wonder what these objects contain in terms of their text. Perhaps they're the name of the sender or some information about the goods that are being sent from one place to the other -- we don't know. We need to decipher the script to answer that question.

Những kí hiệu thường thấy nhất trên những con dấu. Bạn có thể thấy một cái tương tự như vậy Đó là một vật thế hình vuông với hình một con thú như là kì lân trên đấy. Đây là một mảnh nghệ thuật tuyệt tác. Bạn nghĩ nó lớn cỡ nào? Lớn như thế này? Hay lớn như vậy? Để tôi chỉ cho bạn. Dưới đây là bản sao của một con dấu như vậy. Nó chỉ có kích thước 1 inch vuôn -- khá là nhỏ. Vậy chúng được dùng để làm gì? Chúng tôi biết rằng chúng được sử dụng để dập thẻ đất sét mà đã được gắn vào hàng hóa gửi đi từ nơi này sang nơi khác. Vì vậy, bạn có để ý những phiếu đóng gói bạn nhận được trên hộp FedEx của bạn? Những vật này được sử dụng để làm những phiếu đóng gói. Bạn có thể hiếu kỳ ý nghĩa của những chữ viết là gì. Có lẽ chúng là họ tên của người gửi hoặc một số thông tin về hàng hóa đang được gửi từ nơi này sang nơi khác - chúng ta không biết. Chúng tôi cần phải giải mã các con chữ để trả lời câu hỏi đó.

Deciphering the script is not just an intellectual puzzle; it's actually become a question that's become deeply intertwined with the politics and the cultural history of South Asia. In fact, the script has become a battleground of sorts between three different groups of people. First, there's a group of people who are very passionate in their belief that the Indus script does not represent a language at all. These people believe that the symbols are very similar to the kind of symbols you find on traffic signs or the emblems you find on shields. There's a second group of people who believe that the Indus script represents an Indo-European language. If you look at a map of India today, you'll see that most of the languages spoken in North India belong to the Indo-European language family. So some people believe that the Indus script represents an ancient Indo-European language such as Sanskrit.

Giải mã chữ viết không chỉ là một câu đố trí tuệ, nó thực sự trở thành một câu hỏi mà liên kết trực tiếp với nền chính trị và lịch sử văn hóa của Nam Á. Trong thực tế, chữ viết đã trở thành một bãi chiến trường giữa ba nhóm người khác nhau. Trước tiên, có một nhóm người tin tưởng vững chắc rằng rằng hệ thống chữ Indus không đại diện cho một thứ ngôn ngữ. Những người này tin rằng những biểu tượng rất giống với các loại biểu tượng mà bạn tìm thấy trên biển báo giao thông hoặc các biểu tượng bạn tìm thấy trên những cái khiên. Nhóm người thứ hai thì tin rằng hệ thống chữ Indus đại diện cho một loại ngôn ngữ Ấn-Âu. Nếu bạn nhìn vào một bản đồ Ấn Độ ngày nay, bạn sẽ thấy rằng hầu hết các ngôn ngữ được nói ở Bắc Ấn Độ thuộc họ ngôn ngữ Ấn-Âu. Vì vậy, một số người tin rằng hệ thống chữ Indus đại diện cho một ngôn ngữ Ấn-Âu cổ như tiếng Phạn.

There's a last group of people who believe that the Indus people were the ancestors of people living in South India today. These people believe that the Indus script represents an ancient form of the Dravidian language family, which is the language family spoken in much of South India today. And the proponents of this theory point to that small pocket of Dravidian-speaking people in the North, actually near Afghanistan, and they say that perhaps, sometime in the past, Dravidian languages were spoken all over India and that this suggests that the Indus civilization is perhaps also Dravidian.

Còn nhóm người cuối cùng, những người tin rằng người Indus là tổ tiên của người dân sống ở miền Nam Ấn Độ ngày nay. Những người này tin rằng hệ thống chữ Indus đại diện cho một hình thức cổ xưa thuộc ngôn ngữ Dravidian, là họ ngôn ngữ được sử dụng tại phần lớn miền Nam Ấn Độ ngày nay. Và những người ủng hộ giả thuyết này chỉ ra rằng một nhóm nhỏ người nói tiếng Dravidian ở miền Bắc, thực sự gần Afghanistan, và họ nói rằng có lẽ, đã có lúc trong quá khứ Ngôn ngữ Dravidian được nói trên khắp Ấn Độ và rằng điều này cho thấy nền văn minh Indus có lẽ cũng chính là nền văn minh Dravidian.

Which of these hypotheses can be true? We don't know, but perhaps if you deciphered the script, you would be able to answer this question. But deciphering the script is a very challenging task. First, there's no Rosetta Stone. I don't mean the software; I mean an ancient artifact that contains in the same text both a known text and an unknown text. We don't have such an artifact for the Indus script. And furthermore, we don't even know what language they spoke. And to make matters even worse, most of the text that we have are extremely short. So as I showed you, they're usually found on these seals that are very, very tiny.

Giả thuyết nào trong số chúng có thể là sự thật? Chúng ta không biết, nhưng có lẽ nếu bạn giải mã được những con chữ bạn sẽ có thể trả lời cho câu hỏi này. Nhưng giải mã chữ viết là một nhiệm vụ rất khó khăn. Trước nhất, ta không có Rosetta Stone. Tôi không nói tới một phần mềm Ý tôi là một tạo tác cổ đại có chứa trong cùng một văn bản vừa là văn bản đã biết vừa là một văn bản chưa rõ ràng. Chúng ta không có một cổ vật cho hệ thống chữ Indus. Và hơn nữa, chúng tôi thậm chí không biết họ nói ngôn ngữ gì. Và làm cho vấn đề càng khó hơn, hầu hết các chữ viết chúng ta có rất là ngắn. như tôi đã cho các bạn thấy , chúng thường được tìm thấy trên các con dấu mà rất, rất nhỏ.

And so given these formidable obstacles, one might wonder and worry whether one will ever be able to decipher the Indus script. In the rest of my talk, I'd like to tell you about how I learned to stop worrying and love the challenge posed by the Indus script. I've always been fascinated by the Indus script ever since I read about it in a middle school textbook. And why was I fascinated? Well it's the last major undeciphered script in the ancient world. My career path led me to become a computational neuroscientist, so in my day job, I create computer models of the brain to try to understand how the brain makes predictions, how the brain makes decisions, how the brain learns and so on.

Và trước những trờ ngại to lớn như vậy người ta có thể tự hỏi và lo lắng liệu ai sẽ có thể giải mã hệ thống chữ Indus. Trong phần còn lại của bài nói chuyện, tôi muốn kể cho các bạn về cách tôi đã học để ngừng lo lắng và yêu thích thách thức đặt ra bởi hệ thống chữ Indus. Tôi luôn bị cuốn hút bởi chúng kể từ khi tôi đọc về nó trong một cuốn sách giáo khoa trung học. Và tại sao tôi lại bị lôi cuốn? Vâng, vì đó là một đại ngôn ngữ cuối cùng chưa được giải mã trong thế giới cổ đại. Con đường sự nghiệp của tôi đã dẫn tôi trở thành một nhà thần kinh học tính toán, trong công việc thường ngày của tôi, tôi tạo ra mô hình máy tính của não để cố gắng hiểu cách bộ não ra các dự đoán, cách thức bộ não đưa ra các quyết định, cách thức bộ não học và vân vân.

But in 2007, my path crossed again with the Indus script. That's when I was in India, and I had the wonderful opportunity to meet with some Indian scientists who were using computer models to try to analyze the script. And so it was then that I realized there was an opportunity for me to collaborate with these scientists, and so I jumped at that opportunity. And I'd like to describe some of the results that we have found. Or better yet, let's all collectively decipher. Are you ready?

Nhưng vào năm 2007, con đường tôi đi một lần nữa đưa tôi đến hệ thống chữ Indus. Đó là khi tôi còn ở Ấn Độ, và tôi đã có cơ hội tuyệt vời để gặp một số nhà khoa học Ấn Độ những người đã sử dụng mô hình máy tính để cố gắng phân tích những đoạn văn. Và do đó, đấy cũng là lúc tôi nhận ra đây là cơ hội cho tôi để cộng tác với các nhà khoa học, và vì vậy tôi liền bắt lấy cơ hội đó. Và tôi muốn mô tả một số kết quả mà chúng tôi đã được tìm thấy. Hoặc tốt hơn, tất cả chúng ta hãy cùng giải mã. Bạn đã sẵn sàng chưa?

The first thing that you need to do when you have an undeciphered script is try to figure out the direction of writing. Here are two texts that contain some symbols on them. Can you tell me if the direction of writing is right to left or left to right? I'll give you a couple of seconds. Okay. Right to left, how many? Okay. Okay. Left to right? Oh, it's almost 50/50. Okay. The answer is: if you look at the left-hand side of the two texts, you'll notice that there's a cramping of signs, and it seems like 4,000 years ago, when the scribe was writing from right to left, they ran out of space. And so they had to cram the sign. One of the signs is also below the text on the top. This suggests the direction of writing was probably from right to left, and so that's one of the first things we know, that directionality is a very key aspect of linguistic scripts. And the Indus script now has this particular property.

Việc đầu tiên mà bạn cần làm khi bạn có một loại ngôn ngữ chưa được giải mã là cố gắng tìm ra hướng của ngôn ngữ đó. Đây là hai văn bản có chứa một số biểu tượng trên chúng. Bạn có thể nói cho tôi chiều viết của văn bản là phải sang trái hoặc trái sang phải? Tôi sẽ cho bạn một vài giây. Được. Phải sang trái, bao nhiêu người đồng ý? Đuợc. Được. Trái sang phải? Ồ, gần như là 50/50. Đuợc. Câu trả lời là: nếu bạn nhìn vào phía bên trái của hai văn bản, bạn sẽ nhận thấy rằng có một dấu hiệu của sự dồn chữ và nó có vẻ như 4.000 năm trước đây, khi người ghi chép viết từ phải sang trái, họ thiếu chỗ để viết Và vì vậy họ đã phải nhồi nhét những dấu hiệu. một dấu hiệu khác là dưới dòng chữ trên đầu trang. Điều này cho thấy hướng viết có lẽ là từ phải sang trái, và vì vậy, đó là một trong những điều đầu tiên chúng ta đã biết, hướng viết là một khía cạnh rất quan trọng của ngôn ngữ. Và hệ thống chữ Indus có tính chất đặc biệt này

What other properties of language does the script show? Languages contain patterns. If I give you the letter Q and ask you to predict the next letter, what do you think that would be? Most of you said U, which is right. Now if I asked you to predict one more letter, what do you think that would be? Now there's several thoughts. There's E. It could be I. It could be A, but certainly not B, C or D, right? The Indus script also exhibits similar kinds of patterns. There's a lot of text that start with this diamond-shaped symbol. And this in turn tends to be followed by this quotation marks-like symbol. And this is very similar to a Q and U example. This symbol can in turn be followed by these fish-like symbols and some other signs, but never by these other signs at the bottom. And furthermore, there's some signs that really prefer the end of texts, such as this jar-shaped sign, and this sign, in fact, happens to be the most frequently occurring sign in the script.

Văn bản này còn cho ta thấy những tính chất nào khác của ngôn ngữ? Ngôn ngữ chứa các kiểu mẫu. Nếu tôi cho bạn chữ Q và yêu cầu bạn dự đoán các chữ cái tiếp theo, bạn nghĩ rằng sẽ là chữ cái gì? Hầu hết các bạn nói U, đúng. Bây giờ nếu tôi hỏi bạn dự đoán một chữ cái nữa, bạn nghĩ nó sẽ là gì? Chúng ta có vài ý tưởng. E, cũng có thể là I. Nó cũng có thể là A, nhưng chắc chắn không phải B, C hoặc D, phải không? Hệ thống chữ Indus cũng cho thấy các mẫu tương tự. Có rất nhiều các văn bản bắt đầu với biểu tượng hình kim cương này. Và theo sau lần lượt thường là bằng biểu tượng giống như dấu ngoặc kép này. Và tương tự như ví dụ với chữ Q và U. Theo sau biểu tượng này lần lượt có thể là các biểu tượng như hình cá và một số biểu tượng khác, nhưng không bao giờ bằng những dấu hiệu ở phía dưới. Và hơn nữa, có một số dấu hiệu thường nằm ở kết thúc văn bản, chẳng hạn như kí tự có hình chiếc hũ này và kí tự này, trên thực tế, là kí tự thường gặp nhất trong các đoạn văn.

Given such patterns, here was our idea. The idea was to use a computer to learn these patterns, and so we gave the computer the existing texts. And the computer learned a statistical model of which symbols tend to occur together and which symbols tend to follow each other. Given the computer model, we can test the model by essentially quizzing it. So we could deliberately erase some symbols, and we can ask it to predict the missing symbols. Here are some examples. You may regard this as perhaps the most ancient game of Wheel of Fortune.

Với mô hình như vậy, đây là ý kiến của chúng tôi. Ý kiến ở đây là sử dụng một máy tính để tìm hiểu những mô hình, và vì vậy chúng tôi đã cho máy tính các đoạn văn đã tìm được. Và các máy tính đã học được một mô hình thống kê trong đó các ký hiệu có xu hướng xuất hiện cùng nhau và biểu tượng mà có xu hướng đi theo nhau. Theo mô hình của máy tính, chúng ta đánh giá mô hình bằng khảo sát bản chất của chúng Vì vậy, chúng tôi cố ý xóa một số ký hiệu, và chúng tôi có thể yêu cầu nó dự đoán những biểu tượng đã bị xóa Dưới đây là một số ví dụ. Bạn có thể xem đây có lẽ như môt trò chơi cố nhất của "Bánh Xe Vận Mệnh."

What we found was that the computer was successful in 75 percent of the cases in predicting the correct symbol. In the rest of the cases, typically the second best guess or third best guess was the right answer. There's also practical use for this particular procedure. There's a lot of these texts that are damaged. Here's an example of one such text. And we can use the computer model now to try to complete this text and make a best guess prediction. Here's an example of a symbol that was predicted. And this could be really useful as we try to decipher the script by generating more data that we can analyze.

Chúng tôi tìm thấy các máy tính đã thành công trong 75 phần trăm các trường hợp trong việc dự đoán các biểu tượng chính xác. Trong các trường hợp còn lại, thường thì dự đoán chính xác nằm ở lần thứ hai hay ba. Ngoài ra còn có ứng dụng thực tế cho quy trình đặc biệt này. Có rất nhiều những văn bản bị hư hỏng. Dưới đây là một ví dụ về một văn bản như vậy. Và chúng ta có thể sử dụng mô hình máy tính hiện nay để cố gắng hoàn thành văn bản này và thực hiện một dự đoán tốt nhất. Dưới đây là một ví dụ về một biểu tượng mà đã được dự đoán. Và điều này có thể thực sự hữu ích khi chúng tôi cố gắng giải mã các văn bản bằng cách tạo ra nhiều dữ liệu mà chúng tôi có thể phân tích.

Now here's one other thing you can do with the computer model. So imagine a monkey sitting at a keyboard. I think you might get a random jumble of letters that looks like this. Such a random jumble of letters is said to have a very high entropy. This is a physics and information theory term. But just imagine it's a really random jumble of letters. How many of you have ever spilled coffee on a keyboard? You might have encountered the stuck-key problem -- so basically the same symbol being repeated over and over again. This kind of a sequence is said to have a very low entropy because there's no variation at all. Language, on the other hand, has an intermediate level of entropy; it's neither too rigid, nor is it too random. What about the Indus script? Here's a graph that plots the entropies of a whole bunch of sequences. At the very top you find the uniformly random sequence, which is a random jumble of letters -- and interestingly, we also find the DNA sequence from the human genome and instrumental music. And both of these are very, very flexible, which is why you find them in the very high range. At the lower end of the scale, you find a rigid sequence, a sequence of all A's, and you also find a computer program, in this case in the language Fortran, which obeys really strict rules. Linguistic scripts occupy the middle range.

Bây giờ đây là một điều khác bạn có thể làm với các mô hình máy tính. Hãy tưởng tượng một con khỉ ngồi ở trước bàn phím. Tôi nghĩ rằng bạn có thể nhận được một mớ chữ cái lộn xộn ngẫu nhiên trông như thế này. Mớ trộn lộn ngẫu nhiên như thế của các chữ cái có mức độ ngẫu nhiên (entropy) cao. Đây là một thuật ngữ lý thuyết vật lý và thông tin. Nhưng chỉ cần tưởng tượng đó là một mớ chữ cái lẫn lộn ngẫu nhiên. Bao nhiêu người trong các bạn đã đổ cà phê lên bàn phím? Bạn có thể dính phải việc kẹt phím vì vậy một biểu tượng được lặp đi lặp lại nhiều lần. Kiểu trình tự này được cho là có mức độ ngẫu nhiên (entropy) rất thấp bởi vì không có sự thay đổi nào cả. Ngôn ngữ, mặt khác, có độ ngẫu nhiên trung bình; nó không phải quá cứng nhắc, cũng không quá ngẫu nhiên. Còn hệ thống chữ Indus thì sao? Dưới đây là một biểu đồ hiển thị mức độ hỗn loạn của một nhóm Bạn có thể thấy ở cao nhất là những chuỗi thống nhất ngẫu nhiên, đó là một mớ lộn xộn ngẫu nhiên của các chữ cái, và hay nữa, chúng tôi cũng tìm thấy trình tự DNA trong hệ gen của con người và nhạc cụ. Và cả hai đều rất, rất linh hoạt, đó là lý do tại sao bạn tìm thấy chúng trong phạm vi rất rộng. Vào cuối thấp của quy mô, bạn tìm thấy một chuỗi cứng nhắc, một chuỗi toàn điểm A, và bạn cũng tìm thấy một chương trình máy tính, trong trường hợp này bằng ngôn ngữ Fortran, mà tuân theo quy tắc thực sự nghiêm ngặt. Văn bản ngôn ngữ nằm ở khoảng giữa.

Now what about the Indus script? We found that the Indus script actually falls within the range of the linguistic scripts. When this result was first published, it was highly controversial. There were people who raised a hue and cry, and these people were the ones who believed that the Indus script does not represent language. I even started to get some hate mail. My students said that I should really seriously consider getting some protection. Who'd have thought that deciphering could be a dangerous profession? What does this result really show? It shows that the Indus script shares an important property of language. So, as the old saying goes, if it looks like a linguistic script and it acts like a linguistic script, then perhaps we may have a linguistic script on our hands. What other evidence is there that the script could actually encode language?

Còn hệ thống chữ Indus thì sao? Chúng tôi thấy rằng hệ thống chữ Indus thực sự nằm trong phạm vi của các văn bản. Khi kết quả này được công bố đầu tiên, nó đã gây nhiều tranh cãi. Có những người kêu la phản đối, và những người này là những người tin tưởng rằng hệ thống chữ Indus không đại diện cho ngôn ngữ. Tôi thậm chí bắt đầu nhận được những lá thư căm ghét Học sinh của tôi nói rằng tôi nên thực sự nghiêm túc xem xét việc phòng thân. Ai có thể nghĩ giải mã có thể là một nghề nguy hiểm không? Kết quả này đã cho thấy những điều gì? Nó cho thấy rằng hệ thống chữ Indus chia sẻ một tính chất quan trọng của ngôn ngữ. Vì vậy, như câu nói xưa, nếu nó trông giống như một hệ thống ngôn ngữ và nó hoạt động như một hệ thống ngôn ngữ thì có lẽ chúng ta có thể có một hệ thống ngôn ngữ trong tay. Có bằng chứng nào khác chữ viết liệu có thể mã hóa được ngôn ngữ?

Well linguistic scripts can actually encode multiple languages. So for example, here's the same sentence written in English and the same sentence written in Dutch using the same letters of the alphabet. If you don't know Dutch and you only know English and I give you some words in Dutch, you'll tell me that these words contain some very unusual patterns. Some things are not right, and you'll say these words are probably not English words. The same thing happens in the case of the Indus script. The computer found several texts -- two of them are shown here -- that have very unusual patterns. So for example the first text: there's a doubling of this jar-shaped sign. This sign is the most frequently-occurring sign in the Indus script, and it's only in this text that it occurs as a doubling pair.

Vâng chữ viết thực sự có thể mã hóa nhiều ngôn ngữ. Vì vậy, ví dụ, đây là một câu viết bằng tiếng Anh và cùng một câu được viết bằng tiếng Hà Lan sử dụng các chữ cái tương tự của bảng chữ cái. Nếu bạn không biết tiếng Hà Lan và bạn chỉ biết tiếng Anh và tôi đưa cho bạn một số từ bằng tiếng Hà Lan, bạn sẽ cho tôi biết rằng những từ này chứa một số mẫu rất bất bình thường. Một số chữ có vẻ không đúng, và bạn sẽ nói những từ này có lẽ không phải từ tiếng Anh. Điều tương tự cũng xảy ra trong trường hợp của hệ thống chữ Indus. Máy tính đã tìm thấy một số văn bản đây là hai trong số chúng, có cấu trúc rất không bình thường. Ví dụ như mẫu đầu tiên có tới hai kí hiệu hình cái hũ Đây là dấu hiệu thường được bắt gặp nhất trong những văn bản tiếng Indus, và nó chỉ có trong văn bản này mà có tới hai cái cùng lúc

Why is that the case? We went back and looked at where these particular texts were found, and it turns out that they were found very, very far away from the Indus Valley. They were found in present day Iraq and Iran. And why were they found there? What I haven't told you is that the Indus people were very, very enterprising. They used to trade with people pretty far away from where they lived, and so in this case, they were traveling by sea all the way to Mesopotamia, present-day Iraq. And what seems to have happened here is that the Indus traders, the merchants, were using this script to write a foreign language. It's just like our English and Dutch example. And that would explain why we have these strange patterns that are very different from the kinds of patterns you see in the text that are found within the Indus Valley. This suggests that the same script, the Indus script, could be used to write different languages. The results we have so far seem to point to the conclusion that the Indus script probably does represent language.

Tại sao lại có trường hợp như vậy? Chúng tôi đã đi lại và tìm nơi mà các văn bản cụ thể đã được tìm thấy và hóa ra chúng đã được tìm thấy rất, rất xa từ thung lũng Indus. Chúng đã được tìm thấy ở Iraq ngày nay và Iran. Và tại sao chúng lại được tìm thấy ở đó? Những gì tôi đã chưa nói với bạn là người Indus đã rất, rất khéo kinh doanh Họ đã từng giao dịch với những người khá xa nơi họ sống, và do đó, trong trường hợp này, họ đã đi bằng đường biển lên tới tận Lưỡng Hà, Iraq ngày nay. Và những gì có vẻ như đã xảy ra ở đây là các thương gia Indus, các thương gia, đã sử dụng chữ viết này để viết một ngôn ngữ nước ngoài. Nó giống như ví dụ về tiếng Anh và Hà Lan. Và đó sẽ giải thích tại sao chúng ta có những mô hình kỳ lạ mà chúng khác xa với loại chữ viết được tìm thấy nơi thung lũng Indus. Điều này gợi nên ý nghĩ rằng, chữ viểt Indus có thể đã được sử dụng để viểt nhiều thứ ngôn ngữ khác nhau. Kết quả chúng ta đã có dường như chỉ đến kết luận rằng hệ thống chữ Indus có thể đại diện cho ngôn ngữ.

If it does represent language, then how do we read the symbols? That's our next big challenge. So you'll notice that many of the symbols look like pictures of humans, of insects, of fishes, of birds. Most ancient scripts use the rebus principle, which is, using pictures to represent words. So as an example, here's a word. Can you write it using pictures? I'll give you a couple seconds. Got it? Okay. Great. Here's my solution. You could use the picture of a bee followed by a picture of a leaf -- and that's "belief," right. There could be other solutions. In the case of the Indus script, the problem is the reverse. You have to figure out the sounds of each of these pictures such that the entire sequence makes sense. So this is just like a crossword puzzle, except that this is the mother of all crossword puzzles because the stakes are so high if you solve it.

Nếu nó đại diện cho ngôn ngữ, làm thế nào để chúng ta đọc các biểu tượng? Đó là thách thức lớn tiếp theo của chúng tôi. Bạn có thể để ý thấy nhiều kí hiệu trông giống như hình ảnh của con người, của các loài côn trùng, của các loài cá, các loài chim. Hầu hết các chữ viết cổ xưa sử dụng các nguyên tắc đố tên, đó là, sử dụng hình ảnh đại diện cho các từ. ví dụ, đây là một từ. Bạn có thể viết nó bằng cách sử dụng hình ảnh không? Tôi sẽ cho bạn một vài giây. Xong chưa? Được rồi, tốt Đây là đáp án của tôi Bạn có thể sử dụng hình ảnh của một con ong theo sau là một ảnh của một chiếc lá - và đó là "niềm tin", bên phải. Có thể có các giải pháp khác. Trong trường hợp của hệ thống chữ Indus, vấn đề là ngược lại. Bạn phải tìm ra các âm thanh của mỗi hình ảnh như vậy toàn bộ chuỗi mới có ý nghĩa. Vì vậy, đây là giống như một trò đố ô chữ, ngoại trừ việc này như là mẹ của tất cả các trò đố ô chữ bởi vì hậu quả rất cao nếu ta giải mã nó.

My colleagues, Iravatham Mahadevan and Asko Parpola, have been making some headway on this particular problem. And I'd like to give you a quick example of Parpola's work. Here's a really short text. It contains seven vertical strokes followed by this fish-like sign. And I want to mention that these seals were used for stamping clay tags that were attached to bundles of goods, so it's quite likely that these tags, at least some of them, contain names of merchants. And it turns out that in India there's a long tradition of names being based on horoscopes and star constellations present at the time of birth. In Dravidian languages, the word for fish is "meen" which happens to sound just like the word for star. And so seven stars would stand for "elu meen," which is the Dravidian word for the Big Dipper star constellation. Similarly, there's another sequence of six stars, and that translates to "aru meen," which is the old Dravidian name for the star constellation Pleiades. And finally, there's other combinations, such as this fish sign with something that looks like a roof on top of it. And that could be translated into "mey meen," which is the old Dravidian name for the planet Saturn. So that was pretty exciting. It looks like we're getting somewhere.

Đồng nghiệp của tôi, Iravatham Mahadevan và Asko Parpola, đã có một số cải tiến cụ thể về vấn đề này tôi muốn cung cấp cho bạn một ví dụ nhanh về công việc của Parpola Dưới đây là một đoạn thực sự ngắn. Nó chứa bảy nét thẳng đứng tiếp theo là dấu hiệu giống cá này. Và tôi muốn đề cập rằng con dấu này đã được sử dụng cho dập thẻ đất sét mà đã được gắn vào bó của hàng hóa, vì vậy nó rất có thể là những thẻ này, ít nhất là một số trong số chúng. chứa tên của thương gia. Và hóa ra rằng ở Ấn Độ có một truyền thống lâu đời tên được dựa trên lá số tử vi và chòm sao có mặt tại thời điểm sinh. Trong các ngôn ngữ Dravidian, từ cho cá là "meen" điều cũng xảy ra với từ ngữ cho chữ sao Và như vậy bảy ngôi sao sẽ có nghĩa là "elu meen," đó là từ Dravidian cho chòm Bắc Đẩu. Tương tự như vậy, có một chuỗi sáu sao, và dịch thành "aru meen," đó là tên Dravidian cũ cho chòm sao Tua Rua (Pleiades). Và cuối cùng, có những kết hợp khác, chẳng hạn như kí hiệu này như hình con cá với mái nhà trên đỉnh đầu. Và đó có thể được dịch thành "mey meen," đó là tên Dravidian cũ cho sao Thổ. Vì vậy, đó là khá thú vị. Có vẻ như chúng ta đang đi tới đâu đó.

But does this prove that these seals contain Dravidian names based on planets and star constellations? Well not yet. So we have no way of validating these particular readings, but if more and more of these readings start making sense, and if longer and longer sequences appear to be correct, then we know that we are on the right track. Today, we can write a word such as TED in Egyptian hieroglyphics and in cuneiform script, because both of these were deciphered in the 19th century. The decipherment of these two scripts enabled these civilizations to speak to us again directly. The Mayans started speaking to us in the 20th century, but the Indus civilization remains silent.

Nhưng liệu điều này chứng minh rằng con dấu này chứa tên Dravidian dựa trên các hành tinh và các chòm sao sao? Cũng chưa. Vì vậy, chúng tôi không có cách nào chứng thực những con chữ cụ thể, nhưng nếu càng có nhiều câu trở nên có nghĩa hơn và nếu những chuỗi càng dài hơn trở nên đúng, thì chúng ta biết rằng mình đang đi đúng hướng. Hôm nay, chúng ta có thể viết một từ như TED trong chữ tượng hình Ai Cập và trong chữ hình nêm, vì cả hai đã được giải mã trong thế kỷ 19. Các giải mã của hai ngôn ngữ cho phép những nền văn minh nầy trò chuyện với chúng ta cách trực tiếp. Người Maya bắt đầu nói với chúng ta trong thế kỷ 20, nhưng nền văn minh Indus vẫn im lặng.

Why should we care? The Indus civilization does not belong to just the South Indians or the North Indians or the Pakistanis; it belongs to all of us. These are our ancestors -- yours and mine. They were silenced by an unfortunate accident of history. If we decipher the script, we would enable them to speak to us again. What would they tell us? What would we find out about them? About us? I can't wait to find out.

Tại sao chúng ta phải quan tâm? Nền văn minh Indus không thuộc về những người Ấn Độ hay Nam Bắc Ấn Độ hoặc người Pakistan; nó thuộc về tất cả chúng ta. Đây là những tổ tiên của chúng ta - của bạn và tôi. Họ im lặng bởi một tai nạn đáng tiếc của lịch sử. Nếu chúng ta giải mã được chữ viết, chúng ta sẽ giúp họ nói chuyện với chúng ta lần nữa Họ sẽ nói với chúng ta về điều gì? Chúng ta sẽ tìm thấy gì ở họ? Về chúng ta? Tôi rất mong đợi để tìm hiểu.

Thank you.

Cảm ơn

(Applause)

(Vỗ tay)

Thank you.

Cảm ơn

(Applause)

(Vỗ tay)

Rajesh Rao: A Rosetta Stone for a lost language

Rajesh Rao: A Rosetta Stone for a lost language

Related talks

Wade Davis: Dreams from endangered cultures

Murray Gell-Mann: The ancestor of language

Erin McKean: The joy of lexicography

John McWhorter: Txtng is killing language. JK!!!

Steven Pinker: What our language habits reveal

Terry Moore: Why is 'x' the unknown?

Related talks

Wade Davis: Dreams from endangered cultures

Murray Gell-Mann: The ancestor of language

Erin McKean: The joy of lexicography

John McWhorter: Txtng is killing language. JK!!!

Steven Pinker: What our language habits reveal

Terry Moore: Why is 'x' the unknown?