Frederic Kaplan: How to build an information time machine

This is an image of the planet Earth. It looks very much like the Apollo pictures that are very well known. There is something different; you can click on it, and if you click on it, you can zoom in on almost any place on the Earth. For instance, this is a bird's-eye view of the EPFL campus. In many cases, you can also see how a building looks from a nearby street. This is pretty amazing. But there's something missing in this wonderful tour: It's time. i'm not really sure when this picture was taken. I'm not even sure it was taken at the same moment as the bird's-eye view. In my lab, we develop tools to travel not only in space but also through time. The kind of question we're asking is Is it possible to build something like Google Maps of the past? Can I add a slider on top of Google Maps and just change the year, seeing how it was 100 years before, 1,000 years before? Is that possible? Can I reconstruct social networks of the past? Can I make a Facebook of the Middle Ages? So, can I build time machines? Maybe we can just say, "No, it's not possible." Or, maybe, we can think of it from an information point of view. This is what I call the information mushroom. Vertically, you have the time. and horizontally, the amount of digital information available. Obviously, in the last 10 years, we have much information. And obviously the more we go in the past, the less information we have. If we want to build something like Google Maps of the past, or Facebook of the past, we need to enlarge this space, we need to make that like a rectangle. How do we do that? One way is digitization. There's a lot of material available -- newspaper, printed books, thousands of printed books. I can digitize all these. I can extract information from these. Of course, the more you go in the past, the less information you will have. So, it might not be enough. So, I can do what historians do. I can extrapolate. This is what we call, in computer science, simulation. If I take a log book, I can consider, it's not just a log book of a Venetian captain going to a particular journey. I can consider it is actually a log book which is representative of many journeys of that period. I'm extrapolating. If I have a painting of a facade, I can consider it's not just that particular building, but probably it also shares the same grammar of buildings where we lost any information.

Đây là hình ảnh của hành tinh Trái Đất. Nó trông giống với hình ảnh của Apollo mà chúng ta thường biết. Nhưng có một số khác biệt; bạn có thể click vào nó, và nếu click vào, bạn có thể nhìn rõ hơn từ bất cứ nơi nào trên Trái Đất. Ví dụ, đây là hình ảnh bao quát của khuôn viên EPFL. Trong nhiều trường hợp, bạn cũng có thể nhìn thấy một tòa nhà trông như thế nào từ một con phố gần đó. Điều này quả thực tuyệt vời. Nhưng còn thiếu một điều trong chuyến hành trình thú vị này: Đó là thời gian. Tôi không chắc chắn là bức tranh này được chụp khi nào. Tôi còn không chắc chắn liệu nó có được chụp cùng thời điểm với khung cảnh nhìn từ trên cao. Trong phòng thí nghiệm của tôi, chúng tôi phát triển các công cụ để di chuyển không chỉ qua không gian mà còn qua thời gian. Loại câu hỏi mà chúng tôi thường đặt ra là Liệu có thể xây dựng một cái gì đó giống với Bản đồ Google trong quá khứ không? Tôi có thể thêm một thanh trượt trên đầu Bản đồ Google và điều chỉnh năm, để xem nó có gì khác so với 100 năm trước, 1000 năm trước đây không? Điều đó có thể không? Tôi có thể thiết lập lại mạng lưới xã hội của quá khứ không? Tôi có thể làm một trang Facebook của thời Trung cổ không? Hay, tôi có thể làm một cỗ máy thời gian không? Có lẽ chúng ta chỉ có thể nói rằng, "Không, tuyệt đối không thể." Hoặc, có thể, chúng ta sẽ nghĩ về nó từ một cách nhìn thông tin khác. Đây là cái mà tôi gọi là nấm thông tin. Theo chiều dọc, bạn có thời gian. Và theo chiều ngang là lượng thông tin số có sẵn. Rõ ràng là, trong 10 năm qua, chúng ta có rất nhiều thông tin. Và có thể thấy, chúng càng đi sâu vào quá khứ thì thông tin chúng ta có càng ít. Nếu chúng ta muốn tạo ra một kiểu như Bản đồ Google của quá khứ hoặc Facebook của quá khứ, thì chúng ta cần mở rộng khu vực này, chúng ta cần làm cho nó giống một hình chữ nhật. Làm thế nào mà chúng ta làm được điều đó? Có một cách là số hóa. Có rất nhiều nguồn có sẵn -- báo chí, sách in, hàng ngàn cuốn sách in. Tôi có thể số hóa tất cả. Tôi có thể chọn lọc thông tin từ đó. Dĩ nhiên là bạn càng lùi về quá khứ thì sẽ có ít thông tin hơn. Nên, có thể sẽ không có đủ thông tin. Nên, tôi có thể làm như các nhà sử học. Tôi có thể ngoại suy. Điều này là cái trong khoa học máy tính vẫn gọi là mô phỏng. Nếu tôi có một quyển nhật kỳ hàng hải, tôi có thể xem xét, nó không chỉ là một quyển nhật ký hàng hải của một thuyền trưởng người Venice trên một hành trình đặc biệt. Tôi có thể xem nó là một quyển nhật ký hàng hải thực sự phản ánh rất nhiều hành trình trong giai đoạn đó. Tôi đang ngoại suy. Nếu có một bức tranh về bề ngoài, tôi có thể nó như không phải là một tòa nhà bình thường, mà nó còn chắc chắn chia sẻ cùng nguyên lý tòa nhà nơi mà chúng ta đánh mất bất kỳ thông tin nào.

So if we want to construct a time machine, we need two things. We need very large archives, and we need excellent specialists. The Venice Time Machine, the project I'm going to talk to you about, is a joint project between the EPFL and the University of Venice Ca'Foscari.

Vì thể nếu chúng ta muốn tạo ra một cỗ máy thời gian, chúng ta cần 2 thứ. Chúng ta cần một lượng tài liệu lớn, và cần những chuyên gia xuất sắc. Cỗ máy thời gian thành Venice, dự án mà tôi đang nói với các bạn, là một dự án hợp tác giữa EPFL và trường Đại học Venice Ca'Foscari.

There's something very peculiar about Venice, that its administration has been very, very bureaucratic. They've been keeping track of everything, almost like Google today. At the Archivio di Stato, you have 80 kilometers of archives documenting every aspect of the life of Venice over more than 1,000 years. You have every boat that goes out, every boat that comes in. You have every change that was made in the city. This is all there. We are setting up a 10-year digitization program which has the objective of transforming this immense archive into a giant information system. The type of objective we want to reach is 450 books a day that can be digitized. Of course, when you digitize, that's not enough, because these documents, most of them are in Latin, in Tuscan, in Venetian dialect, so you need to transcribe them, to translate them in some cases, to index them, and this is obviously not easy. In particular, traditional optical character recognition method that can be used for printed manuscripts, they do not work well on the handwritten document. So the solution is actually to take inspiration from another domain: speech recognition. This is a domain of something that seems impossible, which can actually be done, simply by putting additional constraints. If you have a very good model of a language which is used, if you have a very good model of a document, how well they are structured. And these are administrative documents. They are well structured in many cases. If you divide this huge archive into smaller subsets where a smaller subset actually shares similar features, then there's a chance of success.

Có một điều rất khác biệt ở Venice, làm cho việc quản lý nó trở nên rất rất quan liêu. Họ đã giữ gìn tất cả mọi thứ, gần giống như Google ngày nay. Ở Archivio di Stato, bạn có 80 cây số dữ liệu ghi chép mọi điều về cuộc sống ở Venice hơn 100 năm qua. Bạn có ghi chép về từng con thuyền đi ra, đi vào cảng. Bạn có tất cả mọi thay đổi có ở thành phố. Tất cả đều ở đó. Chúng tôi đang thiết lập một chương trình số hóa 10 năm với mục tiêu là chuyển những con số bị quên lãng này vào trong một hệ thống thông tin khổng lồ. Loại mục tiêu mà chúng tôi hướng đến là số hóa 450 quyển sách một ngày. Tất nhiên nếu chỉ số hóa thôi thì vẫn chưa đủ, bởi vì những tài liệu này, phần lớn là bằng tiếng Latin, bằng tiếng Ý, bằng tiếng địa phương Venice, vì thế bạn cần chuyển ngữ, dịch thuật trong một số trường hợp, và tra cứu. và điều này rõ ràng là không hề dễ dàng. Đặc biệt là phương pháp nhận biết bằng quang học các ký tự cổ mà có thể được sử dụng với các bản in, lại không hiệu quả đối với các bản viết tay. Vì thế giải pháp là cần phải có sự giúp đỡ từ một nguồn khác: nhận biết bằng giọng nói. Đây là nguồn nghe có vẻ như không tưởng, nhưng có thể được hoàn thiện một cách đơn giản bằng việc cho thêm các ràng buộc. Nếu bạn sử dụng một mô hình ngôn ngữ tốt, nếu bạn có một mô hình văn bản tốt, thì cấu trúc của nó cũng sẽ rất tuyệt. Và đây là những văn bản hành chính. Chúng đều có cấu trúc tốt trong nhiều trường hợp. Nếu bạn chia lượng dữ liệu lớn này thành các tập con nhỏ hơn nơi mà một tập con nhỏ hơn chia sẻ các tài nguyên tương tự nhau, thì có cơ hội để thành công.

If we reach that stage, then there's something else: we can extract from this document events. Actually probably 10 billion events can be extracted from this archive. And this giant information system can be searched in many ways. You can ask questions like, "Who lived in this palazzo in 1323?" "How much cost a sea bream at the Realto market in 1434?" "What was the salary of a glass maker in Murano maybe over a decade?" You can ask even bigger questions because it will be semantically coded. And then what you can do is put that in space, because much of this information is spatial. And from that, you can do things like reconstructing this extraordinary journey of that city that managed to have a sustainable development over a thousand years, managing to have all the time a form of equilibrium with its environment. You can reconstruct that journey, visualize it in many different ways. But of course, you cannot understand Venice if you just look at the city. You have to put it in a larger European context. So the idea is also to document all the things that worked at the European level. We can reconstruct also the journey of the Venetian maritime empire, how it progressively controlled the Adriatic Sea, how it became the most powerful medieval empire of its time, controlling most of the sea routes from the east to the south.

Nếu chúng ta làm được điều đó thì còn một vấn đề nữa: chúng ta có thể chọn lọc sự kiện từ những tài liệu này. Có tới 10 tỷ sự kiện có thể được chọn ra từ dữ liệu này. Và hệ thống thông tin khổng lồ này có thể được tìm thấy bằng nhiều cách. Bạn có thể hỏi các câu kiểu như, "Ai sống trong tòa nhà này vào năm 1323?" "Một con cá tráp biển có giá bao nhiêu ở siêu thị Realto vào năm 1434?" "Mức lương của một thợ làm kính ở Murano có thể có được sau hơn mười năm là bao nhiêu?" Bạn cũng có thể hỏi những câu hỏi rộng hơn bởi nó được mã hóa bằng từ ngữ. Và sau đó cái mà bạn có thể làm là cho nó vào không gian, vì phần lớn những thông tin thuộc về không gian. Và từ đó, bạn có thể làm những việc như xây dựng lại một hành trình không tưởng về thành phố đã có được một sự phát triển bền vững qua hàng nghìn năm, đang cố để luôn giữ được một hình thái cân bằng với môi trường. Bạn có thể tái dựng lại hành trình đó, mường tượng nó theo nhiều cách. Nhưng đương nhiên, bạn không thể hiểu được Venice, nếu chỉ nhìn vào thành phố. Bạn phải đặt nó trong một hệ thống châu Âu rộng hơn. Vì thế, ý tưởng cũng là để ghi chép tất cả mọi việc được làm ở đẳng cấp châu Âu. Chúng tôi cũng có thể tái dựng hành trình của Đế chế hàng hải Venice, cách nó dần dần điều khiển tiến trình biển Adriatic, cách nó trở thành đế chế trung cổ quyền lực nhất thời đó, quản lý phần lớn các lộ trình biển từ bắc tới nam.

But you can even do other things, because in these maritime routes, there are regular patterns. You can go one step beyond and actually create a simulation system, create a Mediterranean simulator which is capable actually of reconstructing even the information we are missing, which would enable us to have questions you could ask like if you were using a route planner.

Nhưng bạn thậm chí còn làm được những thứ khác, vì trong những hành trình hàng hải này, có những mô hình quen thuộc. Bạn có thể đi trước một bước và thực sự tạo ra một hệ thống mô phỏng, tạo ra một bản mô phỏng Địa Trung Hải mà có thể thực sự tái dựng lại cả những thông tin còn thiếu, và cho phép chúng ta đặt ra mọi câu hỏi như thể bạn đang sử dụng một bản kế hoạch hải trình vậy.

"If I am in Corfu in June 1323 and want to go to Constantinople, where can I take a boat?"

"Nếu tôi đang ở đảo Corfu vào tháng 6/1323 và muốn đến thành phố Constantinople, tôi có thể đi thuyền từ đâu?"

Probably we can answer this question with one or two or three days' precision.

Chắc chắn chúng ta có thể trả lời câu hỏi đó với độ chính xác từ một, hai, hay ba ngày.

"How much will it cost?"

"Sẽ mất khoảng bao nhiêu tiền?"

"What are the chance of encountering pirates?"

"Cơ hội gặp phải cướp biển là bao nhiêu?"

Of course, you understand, the central scientific challenge of a project like this one is qualifying, quantifying and representing uncertainty and inconsistency at each step of this process. There are errors everywhere, errors in the document, it's the wrong name of the captain, some of the boats never actually took to sea. There are errors in translation, interpretative biases, and on top of that, if you add algorithmic processes, you're going to have errors in recognition, errors in extraction, so you have very, very uncertain data.

Dĩ nhiên, bạn hiểu rằng, thách thức khoa học chính của một dự án như thế này là việc xác định tiêu chuẩn, số lượng và biểu đạt sự không chắc chắn và mâu thuẫn ở mỗi bước của quá trình. Có nhiều lỗi sai, trong văn bản, có thể là sai tên thuyền trưởng, một số thuyền thực ra chưa bao giờ ra khơi. Có lỗi sai trong việc dịch, chênh lệch về trích dẫn, và hơn hết là, nếu bạn thêm vào các quá trình thuật toán, bạn sẽ có các lỗi sai trong việc nhận diện, trong việc chắt lọc thông tin, hay bạn có một dữ liệu rất không chắc chắn.

So how can we detect and correct these inconsistencies? How can we represent that form of uncertainty? It's difficult. One thing you can do is document each step of the process, not only coding the historical information but what we call the meta-historical information, how is historical knowledge constructed, documenting each step. That will not guarantee that we actually converge toward a single story of Venice, but probably we can actually reconstruct a fully documented potential story of Venice. Maybe there's not a single map. Maybe there are several maps. The system should allow for that, because we have to deal with a new form of uncertainty, which is really new for this type of giant databases.

Thế thì làm thế nào chúng ta có thể phát hiện và sửa chữa những mâu thuẫn đó? Làm thế nào để trình bày các hình thái không chắc chắn đó? Rất khó. Điều duy nhất bạn có thể làm là ghi chép từng quá trình một, không chỉ việc mã hóa thông tin lịch sử mà còn là cái được gọi là thông tin lịch sử bên lề, cách các hiểu biết về lịch sử được xây dựng, ghi chép từng bước một. Điều đó không chỉ đảm bảo rằng chúng ta đang thực sự nói về một câu chuyện Venice độc nhất, mà còn chắc chắn được chúng ta đang tái dựng một câu chuyện của Venice được ghi chép lại đầy đủ. Có thể sẽ không chỉ có một bản đồ duy nhất. Có thể sẽ có vài bản đồ. Hệ thống nên cho phép điều đó, bởi vì chúng ta phải chấp nhận một hình thái không chắc chắn mới, cái thực sự mới đối với loại dữ liệu khổng lồ này.

And how should we communicate this new research to a large audience? Again, Venice is extraordinary for that. With the millions of visitors that come every year, it's actually one of the best places to try to invent the museum of the future. Imagine, horizontally you see the reconstructed map of a given year, and vertically, you see the document that served the reconstruction, paintings, for instance. Imagine an immersive system that permits to go and dive and reconstruct the Venice of a given year, some experience you could share within a group. On the contrary, imagine actually that you start from a document, a Venetian manuscript, and you show, actually, what you can construct out of it, how it is decoded, how the context of that document can be recreated. This is an image from an exhibit which is currently conducted in Geneva with that type of system.

Và chúng ta nên truyền đạt nghiên cứu mới này tới lượng lớn khán giả bằng cách nào? Một lần nữa, Venice lại là một ngoại lệ. Với hàng tỷ du khách đến đây, hàng năm, Venice thực sự là một trong những địa điểm lý tưởng để thử nghiệm việc tạo ra bảo tàng của tương lai. Hãy tưởng tượng, theo chiều ngang bạn nhìn thấy bản đồ được tái dựng trong một năm bất kỳ được chọn, và theo chiều dọc ,bạn sẽ thấy các số liệu phục vụ cho việc tái dựng đó, chẳng hạn như các bức vẽ. Tưởng tượng một hệ thống chìm cho phép đi đến, nghiên cứu và tái dựng lại Venice của một năm cho trước, một vài kinh nghiệm mà bạn có thể chia sẻ trong một nhóm. Trái lại, tưởng tượng rằng bạn đang thực sự bắt đầu từ một dữ liệu, một bản chép tay tiếng Venice địa phương, và bạn chỉ ra cái mà bạn có thể xây dựng được từ nó, nó được giải mã như thế nào, nội dung của dữ liệu đó có thể được tái tạo ra sao. Đây là một bức tranh từ một triển lãm đang diễn ra tại Geneva về loại hệ thống đó.

So to conclude, we can say that research in the humanities is about to undergo an evolution which is maybe similar to what happened to life sciences 30 years ago. It's really a question of scale. We see projects which are much beyond any single research team can do, and this is really new for the humanities, which very often take the habit of working in small groups or only with a couple of researchers. When you visit the Archivio di Stato, you feel this is beyond what any single team can do, and that should be a joint and common effort. So what we must do for this paradigm shift is actually foster a new generation of "digital humanists" that are going to be ready for this shift.

Vì thế tóm lại, chúng ta có thể nói rằng nghiên cứu về nhân loại là việc trải qua một cuộc tiến hóa có thể giống như những gì xảy ra với khoa học cuộc sống 30 năm trước. Đó thực sự là một câu hỏi về quy mô. Chúng tôi thấy dự án này không thể do bất kỳ đội nghiên cứu riêng biệt nào đảm nhiệm, và điều này thực sự mới mẻ đối với nhân loại, cái thường đòi hỏi việc phải làm theo từng nhóm nhỏ hoặc chỉ với một vài nhà nghiên cứu. Khi đến thăm Archivio di Stato, bạn sẽ nhận ra việc này vượt xa khả năng của bất kỳ một đội đơn lẻ nào, và nó nên có một nỗ lực hợp tác cùng nhau. Vì thế, cái mà chúng tôi có thể làm được cho tiến trình biến hóa này là ấp ủ một thế hệ mới của "nhân văn số học" cái đang ngày một sẵn sàng cho bước chuyển mình này.

I thank you very much.

Xin cảm ơn rất nhiều.

(Applause)

(Vỗ tay)

"If I am in Corfu in June 1323 and want to go to Constantinople, where can I take a boat?"

"Nếu tôi đang ở đảo Corfu vào tháng 6/1323 và muốn đến thành phố Constantinople, tôi có thể đi thuyền từ đâu?"

Probably we can answer this question with one or two or three days' precision.

Chắc chắn chúng ta có thể trả lời câu hỏi đó với độ chính xác từ một, hai, hay ba ngày.

"How much will it cost?"

"Sẽ mất khoảng bao nhiêu tiền?"

"What are the chance of encountering pirates?"

"Cơ hội gặp phải cướp biển là bao nhiêu?"

I thank you very much.

Xin cảm ơn rất nhiều.

(Applause)

(Vỗ tay)

Frederic Kaplan: How to build an information time machine

Frederic Kaplan: How to build an information time machine

Related talks

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Blaise Agüera y Arcas: Augmented-reality maps

Brewster Kahle: A free digital library

David McCandless: The beauty of data visualization

JP Rangaswami: Information is food

Aris Venetikidis: Making sense of maps

Related talks

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Blaise Agüera y Arcas: Augmented-reality maps

Brewster Kahle: A free digital library

David McCandless: The beauty of data visualization

JP Rangaswami: Information is food

Aris Venetikidis: Making sense of maps