Frederic Kaplan: How to build an information time machine

This is an image of the planet Earth. It looks very much like the Apollo pictures that are very well known. There is something different; you can click on it, and if you click on it, you can zoom in on almost any place on the Earth. For instance, this is a bird's-eye view of the EPFL campus. In many cases, you can also see how a building looks from a nearby street. This is pretty amazing. But there's something missing in this wonderful tour: It's time. i'm not really sure when this picture was taken. I'm not even sure it was taken at the same moment as the bird's-eye view. In my lab, we develop tools to travel not only in space but also through time. The kind of question we're asking is Is it possible to build something like Google Maps of the past? Can I add a slider on top of Google Maps and just change the year, seeing how it was 100 years before, 1,000 years before? Is that possible? Can I reconstruct social networks of the past? Can I make a Facebook of the Middle Ages? So, can I build time machines? Maybe we can just say, "No, it's not possible." Or, maybe, we can think of it from an information point of view. This is what I call the information mushroom. Vertically, you have the time. and horizontally, the amount of digital information available. Obviously, in the last 10 years, we have much information. And obviously the more we go in the past, the less information we have. If we want to build something like Google Maps of the past, or Facebook of the past, we need to enlarge this space, we need to make that like a rectangle. How do we do that? One way is digitization. There's a lot of material available -- newspaper, printed books, thousands of printed books. I can digitize all these. I can extract information from these. Of course, the more you go in the past, the less information you will have. So, it might not be enough. So, I can do what historians do. I can extrapolate. This is what we call, in computer science, simulation. If I take a log book, I can consider, it's not just a log book of a Venetian captain going to a particular journey. I can consider it is actually a log book which is representative of many journeys of that period. I'm extrapolating. If I have a painting of a facade, I can consider it's not just that particular building, but probably it also shares the same grammar of buildings where we lost any information.

Esta é uma imagem do planeta Terra. É muito semelhante às fotografias da Apollo, que são muito conhecidas. Há algo diferente; podemos clicar na fotografia, e se clicarmos nela podemos ampliar, praticamente, qualquer lugar na Terra. Por exemplo, isto é uma visão aérea panorâmica do campus da EPFL. Na maioria dos casos, também podemos ver como um edifício é visto a partir de uma rua adjacente. Isto é impressionante. Mas há algo que falta nesta visita maravilhosa. O tempo. Eu não tenho a certeza de quando esta fotografia foi tirada. Nem sequer tenho a certeza de que foi tirada na mesma altura em que a fotografia aérea foi tirada. No meu laboratório desenvolvemos ferramentas para viajar, não só no espaço, mas também no tempo. O tipo de perguntas que estamos a formular é: "É possível construir algo "como um Google Maps do passado?" "Conseguirei eu adicionar um diapositivo ao Google Maps "e ajustar o ano "e ver como como era 100 anos antes, "1000 anos antes?" "Isso é possível?" "Conseguirei eu reconstruir redes sociais do passado?" "Conseguirei eu criar um Facebook da Idade Média?" "Conseguirei eu construir máquinas do Tempo?" Talvez possamos simplesmente dizer: "Não, não é possível." Ou talvez possamos pensar nisso sob uma perspectiva de informação. Isto é o que eu chamo de cogumelo da informação. Na vertical, tem o tempo. Na horizontal, a quantidade de informação digital disponível. Obviamente, nos últimos 10 anos temos muita informação disponível. E obviamente, quanto mais regredimos no passado, menos informação temos. Se queremos construir algo como o Gogle Maps do passado, ou o Facebook do passado, precisamos de alargar este espaço, precisamos de tornar isto num rectângulo. Como fazemos isso? Uma maneira é através da digitalização. Há montes de material disponível — jornais, livros impressos, milhares de livros impressos. Posso digitalizá-los todos. Posso extrair informação de todos. É claro, quanto mais regredimos no passado, menos informação vamos ter. Mas pode não ser suficiente. Então, posso fazer o que os historiadores fazem. Posso extrapolar. Isto é o que nós chamamos, em ciências de computação, simulação. Se eu pegar num diário de bordo, posso considerar que não é apenas um diário de bordo de um capitão veneziano numa viagem específica. Posso considerar que é, na realidade, um diário de bordo que representa muitas viagens daquele período. Estou a extrapolar. Se eu tenho um quadro de uma fachada, Posso considerar que não é apenas desse edifício em particular, mas que provavelmente partilha da mesma gramática da forma dos edifícios de que perdemos informação.

So if we want to construct a time machine, we need two things. We need very large archives, and we need excellent specialists. The Venice Time Machine, the project I'm going to talk to you about, is a joint project between the EPFL and the University of Venice Ca'Foscari.

Por isso, se queremos construir uma máquina do tempo, precisamos de duas coisas. Precisamos de arquivos enormes e precisamos de especialistas excelentes. A Máquina do Tempo de Veneza, o projecto sobre o qual vos vou falar, é um projecto em parceria entre a EPFL e a Universidade de Veneza Ca'Foscari

There's something very peculiar about Venice, that its administration has been very, very bureaucratic. They've been keeping track of everything, almost like Google today. At the Archivio di Stato, you have 80 kilometers of archives documenting every aspect of the life of Venice over more than 1,000 years. You have every boat that goes out, every boat that comes in. You have every change that was made in the city. This is all there. We are setting up a 10-year digitization program which has the objective of transforming this immense archive into a giant information system. The type of objective we want to reach is 450 books a day that can be digitized. Of course, when you digitize, that's not enough, because these documents, most of them are in Latin, in Tuscan, in Venetian dialect, so you need to transcribe them, to translate them in some cases, to index them, and this is obviously not easy. In particular, traditional optical character recognition method that can be used for printed manuscripts, they do not work well on the handwritten document. So the solution is actually to take inspiration from another domain: speech recognition. This is a domain of something that seems impossible, which can actually be done, simply by putting additional constraints. If you have a very good model of a language which is used, if you have a very good model of a document, how well they are structured. And these are administrative documents. They are well structured in many cases. If you divide this huge archive into smaller subsets where a smaller subset actually shares similar features, then there's a chance of success.

Há algo de muito peculiar sobre Veneza é que a sua administração tem sido muito, muito burocrática. Eles têm mantido registos de tudo, quase como o Google hoje em dia. No Arquivo do Estado (Archivio di Stato) há 80 kilómetros de arquivos a documentar todos os aspectos da vida de Veneza por mais de 1000 anos. Está lá cada barco que saiu, cada barco que entrou. Estão lá todas as alterações que foram feitas na cidade. Está tudo lá. Estamos a preparar um plano de digitalização de 10 anos que tem o objectivo de transformar este arquivo imenso num sistema de informação gigante. O tipo de objectivo que queremos alcançar é que sejam digitalizados 450 livros por dia. É claro que quando digitalizamos, isso não é suficiente. porque estes documentos, a maioria deles estão em latim, toscano, num dialecto veneziano e é preciso transcrevê-los, traduzi-los, e em alguns casos, indexá-los e isto, obviamente, não é fácil. Especificamente, o método de reconhecimento óptico de carácteres que pode ser aplicado a manuscritos impressos, não funciona bem com documentos escritos à mão. Por isso, a solução é ir buscar inspiração a outro domínio: reconhecimento de voz. Isto é um domínio de algo que parece impossível, que na realidade pode ser feito simplesmente, acrescentando algumas restrições. Se tiverem um modelo muito bom de uma linguagem que é usada, se tiverem um modelo muito bom de um documento, de quão bem eles estão estruturados. E estes são documentos administrativos. Em muitos casos eles estão bem estruturados. Se dividirmos este arquivo enorme em sub-conjuntos mais pequenos, onde cada sub-conjunto partilha características similares, então temos hipótese de sermos bem sucedidos.

If we reach that stage, then there's something else: we can extract from this document events. Actually probably 10 billion events can be extracted from this archive. And this giant information system can be searched in many ways. You can ask questions like, "Who lived in this palazzo in 1323?" "How much cost a sea bream at the Realto market in 1434?" "What was the salary of a glass maker in Murano maybe over a decade?" You can ask even bigger questions because it will be semantically coded. And then what you can do is put that in space, because much of this information is spatial. And from that, you can do things like reconstructing this extraordinary journey of that city that managed to have a sustainable development over a thousand years, managing to have all the time a form of equilibrium with its environment. You can reconstruct that journey, visualize it in many different ways. But of course, you cannot understand Venice if you just look at the city. You have to put it in a larger European context. So the idea is also to document all the things that worked at the European level. We can reconstruct also the journey of the Venetian maritime empire, how it progressively controlled the Adriatic Sea, how it became the most powerful medieval empire of its time, controlling most of the sea routes from the east to the south.

Se alcançarmos esse estado, depois, há mais outra coisa: Conseguimos extrair eventos destes documentos. Provavelmente, 10 biliões de eventos podem ser extraídos deste arquivo. E este sistema de informação gigante pode ser pesquisado de muitas formas Se fizermos uma pergunta como: "Quem viveu neste palazzo em 1323?" "Quanto custava um pargo no mercado Realto "em 1434?" "Qual era o salário "de um vidreiro em Murano "ao longo de uma década?" Podemos fazer perguntas ainda maiores porque está codificado semanticamente. E depois, o que podemos fazer é colocar isso em termos de espaço, porque muita desta informação é espacial. E, a partir daí, podemos fazer coisas como reconstruir a viagem extraordinária desta cidade que conseguiu ter um desenvolvimento sustentável ao longo de mil anos, conseguindo sempre um equilíbrio com o seu meio ambiente. Podemos reconstruir essa viagem, visualizá-la de muitas formas diferentes. Mas claro, não conseguimos compreender Veneza só por olharmos para a cidade. Temos que a colocar num contexto europeu mais amplo. Por isso, a ideia é também documentar todas as coisas que funcionavam a um nível europeu. Também conseguimos reconstruir a viagem do império marítimo veneziano, como controlou o Mar Adriático progressivamente, como se tornou o império medieval mais poderoso do seu tempo, controlando a maior parte das rotas marítimas de leste até sul.

But you can even do other things, because in these maritime routes, there are regular patterns. You can go one step beyond and actually create a simulation system, create a Mediterranean simulator which is capable actually of reconstructing even the information we are missing, which would enable us to have questions you could ask like if you were using a route planner.

Mas podemos fazer ainda outras coisas, porque nestas rotas marítimas, existem padrões regulares. Podemos ir um passo mais além e criar um sistema de simulação, criar um simulador mediterrânico que seja capaz de reconstruir mesmo a informação que nos falta, que nos possibilite fazer perguntas como se estivéssemos a utilizar um planeador de percursos.

"If I am in Corfu in June 1323 and want to go to Constantinople, where can I take a boat?"

"Se eu estou em Corfu em Junho de 1323 "e quiser ir para Constantinopla, "onde posso apanhar um barco?"

Probably we can answer this question with one or two or three days' precision.

Provavelmente, podemos responder a esta questão com um ou dois ou três dias de precisão.

"How much will it cost?"

"Quanto custará?"

"What are the chance of encountering pirates?"

"Quais são as hipóteses de encontrar piratas?"

Of course, you understand, the central scientific challenge of a project like this one is qualifying, quantifying and representing uncertainty and inconsistency at each step of this process. There are errors everywhere, errors in the document, it's the wrong name of the captain, some of the boats never actually took to sea. There are errors in translation, interpretative biases, and on top of that, if you add algorithmic processes, you're going to have errors in recognition, errors in extraction, so you have very, very uncertain data.

É claro, compreendemos que o principal desafio científico de um projecto como este é qualificar, quantificar e representar a incerteza e inconsistência a cada passo deste processo. Há erros em todo o lado, erros nos documentos, é o nome errado do capitão, alguns barcos nunca chegaram a zarpar. Há erros na tradução, interpretações parciais, e em cima de tudo isso, se adicionarmos os processos algorítmicos, vamos ter erros no reconhecimento, erros na extracção, por isso temos informação muito, muito incerta.

So how can we detect and correct these inconsistencies? How can we represent that form of uncertainty? It's difficult. One thing you can do is document each step of the process, not only coding the historical information but what we call the meta-historical information, how is historical knowledge constructed, documenting each step. That will not guarantee that we actually converge toward a single story of Venice, but probably we can actually reconstruct a fully documented potential story of Venice. Maybe there's not a single map. Maybe there are several maps. The system should allow for that, because we have to deal with a new form of uncertainty, which is really new for this type of giant databases.

Então como podemos detectar e corrigir estas inconsistências? Como podemos representar essa forma de incerteza? É difícil. Uma coisa que podemos fazer é documentar cada etapa do processo, não só codificando a informação histórica mas também o que chamamos de meta-informação histórica, como o conhecimento histórico é construído, documentando cada etapa. Isto não garante que vamos convergir para uma única história de Veneza, mas, provavelmente, podemos reconstruir uma potencial história de Veneza totalmente documentada. Talvez não haja um único mapa. Talvez haja vários mapas. O sistema deve permitir isso, porque temos de lidar com uma nova forma de incerteza, que é mesmo nova para este tipo de base de dados gigantes.

And how should we communicate this new research to a large audience? Again, Venice is extraordinary for that. With the millions of visitors that come every year, it's actually one of the best places to try to invent the museum of the future. Imagine, horizontally you see the reconstructed map of a given year, and vertically, you see the document that served the reconstruction, paintings, for instance. Imagine an immersive system that permits to go and dive and reconstruct the Venice of a given year, some experience you could share within a group. On the contrary, imagine actually that you start from a document, a Venetian manuscript, and you show, actually, what you can construct out of it, how it is decoded, how the context of that document can be recreated. This is an image from an exhibit which is currently conducted in Geneva with that type of system.

E como deveremos comunicar esta nova pesquisa a uma vasta audiência? Novamente, Veneza é extraordinária para isso. Como os milhões de visitantes que a visitam todos os anos, é na realidade, um dos melhores lugares para tentar inventar o museu do futuro. Imaginem, horizontalmente, vemos o mapa reconstruido de um certo ano, e verticalmente, vemos o documento que serviu de base para a reconstrução, quadros, por exemplo. Imaginem um sistema imersivo que permita ir e imergir e reconstruir a Veneza de um certo ano, é uma experiência que podemos partilhar em grupo. Pelo contrário, imaginem que, na realidade, começamos com um documento, um manuscrito veneziano, e que vocês mostram o que pode ser reconstruído a partir dele, como é descodificado, como o contexto desse documento pode ser recriado. Esta é uma imagem de uma exposição que é actualmente feita em Geneva com este tipo de sistema.

So to conclude, we can say that research in the humanities is about to undergo an evolution which is maybe similar to what happened to life sciences 30 years ago. It's really a question of scale. We see projects which are much beyond any single research team can do, and this is really new for the humanities, which very often take the habit of working in small groups or only with a couple of researchers. When you visit the Archivio di Stato, you feel this is beyond what any single team can do, and that should be a joint and common effort. So what we must do for this paradigm shift is actually foster a new generation of "digital humanists" that are going to be ready for this shift.

Para concluir, podemos dizer que a pesquisa nas humanidades está prestes a submeter-se a uma evolução que, na realidade, é semelhante ao que aconteceu às ciências da vida há cerca de 30 anos atrás. É mesmo uma questão de escala. Vemos projectos que estão muito além do que uma equipa de investigação pode fazer e isto é realmente novo para as humanidades, que muitas vezes adquirem o hábito de trabalhar em pequenos grupos ou apenas com um par de investigadores. Quando visitamos o Archivio di Stato, sentimos que está além do que qualquer equipa individual pode fazer, e que deve ser um esforço comum e partilhado. Por isso, o que devemos fazer para esta mudança de paradigma é fomentar uma nova geração de "humanistas digitais" que vão estar prontos para esta mudança.

I thank you very much.

Muito obrigado.

(Applause)

(Aplausos)

"If I am in Corfu in June 1323 and want to go to Constantinople, where can I take a boat?"

"Se eu estou em Corfu em Junho de 1323 "e quiser ir para Constantinopla, "onde posso apanhar um barco?"

Probably we can answer this question with one or two or three days' precision.

Provavelmente, podemos responder a esta questão com um ou dois ou três dias de precisão.

"How much will it cost?"

"Quanto custará?"

"What are the chance of encountering pirates?"

"Quais são as hipóteses de encontrar piratas?"

I thank you very much.

Muito obrigado.

(Applause)

(Aplausos)

Frederic Kaplan: How to build an information time machine

Frederic Kaplan: How to build an information time machine

Related talks

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Blaise Agüera y Arcas: Augmented-reality maps

Brewster Kahle: A free digital library

David McCandless: The beauty of data visualization

JP Rangaswami: Information is food

Aris Venetikidis: Making sense of maps

Related talks

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Blaise Agüera y Arcas: Augmented-reality maps

Brewster Kahle: A free digital library

David McCandless: The beauty of data visualization

JP Rangaswami: Information is food

Aris Venetikidis: Making sense of maps