Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Erez Lieberman Aiden: Todos sabemos que uma imagem vale mais que mil palavras Mas nós em Harvard questionámos se isso seria mesmo verdade. (Risos) Então, juntámos uma equipa de peritos, que vieram de Harvard, do MIT, do The American Heritage Dictionary, da The Encyclopedia Britannica e até dos nossos orgulhosos patrocinadores, a Google. (Risos) Debruçámo-nos sobre esta questão durante cerca de quatro anos. E chegámos a uma conclusão surpreendente. Meus senhores, uma imagem não vale mais que mil palavras. Na verdade, encontrámos imagens que valem 500 mil milhões de palavras.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
Jean-Baptiste Michel: Como chegámos a esta conclusão? O Erez e eu pensámos em como obter um panorama geral da cultura humana e da história humana: as mudanças através dos tempos. Ao longo dos anos, escreveram-se muitos livros. Pensámos que a melhor maneira de aprender com eles seria ler todos esses milhões de livros. Se houvesse uma escala de como isso seria fantástico, isso seria classificado a um nível muito elevado. O problema é que há um eixo X para isso, que é o eixo da prática, o que o colocaria num patamar muito baixo
(Applause)
(Aplausos)
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
As pessoas têm tendência a usar uma abordagem alternativa, que é pegar nalgumas fontes e lê-las cuidadosamente. É extremamente prático, mas não muito fantástico. O que realmente se pretende é chegar à parte fantástica mas prática deste espaço. Acontece que havia uma empresa do outro lado do rio chamada Google que iniciara um projeto de digitalização há uns anos que talvez permitisse essa abordagem. Tinham digitalizado milhões de livros. Isso significava que se podiam usar métodos informáticos para ler todos os livros com o clique de um botão. Isto é muito prático e extremamente fantástico.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
ELA: Vou falar-vos de onde vêm os livros. Desde tempos imemoriais que existem autores. Esses autores têm-se esforçado por escrever livros. Isso tornou-se muito mais fácil com o desenvolvimento da imprensa há uns séculos. Desde então, os autores tiveram 129 milhões de ocasiões diferentes para publicar livros, Se esses livros não se perderam na história estão algures numa biblioteca, e muitos desses livros têm sido recuperados das bibliotecas e digitalizados pela Google, que já digitalizou 15 milhões de livros até agora.
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
Quando a Google digitaliza um livro, põe-no num formato catita. Agora, temos os dados e temos ainda metadados. Temos informação sobre onde foi publicado, quem foi o autor, quando foi publicado, etc. Verificamos todos esses arquivos e excluímos tudo o que não seja da mais alta qualidade. Aquilo que nos resta é uma coleção de cinco milhões de livros, 500 mil milhões de palavras, uma cadeia de caracteres mil vezes mais longa que o genoma humano, um texto que, se fosse escrito por extenso, iria daqui até à Lua e voltava mais de dez vezes, um autêntico fragmento do nosso genoma cultural. Claro que aquilo que fizemos perante tamanha hipérbole... (Risos) ... foi aquilo que teria feito qualquer pesquisador que se preze. Inspirámo-nos no XKDC, e dissemos: "Afastem-se. Vamos tentar fazer ciência."
(Laughter)
(Risos)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
JM: Claro que estávamos a pensar em publicar primeiro os dados para que as pessoas pudessem fazer ciência. Mas depois pensámos: ""Que dados podemos publicar?" Claro que queríamos pegar nos livros e publicar o texto completo de todos os livros. Mas a Google, e o Jon Orwant em particular, ensinou-nos uma pequena equação. Temos cinco milhões de autores, ou seja, cinco milhões de processos judiciais, uma coisa monstruosa. Assim, embora isso fosse fantástico mais uma vez, era impraticável. (Risos)
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
Mais uma vez, tivemos de ceder e seguimos a abordagem prática, que era menos fantástica. Em vez de publicarmos o texto completo, íamos publicar estatísticas sobre os livros. Por exemplo, "Um brilho de felicidade". São quatro palavras, a que chamamos um quatro-grama. Íamos dizer quantas vezes um determinado quatro-grama aparecia em livros em 1801, 1802, 1803... até 2008. Isso dá-nos uma série temporal de quantas vezes foi utilizada essa frase. Fazemos isso para todas as palavras e frases que surgem nesses livros. Isso dá-nos uma enorme tabela de dois mil milhões de linhas que nos dizem como a cultura tem vindo a mudar.
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
ELA: Chamamos a esses dois mil milhões de linhas, dois mil milhões de n-gramas. O que é que eles nos dizem? Os n-gramas individuais medem tendências culturais. Vou dar-vos um exemplo. Vamos supor que estou a prosperar, e que amanhã quero contar como me saí bem. Posso dizer: "Ontem, eu vicejei." Em alternativa, podia dizer: "Ontem, eu prosperei. "Então qual é que devo utilizar? "Como é que hei de saber?"
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
Há cerca de seis meses, o topo de gama neste campo seria dirigir-se, por exemplo, a um psicólogo com um cabelo fabuloso e dizer: "Steve, és perito em verbos. "O que é que devo fazer?" E ele responderia: "Muitos dizem 'prosperei', "mas alguns dizem 'vicejei'." Também ficariam a saber, mais ou menos, que, se recuassem 200 anos, e perguntassem a este estadista com um cabelo igualmente fabuloso: (Risos) "Tom, o que é que eu devo dizer?" Ele diria: "No meu tempo, a maior parte das pessoas vicejava, "mas alguns prosperavam." Agora vou mostrar-vos dados brutos. Duas linhas desta tabela com dois mil milhões de entradas. Estão a ver a frequência, ano a ano, de "prosperei" e "vicejei" ao longo do tempo. Estas são apenas duas entre dois mil milhões de linhas. O conjunto total dos dados é mil milhões de vezes mais fantástico do que este slide.
(Laughter)
(Risos)
(Applause)
(Aplausos)
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
JM: Há muitas imagens que valem mais que 500 mil milhões de palavras. Por exemplo, esta. Se pegarmos em "gripe", verão picos na época em que se sabia que grandes epidemias de gripe matavam pessoas em todo o globo.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
ELA: Se ainda não estão convencidos, os níveis do mar estão a subir, assim como o CO2 na atmosfera e a temperatura da Terra.
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
JM: Talvez queiram prestar atenção a este n-grama em particular, e dizer a Nietzsche que Deus não está morto, embora concordem que Ele precisa de um relações públicas melhor.
(Laughter)
(Risos)
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
ELA: Podemos obter conceitos bastante abstratos com este tipo de análise. Por exemplo, vou contar-vos a história do ano de 1950. Durante grande parte da história, ninguém ligou nenhuma a 1950. Em 1700, em 1800, em 1900, ninguém se preocupou. Durante os anos 30 e 40, ninguém se preocupou. De repente, a meio dos anos 40, começa a haver um burburinho. As pessoas percebem que 1950 vai acontecer, e pode ser uma coisa em grande. (Risos) Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 do que o ano de 1950. (Risos) As pessoas andavam obcecadas. Não conseguiam deixar de falar sobre tudo o que tinham feito em 1950, tudo o que planeavam fazer em 1950, todos os sonhos que queriam alcançar em 1950. Na verdade, 1950 foi tão fascinante que, anos depois, as pessoas continuavam a falar das coisas maravilhosas que tinham acontecido em 1951, 1952, 1953. Finalmente, em 1954, houve alguém que acordou e percebeu que 1950 se tinha tornado numa coisa do passado. (Risos) E de repente, rebentou a bolha.
(Laughter)
(Risos)
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
A história de 1950 é a história de cada ano que temos registado, com uma ligeira diferença, porque agora temos estes gráficos catitas. Como temos estes gráficos catitas, podemos comparar coisas. Podemos dizer: "Quão depressa rebenta a bolha?" Acontece que conseguimos medir isso com muita precisão. Derivaram-se equações, produziram-se gráficos, e como resultado final descobrimos que a bolha rebenta cada vez mais depressa, de ano para ano. Estamos a perder interesse no passado cada vez mais rapidamente.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
JM: Agora, um pouco de orientação profissional. Os que querem ser famosos, podem aprender com os 25 políticos mais famosos, autores, atores, etc.. Se quiserem ser famosos cedo, devem tornar-se atores, porque a fama começa a aumentar no final dos vinte anos, ainda são jovens, isso é ótimo. Se podem esperar um pouco, devem ser autores, porque então podem chegar longe, como Mark Twain, por exemplo, extremamente famoso. Mas se quiserem alcançar mesmo o topo, não devem esperar resultados imediatos e, claro, devem tornarem-se políticos. Começarão a ser famosos no final dos 50 anos e tornar-se-ão muito famosos depois disso. Os cientistas também ficam famosos quando são muito mais velhos. Por exemplo, os biólogos e os físicos podem ser tão famosos como os atores. Um erro que não devem fazer é tornarem-se matemáticos. (Risos) Se o fizerem, podem pensar: "Ótimo. Vou fazer o meu melhor trabalho aos 20 anos." Mas, calculem, ninguém vai querer saber.
(Laughter)
(Risos)
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
ELA: Há notas mais sóbrias entre os n-gramas. Por exemplo, esta é a trajetória de Marc Chagall, um artista nascido em 1887. Parece-se com a trajetória normal de uma pessoa famosa. Torna-se cada vez mais famoso, exceto se procurarem em alemão. Se procurarem em alemão, verão uma coisa bizarra, uma coisa que habitualmente não se observa. Ele torna-se extremamente famoso e, de repente, cai vertiginosamente, atravessando o ponto mais baixo entre 1933 e 1945, antes de recuperar nos anos seguintes. O que aqui observamos é o facto de Marc Chagall ser um artista judeu na Alemanha nazi.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
Na realidade, estes sinais são tão fortes que não precisamos de saber que alguém foi censurado. Podemos chegar a essa conclusão através do tratamento básico de sinais. Esta é uma forma simples de o fazer. Uma expetativa razoável é a de que a fama de alguém num dado período de tempo deverá ser sensivelmente a média da sua fama antes e da sua fama posterior. Isso é aquilo que se espera. Comparamos isso com a fama que observamos. Depois é só dividir uma pela outra para obter uma coisa a que chamamos "índice de supressão". Se o índice de supressão for muito, muito baixo, quase de certeza estão a ser censurados. Se for muito alto, então talvez estejam a beneficiar com a propaganda.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
JM: Podemos mesmo ver a distribuição de índices de supressão em populações inteiras. Por exemplo, aqui... este índice de supressão é de cinco mil pessoas escolhidas em livros em inglês onde não há supressão explícita... seria como este, centrado numa pessoa. O que se espera é aquilo que se observa. Esta é a distribuição observada na Alemanha — desvia-se para a esquerda. As pessoas falaram disso duas vezes menos do que o esperado. Mais importante, a distribuição é mais alargada. Há muitas pessoas que acabam na ponta esquerda na distribuição de quem se falou menos dez vezes do que seria de esperar. Mas também muita gente na ponta direita parece beneficiar com a propaganda. Esta imagem é a marca distintiva da censura no registo dos livros.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
ELA: "Culturómica" é o que chamamos a este método. É como genómica. Exceto que a genómica é uma lente sobre a biologia através da janela da sequência de bases no genoma humano. A culturómica é parecida. É a aplicação da análise da recolha de dados em larga escala ao estudo da cultura humana. Aqui, em vez de ser através da lente de um genoma, é através da lente de peças digitalizadas do registo histórico. O que é genial na culturómica é que todos a podem fazer. Porque é que todos a podem fazer? Todos a podem fazer porque três indivíduos, Jon Orwant, Matt Gray e Will Brockman na Google, viram o protótipo do NGram Viewer, e disseram: "Isto é muito divertido. "Temos de tornar isto acessível às pessoas." Nas duas semanas antes da publicação do nosso artigo fizeram o código para a versão pública do NGram Viewer. Podemos escrever qualquer palavra ou frase em que estamos interessados e vemos imediatamente o seu n-grama, assim como vemos exemplos de todos os diversos livros onde surge esse n-grama.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
JBM: Isto foi usado mais de um milhão de vezes no primeiro dia, o que é a melhor de todas as pesquisas. Todos querem o seu melhor, mostrar o seu melhor. Acontece que, no século XVIII, isso não acontecia. Não queriam ser o seu melhor, queriam ser o seu "milhor". Claro que o que aconteceu foi apenas um erro. Não que é que se esforçassem pela mediocridade, é só porque o "e" escrevia-se de forma diferente, como um "i". A Google não se apercebeu disso na altura, e nós referimos isso no artigo científico que escrevemos. Acontece que isto é apenas um lembrete de que, embora seja tudo muito divertido, quando interpretamos gráficos, temos de ser cuidadosos. Há que adotar os procedimentos científicos de base.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
ELA: As pessoas têm usado isto para todo o tipo de diversão. (Risos) Na verdade, nem é preciso falar, vamos apenas mostrar-vos todos os slides e ficar calados. Esta pessoa estava interessada na história da frustração. Há vários tipos de frustração. Se baterem com um dedo do pé, isso é um "ai" com um A. Se o planeta Terra for aniquilado pelos Vogons para criar um desvio interestelar, isso é um "aaaaaaaai" com oito A's. Esta pessoa estuda todos os "ais", entre um a oito A's. Acontece que os "ais" menos frequentes são os que correspondem a coisas mais frustrantes, exceto, por incrível que pareça, nos princípios dos anos 80. Talvez tenha alguma coisa a ver com Reagan.
(Laughter)
(Risos)
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
JM: Há muitas utilizações para estes dados, mas o mais importante é que está a ser digitalizado o registo histórico. A Google começou a digitalizar 15 milhões de livros. São 12% de todos os livros já publicados. É um pedaço considerável da cultura humana. Há muito mais na cultura, há manuscritos, há jornais, há coisas que não são textos, como arte e quadros. Tudo isto está nos nossos computadores, nos computadores de todo o mundo. Quando isso acontece, irá transformar a forma como entendemos o passado, o presente e a cultura humana.
Thank you very much.
Muito obrigado.
(Applause)
(Aplausos)