Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Erez Lieberman Aiden: Todos sabem que uma imagem vale mil palavras. Mas nós em Harvard estávamos questionando se é mesmo verdade. (Risos) Assim montamos uma equipe de peritos, desde Harvard, MIT, The American Heritage Dictionary, Enciclopédia Britânica e mesmo nossos orgulhosos patrocinadores, o Google. E pensamos sobre isto por cerca de 4 anos. Chegamos a uma surpreendente conclusão. Senhoras e senhores, uma imagem não vale mil palavras. De fato, encontramos algumas imagens que valem 500 bilhões de palavras.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
Jean-Baptiste Michel: Como chegamos a esta conclusão? Erez e eu pensávamos em maneiras de obter uma grande imagem da cultura e história humana: a mudança através dos tempos. Muitos livros tem sido escritos ao longo dos anos. Pensávamos, a melhor maneira de aprender com eles é ler todos estes milhões de livros. Naturalmente, se há uma medida do incrível que isso é, teria que ser colocado lá em cima. O problema é que existe um eixo-X para isso, que é o eixo da praticidade. Que é muito, muito baixa.
(Applause)
(Aplausos)
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
As pessoas costumam usar um método alternativo, que seria pegar algumas fontes e lê-las cuidadosamente. É extremamente prático, mas nem um pouco incrível. O que realmente se quer fazer é alcançar o incrível junto com a parte prática deste espaço. Aconteceu que havia uma empresa próxima chamada Google que iniciou um projeto de digitalização alguns anos antes que poderia viabilizar este método. Eles haviam digitalizado milhões de livros. O que significa, que alguém poderia usar métodos computacionais para ler todos os livros com um clique de botão. Isso é muito prático e extremamente incrível.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
ELA: Permitam-me contar um pouco de onde os livros vêm. Desde tempos imemoriais, existem os autores. Estes autores tem se esforçado para escrever livros. O que se tornou consideravelmente mais fácil com o desenvolvimento da imprensa alguns séculos atrás. Desde então, os autores venceram em 129 milhões de ocasiões distintas, publicando livros. Agora se esses livros não se perderam na história, então eles estão em algum lugar em uma biblioteca, e muitos deles estão sendo recuperados das bibliotecas e digitalizados pelo Google, que escaneou 15 milhões de livros até agora.
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
Quando o Google digitaliza, eles o colocam em um formato muito legal. Agora temos a informação, e temos os metadados. Temos informações sobre coisas como onde foi publicado, quem era o autor, quando foi publicado. E o que fazemos é percorrer todos estes registros e excluir tudo que não seja informação de alta qualidade. O que permanece é uma coleção de 5 milhões de livros, 500 bilhões de palavras, uma sequência de caracteres mil vezes maior que o genoma humano -- um texto que, quando escrito, se estenderia daqui até a Lua e de volta mais de 10 vezes -- um verdadeiro fragmento de nosso genoma cultural. Claro que fizemos quando encaramos tal ultrajante hipérbole... (Risos) foi o que qualquer pesquisador com respeito próprio teria feito. Pegamos uma webcomic do XKCD, e dissemos, "Afastem-se. Vamos tentar a ciência."
(Laughter)
(Risos)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
JM: Naturalmente, nós pensamos, primeiro vamos mostrar os dados para que as pessoas façam ciência com eles. Depois pensamos, que informação podemos liberar? Naturalmente, você quer pegar os livros e liberar o texto completo destes 5 milhões de livros. Aí o Google, e Jon Orwant em especial, falaram sobre uma equação que devíamos aprender. Você tem 5 milhões, que são, 5 milhões de autores e 5 milhões de queixosos é um processo e tanto. Ainda que fosse muito, mas muito incrível, de novo, é extremamente, extremamente impraticável. (Risos)
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
Então, nós meio que nos aprofundamos, e fizemos uma alternativa prática, que foi só um pouco menos incrível. Falamos, ao invés de liberar o texto completo, vamos liberar estatísticas sobre os livros. Peguem por exemplo "Um brilho de felicidade." São 4 palavras: nós chamamos de 4-grama. Vamos dizer a vocês quantas vezes um 4-grama em especial apareceu nos livros em 1801, 1802, 1803, até chegar em 2008. Isso nos dá uma linha de tempo da frequência com que esta frase foi utilizada através dos tempos. Fizemos isso para todas as palavras e frases que aparecem nos livros, o que nos dá uma grande tabela de 2 bilhões de linhas que nos conta como a cultura tem se modificado.
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
ELA: Essas 2 bilhões de linhas, nós chamamos de 2 bilhões de n-gramas. O que eles nos dizem? Os n-gramas individuais medem as tendências culturais. Permitam-me dar um exemplo. Suponhamos que eu esteja prosperando. e amanhã eu queira contar como eu me dei bem. Em inglês eu diria, "Ontem, eu 'throve'." Ou eu poderia dizer, "Ontem, eu 'thrived'." Qual deles eu deveria usar? Como saber?
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
Como cerca de 6 meses atras, o estado de arte nesta matéria seria, por exemplo, ir até este psicólogo com um cabelo fabuloso, e dizer, "Steve, você é um expert em verbos irregulares. O que eu devo fazer?" E ele diria, "Bem a maioria diria 'thrived', mas algumas diriam 'throve'." E vocês também sabem, talvez, que se voltassem no tempo 200 anos e perguntassem a esse estadista também de cabelo fabuloso, (Risos) "Tom, o que devo falar?" Ele diria, "No meu tempo a maioria dizia 'throve', mas alguns 'thrive'." Agora o que vou lhes mostrar são dados crus. Duas linhas desta tabela de 2 bilhões de lançamentos. O que estão vendo é a frequencia ano a ano de "thrived" e "throve" através dos tempos. Isso são apenas duas de 2 bilhões de linhas. Assim o conjunto completo de dados é 2 bilhões de vezes mais incrível que esse slide.
(Laughter)
(Risos)
(Applause)
(Aplausos)
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
JM: Existem muitas outras imagens que valem 500 bilhões de palavras. Por exemplo, esta aqui. Se você escolher influenza, verá picos nas épocas onde se sabe de grandes epidemias de gripe que mataram pessoas pelo mundo.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
ELA: Se vocês ainda não se convenceram, o nível dos mares está subindo, junto com o CO2 na atmosfera e a temperatura global.
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
JM: Vocês também podem querer dar uma olhada neste n-grama, que diz ao Nietzsche que Deus não morreu, apesar que ele podia ter um publicitário melhor.
(Laughter)
(Risos)
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
ELA: Se pode entender alguns conceitos bem abstratos com essa coisa. Por exemplo, permitam-me contar a história do ano de 1950. Durante todo o transcurso da história, ninguém dava a mínima para 1950. Em 1700, em 1800, em 1900, ninguém ligava. Nos anos 30 e 40, ninguém ligava. De repente, no meio dos anos 40, começou um rumor. As pessoas perceberam que 1950 viria, e que seria algo grande. (Risos) Nada interessou tanto às pessoas em 1950 como o ano 1950. (Risos) As pessoas caminhavam obcecadas. Não podiam parar de falar sobre as coisas que fizeram em 1950, tudo o que estavam planejando para 1950, todos os sonhos que queriam alcançar em 1950. De fato, 1950 foi tão fascinante que nos anos seguintes, as pessoas continuavam falando sobre as coisas incríveis que aconteceram, em 51, 52, 53. Finalmente em 1954, alguém acordou e percebeu que 1950 tinha ficado algo 'passé'. (Risos) E de repente, a bolha estourou.
(Laughter)
(Risos)
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
A história de 1950 é a história de todo ano que temos registro, com um toque a mais, porque agora temos estes gráficos. E porque temos estes gráficos bacanas, podemos medir coisas. Podemos dizer, "Quão rápido a bolha estourou?" E acontece que podemos medir muito precisamente. Equações foram derivadas, gráficos foram produzidos, e o resultado líquido é que descobrimos que a bolha estoura cada vez mais rápido a cada ano que passa. Perdemos interesse no passado cada vez mais rápido.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
JM: Agora uma dica para a carreira. Aqueles de vocês que procuram ser famosos, podemos aprender com as 25 personalidades mais famosas, políticos, autores, atores e demais. Se você quer se tornar famoso cedo, deveria ser um ator, porque sua fama começa ao final dos vinte anos -- você ainda é jovem, é muito bom. Agora se quiser esperar um pouco, deveria ser autor, porque assim você alcançará grandes alturas, como Mark Twain, por exemplo, extremamente famoso. Mas se você quiser alcançar mesmo o topo, deveria postergar o reconhecimento e, claro, tornar-se um político. Assim você se torna famoso no final dos seus 50, e se torna muito, muito famoso depois. Cientistas também tendem a ficar famosos quando são mais velhos. Por exemplo, biólogos e físicos tendem a ser tão famosos quanto atores. Um erro que vocês devem evitar é serem matemáticos. (Risos) Se fizerem isso, podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos." Mas olha só, ninguém quer saber.
(Laughter)
(Risos)
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
ELA: Existem notas mais sérias entre os n-gramas. Por exemplo, eis a trajetória de Marc Chagall, artista nascido em 1887. Parece a trajetória normal de uma pessoa famosa. Ele fica mais e mais e mais famoso, exceto se pesquisar em alemão. Se pesquisar em alemão, verá algo totalmente bizarro, algo que nunca se vê, que é ele se tornar extremamente famoso e de repente despenca, chegando ao fundo do poço entre 1933 e 1945, antes de retornar com tudo. Naturalmente, o que vemos é o fato de que Chagall era um artista judeu na Alemanha nazista.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
Estes sinais são na verdade tão fortes que não precisamos saber que alguém foi censurado. Podemos ter uma ideia usando até um básico processamento de sinais. Eis um modo simples de fazer. Uma expectativa razoável é que a fama de alguém em um período de tempo deveria ser mais ou menos a média de sua fama antes e da fama depois. É algo assim o que esperamos. E comparamos isso com a fama que observamos. E dividimos uma pela outra para produzir algo que chamamos de índice de supressão. Se o índice é muito, mas muito pequeno, você pode muito bem estar sendo suprimido. Se for muito grande, você pode estar se benificiando com a propaganda.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
JM: Agora vocês podem até mesmo ver a distribuição dos índices de supressão de populações inteiras. Por exemplo, aqui -- este índice é para 5.000 pessoas escolhidas em livros ingleses onde não existe supressão conhecida -- seria assim, basicamente centrada no 1. O que se esperava é basicamente o que observamos. Esta é a distribuição vista na Alemanha -- bem diferente, é desviada para a esquerda. As pessoas falaram menos que o dobro do costumeiro. Mais importante, a distribuição é mais extensa. Existem muitas pessoas que acabaram no lado esquerdo desta distribuição que são faladas cerca de 10 vezes menos do que deveriam ter sido. E também muitas pessoas bem à direita que parecem ter se beneficiado da propaganda. Esta imagem é a marca da censura no registro de livros.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
ELA: Cultorômica é como chamamos este método. É como se fosse a genômica. Só que a genômica é uma lente para que a biologia veja através da janela de sequencias das bases no genoma humano. Cultorômica é parecido. É aplicação da análise da enorme quantidade de informações coletadas para estudo da cultura humana. Ao invés de olharmos através das lentes de um genoma, olhamos através de pedaços digitalizados do registro histórico. O bom da culturômica é que todos podem participar. Por que todos podem? Todos podem porque três caras, Jon Orwant, Matt Gray e Will Brockman no Google, viram o protótipo do Visualizador de N-Gramas, e disseram, "Isso é bem divertido. Temos que disponibilizar para as pessoas." Em exatamente 2 semanas - antes de nosso artigo ser publicado -- eles programaram uma versão do Visualizador para o público em geral. Assim vocês podem digitar qualquer palavra ou frase que se interessarem e imediatamente podem ver o n-grama -- e também listar exemplos de todos os muitos livros nos quais o seu n-grama aparece.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
JM: Já foi utilizado mais de um milhão de vezes no primeiro dia, e é de fato a melhor de todas as procuras. As pessoas querem ser as melhores, se destacar. Mas acontece que no século 18, as pessoas não ligavam pra isso. Elas não queriam ser as 'the best', elas queriam ser 'beft'. O que aconteceu, é claro, foi apenas um equívoco. Não é um esforço pela mediocridade, apenas o 'S' costumava ser escrito diferente, quase um 'F'. Lógico, o Google não pegou isso na ocasião, assim nós relatamos no artigo científico que escrevemos. Mas se tornou um lembrete de que, mesmo sendo muito divertido, quando se interpreta estes gráficos, temos que ter cuidado, e vocês tem que adotar os métodos básicos da ciência.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
ELA: Pessoas o tem utilizado para todo tipo de propósito. (Risos) Na verdade, não precisaremos falar, vamos apenas mostrar todos os slides e ficar em silêncio. Esta pessoa estava interessada na história da frustração. Existem vários tipos de frustração. Se você esfolar o dedo do pé, É um "ai" com um 'A'. Se a Terra é aniquilada pelos Vogons pra dar lugar à um atalho interestelar, é um "aaaaaaaai" com 8 'A's. Esta pessoa estudou todos os "ais", de 1 até 8 'A's. E acontece que os "ais" menos frequentes são os que correspondem às coisas mais frustrantes -- exceto, curiosamente, no começo dos anos 80. Achamos que deve ter algo a ver com o Reagan.
(Laughter)
(Risos)
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
JM: Existem muitos usos para estas informações, mas o principal é que o registro histórico está sendo digitalizado. Google começou a digitalizar 15 milhões de livros. É 12% de todos os livros já publicados. É um pedaço considerável da cultura humana. Há muito mais na cultura: existem manuscritos, jornais, coisas que não são texto, como arte e pinturas. Acontece que estes estão em nossos computadores, em computadores ao redor do mundo. E quando isso acontece, vai transformar a maneira de compreender nosso passado, o presente e a cultura humana.
Thank you very much.
Muito obrigado.
(Applause)
(Aplausos)