Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Erez Lieberman Aiden: Iedereen weet dat één beeld meer zegt dan 1000 woorden. Maar wij in Harvard vroegen ons af of dit wel echt klopte. (Gelach) Dus verzamelden we een team van experts, van Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica en zelfs onze trotse sponsors, The Google. We overpeinsden dit gedurende vier jaar. We kwamen tot een verrassende conclusie. Dames en heren, een beeld is niet alleen meer waard dan 1000 woorden. Wij hebben beelden gevonden die 500 miljard woorden waard zijn.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
Jean-Baptiste Michel: Hoe kwamen we tot deze conclusie? Erez en ik dachten na hoe we een overzicht konden krijgen van onze cultuur en geschiedenis: de verandering door de tijd. Er zijn vele boeken geschreven over de jaren. Dus dachten we: de beste manier om ervan te leren is die miljoenen boeken allemaal te lezen. Op de schaal van hoe vet dat is, zou dit extreem hoog scoren. Het probleem is de X-as hiervan, hetgeen de praktische as is. Die is bijzonder laag.
(Applause)
(Applaus)
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
Mensen kiezen meestal voor een alternatieve aanpak, namelijk: enkele bronnen zeer grondig lezen. Dat is zeer praktisch, maar niet zo vet. Wat je zou willen, is in het vette en toch praktische deel van dit vlak belanden. Nu zat er vlakbij een bedrijf genaamd Google dat een digitalisatieproject was begonnen dat dit wellicht mogelijk kon maken. Ze hebben miljoenen boeken gedigitaliseerd. Dit betekent dat je rekenkundige methoden kunt gebruiken om al deze boeken te lezen met één muisklik. Dat is zeer praktisch en extreem vet.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
ELA: Ik zal even vertellen waar boeken vandaan komen. Sinds mensenheugenis zijn er schrijvers geweest. Deze schrijvers streefden ernaar boeken te schrijven. Dit werd aanzienlijk vergemakkelijkt door de komst van drukpers, enkele eeuwen geleden. Sindsdien is het deze schrijvers 129 miljoen maal gelukt een boek te publiceren. Als deze boeken niet verloren zijn gegaan, staan ze ergens in een bibliotheek, en veel van die boeken zijn uit bibliotheken gehaald en gedigitaliseerd door Google, dat tot op heden 15 miljoen boeken heeft gescand.
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
Google digitaliseert boeken tot een heel mooi formaat. We hebben de data, plus meta-data. We hebben informatie over waar het gepubliceerd was, wie de auteur was, wanneer het uitkwam. Wij gaan door al die documenten heen en sluiten alles uit wat niet van de hoogste kwaliteit is. Wat we dan overhouden, is een collectie van 5 miljoen boeken, 500 miljard woorden, een rij letters duizend maal langer dan het menselijk genoom -- een tekst die, uitgeschreven, 10 maal tot de maan en terug zou reiken -- een waarachtige scherf van ons culturele genoom. Wat we uiteraard deden ten overstaan van zulk buitensporig hyperbool ... (Gelach) was wat ieder zichzelf respecterend onderzoeker gedaan zou hebben. We namen een pagina uit XKDC, en zeiden: "Pas op! We gaan een poging tot wetenschap doen."
(Laughter)
(Gelach)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
JM: Natuurlijk dachten we: laten we eerst de data produceren waarop mensen wetenschap kunnen loslaten. We dachten: welke data kunnen we produceren? Natuurlijk wil je de volledige tekst van deze 5 miljoen boeken publiceren. Google, en Jon Orwant in het bijzonder, hielden ons het volgende sommetje voor. Je hebt 5 miljoen boeken; dat is 5 miljoen auteurs... ...en 5 miljoen eisers is een gigantische rechtszaak. Ook al zou dat uitermate vet zijn, het is, nogmaals, extreem onpraktisch. (Gelach)
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
Dus we gingen overstag, en we kozen de praktische aanpak, die iets minder vet was. We zeiden, in plaats van de hele tekst uitgeven, gaan we statistieken uitgeven over de boeken. Neem bijvoorbeeld "A gleam of happiness". Vier woorden; we noemen dat een four-gram. We gaan laten zien hoe vaak een specifiek four-gram verscheen in boeken in 1801, 1802, 1803, tot en met 2008. Dat levert een tijdverloop op van hoe frequent deze specifieke zin gebruikt werd. We doen dat met alle woorden en zinnen die in die boeken voorkomen, wat een lijst van twee miljard zinnen oplevert die laat zien hoe onze cultuur veranderd is.
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
ELA: Die 2 miljard zinnen noemen we 2 miljard n-grams. Wat vertellen ze ons? De individuele n-grams meten culturele trends. Ik zal een voorbeeld geven. Stel dat ik geluk ervaar, en morgen vertel ik je daarover. Dan kan ik zeggen: "Gisteren ervoer ik geluk." Of: "Gisteren ervaarde ik geluk." Wat moet ik gebruiken? Hoe kom je daar achter?
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
Sinds een maand of zes, is de meest vooruitstrevende manier om hier achter te komen, bijvoorbeeld, het benaderen van de volgende psycholoog met geweldig haar, en je zegt: "Steve, jij weet alles van onregelmatige werkwoorden. Wat moet ik doen?" Dan zegt hij: "Nou, de meeste mensen zeggen 'ervaarde', maar sommige mensen zeggen 'ervaarde'." Je weet ook, min of meer, dat als je 200 jaar teruggaat in de tijd en deze staatsman met even geweldig haar, vraagt: (Gelach) "Tom, wat moet ik zeggen?'" Dan zou hij zeggen: "Nou, in mijn tijd ervoeren de meeste mensen, maar sommigen ervaarden." Nu ga ik wat rauwe data laten zien. Twee kolommen uit de lijst met 2 miljard gegevens. Wat je ziet, is de jaarlijkse frequentie van 'ervoeren' en 'ervaarden' doorheen de tijd. Dit zijn slechts twee van de twee miljard kolommen. Dus de hele dataset is een miljard maal vetter dan deze dia.
(Laughter)
(Gelach)
(Applause)
(Applaus)
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
JM: Er zijn veel andere beelden die 500 miljard woorden waard zijn. Bijvoorbeeld dit beeld. Als je enkel griep neemt, zie je pieken op tijdstippen waarvan je weet dat grote griepepidemieën wereldwijd levens kostten.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
ELA: Mocht je nog niet overtuigd zijn: zeewaterniveaus stijgen, evenals CO2 in de lucht, en de globale temperatuur.
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
JM: Kijk ook even naar dit n-gram, dat Nietzsche vertelt dat God niet dood is, hoewel je kunt zeggen dat hij betere pr nodig heeft.
(Laughter)
(Gelach)
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
ELA: Je komt bij behoorlijk abstracte concepten met dit soort dingen. Ik zal je bijvoorbeeld de geschiedenis laten zien van het jaar 1950. Tijdens het grootste deel van de geschiedenis, kon 1950 niemand iets schelen. In 1700, 1800, en 1900 interesseerde het niemand. In de jaren '30 en '40, interesseerde het niemand. Opeens, midden jaren '40, ontstond er rumoer. Mensen beseften dat 1950 er aan ging komen, en het zou belangrijk kunnen zijn. (Gelach) Maar niets liet mensen zo warmlopen voor 1950 als het jaar 1950. (Gelach) Mensen liepen geobsedeerd rond. Ze bleven maar praten over alle dingen die ze deden in 1950, alle dingen die ze van plan waren in 1950, alle dromen die ze wilden verwezenlijken in 1950. In feite was 1950 zo fascinerend dat mensen jaren later nog steeds praatten over alle verbazingwekkends dat gebeurd was, in '51, '52, '53. Uiteindelijk in 1954, werd er iemand wakker die zich realiseerde dat 1950 nu wat achterhaald was. (Gelach) Opeens was de zeepbel gebarsten.
(Laughter)
(Gelach)
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
Het verhaal van 1950 is het verhaal van elk jaar dat gemeten is, met een kleine draai, want nu hebben we deze mooie grafieken. Omdat we die hebben, kunnen we dingen meten. We kunnen vragen: "Hoe snel is de zeepbel gebarsten?" Dat blijken we zeer precies te kunnen meten. Vergelijkingen en grafieken werden gemaakt, en het netto resultaat is dat we zien dat de bel steeds sneller barst naarmate de tijd vordert. We raken sneller uitgekeken op het verleden.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
JM: Nu wat carrière-advies. Diegenen van jullie die beroemd willen worden, kunnen leren van de 25 beroemdste politieke figuren, schrijvers, acteurs enzovoort. Om snel beroemd te worden, zou je acteur moeten zijn, want dan stijgt je bekendheid nog vóór je dertigste -- je bent nog jong, helemaal geweldig. Als je wat langer kunt wachten, zou je schrijver moeten zijn, want dan stijg je tot grote hoogten, zoals Mark Twain, bijvoorbeeld: extreem beroemd. Maar als je de absolute top wilt bereiken, moet je kunnen wachten, en, uiteraard, politicus worden. Hier word je beroemd vlak voor je zestigste, en daarna word je nog veel beroemder. Wetenschappers worden doorgaans ook beroemd op hogere leeftijd. Bijvoorbeeld, biologen en natuurkundigen zijn vaak bijna zo beroemd als acteurs. Een fout die je niet moet maken, is wiskundige worden. (Gelach) Als je dat doet, denk je wellicht: "Mooi, ik ga mijn beste werk doen als begin twintiger." Maar dat kan niemand wat schelen.
(Laughter)
(Gelach)
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
ELA: Er zijn meer ontnuchterende aspecten aan de n-grams. Hier is bijvoorbeeld het traject van Marc Chagall, een kunstenaar geboren in 1887. Het lijkt het normale traject van een beroemd persoon. Hij wordt steeds beroemder, behalve als je in het Duits kijkt. Daar zie je iets volledig bizars, wat je bijna nooit ziet, namelijk dat hij eerst heel beroemd wordt, en dan opeens sterk daalt, met een dieptepunt tussen 1933 en 1945, voordat hij weer stijgt. Wat we hier uiteraard zien, is het feit dat Marc Chagall een Joodse kunstenaar was in Nazi-Duitsland.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
Deze signalen zijn zo sterk dat we niet hoeven te weten dat iemand werd gecensureerd. We kunnen het uitvissen met wat simpele signaalverwerking. Hier is een eenvoudige methode. Een redelijke aanname is dat iemands roem in een bepaalde periode ruwweg het gemiddelde moet zijn van zijn roem ervoor en erna. Dat is wat we zouden verwachten. Dat vergelijken we met de roem die we observeren. Dan delen we het één door het ander, om iets te produceren dat we een suppressie-index noemen. Als de suppressie-index heel, heel, heel klein is, dan kon het zijn dat je tegengewerkt wordt. Als hij erg groot is, zou er propaganda in het spel kunnen zijn.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
JM: Je kunt ook kijken naar de distributie van suppressie-indexen over hele populaties. Dus bijvoorbeeld, hier: deze suppressie-index is voor 5000 mensen genomen uit Engelse boeken zonder suppressie -- dat is mooi gecentreerd rond 1. Wat je verwacht, observeer je ook. Dit is de distributie in Duitsland -- heel anders, het is verschoven naar links. Mensen praatten er tweemaal minder over dan normaal. Maar veel belangrijker: de distributie is veel breder. Er zijn veel mensen in de linkerkant van de distributie, waarover tienmaal minder gepraat wordt dan normaal. Maar ook mensen helemaal rechts, die schijnen te profiteren van propaganda. Dit beeld is het kenmerk van censuur in boeken.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
ELA: Culturomica noemen we deze methode. Het lijkt op genomica. Maar genomica is een lens op biologie door het raam van de opeenvolging van basen in het menselijk genoom. Culturomica lijkt hierop. Het is de toepassing van massale datacollectie-analyse op de studie van de menselijke cultuur. In plaats van door de lens van een genoom, hier door de lens van gedigitaliseerde stukjes historische data. Het mooie aan culturomica is dat iedereen het kan doen. Waarom kan iedereen het? Iedereen kan het omdat drie kerels, Jon Orwant, Matt Gray en Will Brockman bij Google, het prototype zagen van de Ngram Viewer, en zeiden: "Dit is zo leuk. We moeten dit beschikbaar maken voor de mensen." In de twee weken voordat onze publicatie uitkwam, codeerden ze een versie van de Ngram Viewer voor het grote publiek. Dus ook jij kunt ieder woord of iedere zin intoetsen en diens Ngram meteen zien -- en tevens voorbeelden inkijken van de boeken waarin je Ngram voorkomt.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
JM: De eerste dag is het meer dan een miljoen maal gebruikt. en het is echt de beste van alle zoekopdrachten. Mensen willen op hun best zijn, hun beste voetje voor zetten. Maar in de 18e eeuw gaven mensen daar niet om. Ze wilden niet op hun best zijn, maar op hun beft. Dit is uiteraard een vergissing. Ze streefden niet naar middelmatigheid, maar de S werd toen anders geschreven, als een F. Dit heeft Google destijds niet opgepikt, dus we gaven dit aan in het wetenschapsartikel. Maar het is dus een herinnering dat, ook al is dit allemaal erg leuk, wanneer je deze grafieken interpreteert, je erg moet oppassen, en de wetenschappelijke basisprincipes moet toepassen.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
ELA: Mensen hebben dit voor allerlei leuke dingen gebruikt. (Gelach) We hoeven eigenlijk niet te praten, we laten gewoon alle dia's zien en houden onze mond. Deze persoon was geïnteresseerd in de geschiedenis van frustratie. Er zijn verschillende soorten frustratie. Als je je teen stoot, is dat "argh" met één A. Als de Aarde wordt verwoest door Vogons om plaats te maken voor een galactische omleiding, is dat een "aaaaaaaargh" met acht A's. Deze persoon bestudeerde alle "arghs", van één tot en met acht A's. Nu blijkt dat de minder frequente "arghs" corresponderen met meer frustrerende dingen -- behalve, vreemd genoeg, begin jaren '80. We denken dat dit iets te maken heeft met Reagan.
(Laughter)
(Gelach)
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
JM: Er zijn vele toepassingen voor deze data, maar het belangrijkste is dat historische data worden gedigitaliseerd. Google heeft nu 15 miljoen boeken gedigitaliseerd. Dat is 12% van alle boeken die ooit uitgegeven zijn. Dat is een behoorlijk deel van onze cultuur. Er is nog veel meer in de cultuur: er zijn manuscripten, kranten, er zijn dingen zonder tekst, zoals kunst en schilderijen. Deze staan allemaal op onze computers, op computers over de wereld. Wanneer dat gebeurt, zal het ons begrip van ons verleden, ons heden, en onze cultuur transformeren.
Thank you very much.
Dank je wel.
(Applause)
(Applaus)