Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Erez Lieberman Aiden: Alla vet att en bild säger mer än tusen ord. Men vi på Harvard funderade på om detta verkligen var sant. (Skratt) Så vi satte ihop ett expertteam, från Harvard, MIT, The American Heritage Dictionary, Encyclopedia Britannica, och även vår stolta sponsor Google. Så vi grubblade på detta i ungefär fyra år. Och kom fram till en uppseendeväckande slutsats. Mina damer och herrar, en bild säger inte mer än tusen ord. Vi hittade faktiskt en del bilder som säger mer än 500 miljarder ord.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
Jean-Baptiste Michel: Så hur kom vi fram till den slutsatsen? Erez och jag funderade på hur vi skulle få en överblick över människans kultur och historia; förändringar över tiden. Så många böcker har ju faktiskt skrivits under åren. Så vi tänkte att det bästa sättet att lära sig från dem är att läsa alla dessa miljontals böcker. Och såklart, finns det en skala för hur häftigt det är, så måste det rankas extremt, extremt högt. Problemet är att det finns en X-axel för det, vilket är den praktiska axeln. Den är väldigt, väldigt låg.
(Applause)
(Applåder)
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
Folk tenderar att använda en alternativ approach, att ta ett fåtal källor och läsa dem väldigt noga. Det är extremt praktiskt, men inte särskilt häftigt. Det man verkligen vill göra är att nå den häftiga men ändå praktiska delen av det här utrymmet. Och så visade det sig att det fanns ett företag på andra sidan floden; Google, som hade börjat ett digitaliseringsprojekt några år tidigare som kanske skulle fixa den approachen. De har digitaliserat miljontals böcker. Vilket innebär att man med hjälp av datorberäkningar skulle kunna läsa alla böcker med ett knapptryck. Det är väldigt praktiskt och extremt häftigt.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
ELA: Låt mig berätta lite om var böckerna kommer från. Sedan urminnes tider har det funnits författare. Dessa författare har strävat efter att skriva böcker. Och detta blev betydligt enklare när tryckpressen uppfanns för några hundra år sedan. Sedan dess har författarna fått, vid 129 miljoner tillfällen, böcker publicerade. Om de böckerna inte är förlorade i historien, så finns de någonstans i ett bibliotek, och många av de böckerna har tagits upp från biblioteken och digitaliserats av Google, som till dags dato har scannat 15 miljoner böcker.
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
När Google digitaliserar en bok, gör de den i ett mycket trevligt format. Så vi har data, och vi har dessutom metadata. Vi har information om saker som var den gavs ut, vem författaren var, när den gavs ut Det vi gör är att gå genom alla inmatningar och tar bort allt som inte är data av högsta kvalitet. Det vi har kvar är en samling av fem miljoner böcker, 500 miljarder ord, en teckensträng tusen gånger längre än det mänskliga genomet -- en text som, om den skrevs ut, skulle sträcka sig härifrån till månen och tillbaka 10 gånger om -- en skärva av vårt kulturella genom. Det vi förstås gjorde när vi stod inför sådana enorma överdrifter... (Skratt) var vad alla forskare med självrespekt skulle ha gjort. Vi tog en sida från XKCD och sa "Backa, vi ska testa vetenskap".
(Laughter)
(Skratt)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
JM: Vi tänkte förstås att vi först skulle lägga ut data så att folk skulle kunna göra vetenskap av det. Och så tänker vi, vilket data kan vi släppa? Man vill ju förstås ta böckerna och släppa den fulla texten från dessa fem miljoner böcker. Google, och Jon Orwant i synnerhet, visade oss en liten ekvation som vi skulle lära oss. Man har alltså fem miljoner, fem miljoner författare och fem miljoner målsägande i en enorm rättsprocess. Så även om det vore riktigt, riktigt häftigt, så vore det extremt opraktiskt. (Skratt)
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
Så vi gav oss, och tog den väldigt praktiska vägen, som var lite mindre häftig. Vi sa att okej, istället för att släppa den fulla texten så skulle vi släppa statistik om böckerna. Ta till exempel "En glimt av lycka" Det är fyra ord; vi kallar det ett fyrgram. Vi ska tala om hur många gånger ett visst fyrgram dök upp i böcker under 1801, 1802, 1803, och hela vägen till 2008. Det ger oss en tidsserie på hur frekvent den specifika meningen användes över tiden. Vi gör detta för alla ord och fraser som finns i dessa böcker, vilket ger oss en tabell med två miljarder rader som berättar för oss om hur kulturen har förändrats.
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
ELA: De två miljarder raderna, vi kallar dem två miljarder n-gram. Vad säger de oss? De individuella n-grammen mäter kulturella trender. Låt mig ge ett exempel. Låt oss säga att jag lyckas väl (I am thriving), och i morgon vill jag säga hur bra det gått för mig. Då kanske jag säger "Yesterday, I throve" Eller så skulle jag kunna säga "Yesterday, I thrived" Så vilken form ska jag använda? Hur ska jag veta?
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
För ungefär sex månader sedan, var läget på det här området så att du, som exempel, skulle gå fram till den där psykologen med det fantastiska håret, och säga "Steve, du är ju expert på oregelbundna verb. Vad ska jag göra?" Och han skulle säga "Ja, de flesta säger thrived, men en del säger throve". Du vet också, mer eller mindre, att om du skulle gå 200 år bakåt i tiden och fråga den här statsmannen med lika fantastiskt hår, (Skratt) "Tom, vad ska jag säga?" Så skulle han svara "På min tid sa de flesta throve, men en del sa thrived" Så det jag nu ska visa är rådata. Två rader från den här tabellen med två miljarder poster. Det ni ser är frekvensen år för år för "thrived" och "throve" över tiden. Detta är bara två av två miljarder rader. Så hela datasetet är en miljard gånger häftigare än den här bilden.
(Laughter)
(Skratt)
(Applause)
(Applåder)
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
JM: Det finns många andra bilder som säger mer än 500 miljarder ord. Till exempel den här. Om man tar influensa så ser man toppar vid de tider då man vet att influensaepidemier dödade folk runtom i världen.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
ELA: Om du inte är övertygad än, havsnivåerna stiger, likaså koldioxidhalten i atmosfären och den globala temperaturen.
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
JM: Du vill kanske också ta en titt på det här specifika n-grammet, för att tala om för Nietzsche att Gud inte är död, även om du håller med om att han behöver en bättre publicist.
(Laughter)
(Skratt)
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
ELA: Man kan komma åt ganska abstrakta koncept på det här viset. Låt mig berätta en historia om året 1950. Under större delen av historien brydde sig ingen om 1950. År 1700, 1800, 1900, brydde sig ingen. Under 30- och 40-talen brydde sig ingen. Men plötsligt, i mitten av 40-talet, började det snackas. Folk insåg att 1950 skulle hända, och att det kunde bli stort. (Skratt) Men inget fick folk så intresserade av 1950 som 1950 själv. (Skratt) Folk gick omkring som besatta. De kunde inte sluta prata om allt de gjorde 1950, allt de planerade att göra 1950 alla drömmar de ville förverkliga under 1950. Faktum är att 1950 var så fascinerande att under flera år efteråt fortsatte folk prata om alla fantastiska saker som hände, -51, -52, -53. Till slut, 1954, vaknade någon upp och insåg att 1950 nu var ganska passé. (Skratt) Och vips så sprack bubblan.
(Laughter)
(Skratt)
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
Och historien om 1950 är historien om vartenda år som vi har dokumentation om, med en twist, för nu har vi ju de här fina diagrammen. Och eftersom vi har de fina diagrammen, kan vi mäta saker. Vi kan säga "Hur fort spricker bubblan?" Och det visar sig att vi kan mäta det väldigt exakt. Så ekvationer skapades, diagram producerades, och nettoresultatet är att vi ser att bubblan spricker fortare och fortare för varje år som går. Vi tappar intresset för det förgångna allt snabbare.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
JM: Nu lite karriärrådgivning. För er som vill bli berömda, vi kan lära från de 25 mest berömda politiska figurerna, författare, skådespelare och så vidare. Vill du bli berömd tidigt så ska du bli skådespelare, för då börjar berömmelsen stiga i slutet av 20-årsåldern -- du är fortfarande ung, det är riktigt bra. Om du kan vänta lite så ska du hellre bli författare, för då kan du stiga till enorma höjder, som t.ex. Mark Twain, och bli extremt berömd. Men om du vill nå den yttersta toppen bör du senarelägga njutningen av berömmelse och förstås bli politiker. För då blir du berömd i slutet av 50-årsåldern, och väldigt väldigt berömd efteråt. Vetenskapsmän tenderar att bli berömda när de är mycket äldre. Biologer och fysiker tenderar att bli nästan lika berömda som skådespelare. Ett misstag du inte bör göra är att bli matematiker. (Skratt) Blir du det kan du tänka "Bra, jag kommer göra mitt bästa jobb i 20-årsåldern". Men vet du vad? Ingen kommer att bry sig.
(Laughter)
(Skratt)
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
ELA: Det finns lugnande noter bland n-grammen. Här är till exempel Marc Chagalls bana, en konstnär, född 1887. Det ser ut som en normal bana för en berömd person. Han blir mer och mer berömd, förutom om man tittar på tyska. Om man tittar på tyska så ser man något helt bisarrt, något man nästan aldrig ser, och det är att han blir extremt berömd och plötsligt dyker till en lägsta punkt mellan 1933 och 1945, innan han återhämtar sig. Det vi förstås ser här är det faktum att Marc Chagall var en judisk konstnär i nazi-Tyskland.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
Dessa signaler är så starka att vi inte behöver veta att någon blev censurerad. Vi kan lista ut det genom att använda grundläggande signalbehandling. Här är ett enkelt sätt att göra det på. Ett rimligt antagande är att någons berömmelse under en given tidsperiod borde vara ungefär genomsnittet av deras berömmelse innan och deras berömmelse efter. Det är ungefär det vi väntar oss. Så vi jämför det med den berömmelse vi observerar. Och delar den ena med den andra för att skapa något vi kallar förtryck-index. Om förtryck-indexet är väldigt, väldigt, väldigt litet kan det mycket väl vara så att du blir förtryckt. Om det är väldigt stort kanske du drar nytta av propaganda.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
JM: Man kan faktiskt titta på fördelningen av förtryck-index över hela befolkningar. Till exempel, här -- det här indexet är för 5.000 personer utvalda ur engelska böcker utan känt förtryck -- det skulle vara så här, hårt centrerat kring en. Det man förväntar sig är i princip det man observerar. Det här är fördelningen sedd i Tyskland -- väldigt annorlunda, förflyttad åt vänster. Folk talade om det hälften så lite som de borde ha gjort. Men mycket viktigare, fördelningen är mycket bredare. Det är många som hamnar långt till vänster i fördelningen som omtalas 10 gånger mindre än de borde ha omtalats. Men också många långt till höger som verkar dra nytta av propaganda. Den här bilden är stämpeln för censur i bokregistret.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
ELA: Så kulturomik är det vi kallar den här metoden. Det är ungefär som genomik. Förutom att genomik är en lins mot biologin genom fönstret av basernas ordningsföljd i det mänskliga genomet. Kulturomik är något liknande. Användandet av storskalig datainsamling och analys på studier av människans kultur. Och här, istället för att se det genom ett fönster mot genomet, genom ett fönster mot digitaliserade bitar av historien. Det bra med kulturomik är att alla kan göra det. Varför kan alla göra det? Alla kan göra det för att tre killar, Jon Orwant, Matt Gray och Will Brockman på Google såg prototypen av Ngram Viewer och sa "Det här är så kul. Vi måste göra detta tillgängligt för folk". Så på två veckor blankt -- de två veckorna innan vår rapport kom ut -- kodade de en version av Ngram Viewer för allmänheten. Så du kan också mata ett ord eller en fras du är intresserad av och se dess n-gram omedelbart -- och se exempel på alla möjliga böcker där ditt n-gram förekommer.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
JM: Det användes mer än en miljon gånger den första dagen, och detta är den bästa av alla sökningar. Folk ville vara sitt bästa, visa framfötterna. Men det visar sig att på 1700-talet brydde man sig inte om det alls. De ville inte vara sitt bästa, de ville vara sitt bäfta. Det som hände är förstås att det bara är ett misstag. De strävade inte efter att vara mediokra, det är bara det att S skrevs annorlunda, ungefär som F. Google såg inte detta direkt så vi rapporterade om det i en artikel vi skrev. Men det är bara en påminnelse om att, hur kul detta än är, så måste man vara försiktig när man tolkar diagrammen, och man måste anamma vetenskapliga standarder.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
ELA: Folk har använt det här för alla möjliga roliga syften. (Skratt) Vi behöver faktiskt inte ens prata, vi visar bara bilderna och håller tyst. Den här personen var intresserad av frustrationens historia. Det finns olika typer av frustration. Om du slår tån så är det ett en-A "argh" Om Jorden förintas av Vogoner för att göra plats för en interstellär motorväg så är det ett åtta-A "aaaaaaaargh" Den här personen studerade alla "arghs", från ett till åtta A. Och det visade sig att de mindre förekommande "arghs" är de som hör ihop med saker som är mer frustrerande -- förutom, märkligt nog, i början av 80-talet. Vi tror att det kan ha att göra med Reagan.
(Laughter)
(Skratt)
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
JM: Det finns många användningsområden för dessa data, men grunden är att historien digitaliseras. Google har börjat digitalisera 15 miljoner böcker. Det är 12 procent av alla böcker som någonsin givits ut. Det är en rätt stor bit mänsklig kultur. Det finns mycket mer i kultur: manuskript, tidningar, saker som inte är text, som konst och målningar. De kommer att finnas i våra datorer, i datorer runtom i världen. Och när det händer kommer det att förändra vårt sätt att förstå vårt förflutna, vår nutid och människans kultur.
Thank you very much.
Tack så mycket.
(Applause)
(Applåder)