Erez Lieberman Aiden: Každý ví, že jeden obraz vydá za tisíc slov. My na Harvardu jsme si to chtěli ověřit. (smích) A tak jsme dali dohromady tým expertů z Harvardu, MIT, The American Heritage Dictionary, The Encyclopedia Britannica a dokonce i našeho hrdého sponzora, Google. A bádali jsme 4 roky. A přišli jsme na překvapující závěr. Dámy a pánové, jeden obraz nevydá za tisíc slov. Nášli jsme obrazy, které vydají i za 500 miliard slov.
Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Jean-Baptiste Michel: Jak jsme na to přišli? Erez a já jsme přemýšleli nad tím, jak získat celkový obrázek lidské kultury, historie a jejich vývoje v čase. V historii vzniklo mnoho a mnoho knih. Takže jsme si řekli, že nejlepší způsob, jak se z nich poučit, je přečíst všechny ty miliony knih. Takže, na škále úžasnosti je takový postup opravdu, velmi vysoká.. Nicméně je zde i osa X, a to osa praktičnosti. A ta je velmi, velmi nízká.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
(potlesk)
(Applause)
Takže lidé zkouší různé alternativní přístupy, například vzít si pár zdrojů a pečlivě je pročíst. Velmi praktické, ale ani trochu cool. Nejraději bychom získali úžasné a praktické řešení zároveň. No a kousek od nás byla společnost Google, která před pár lety začala projekt digitalizace který toto umožnil. Zdigitalizovali milióny knih. To znamená, že za použití počítačů můžete přečíst všechny ty knihy na jedno kliknutí. To je velmi praktické a naprosto úžasné.
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
ELA: Dovolte mi říci něco o původu těchto knih. Od pradávných časů jsme měli spisovatele. Tito autoři toužili psát knihy. Což se stalo výrazně snazším s vynálezem knihtisku před pár stoletími. Od té doby se autorům podařilo ve 129 milionech různých případů, své knihy vydat. Pokud tyto knihy nezapadly v čase, staly se součástí nějaké knihovny, a mnoho z nich se z těchto knihoven i dostalo, a byly zdigitalizovány Googlem, který má dnes naskenováno asi 15 miliónů knih.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
Když Google naskenuje knihu, převede jí do velmi pěkného formátu. Takže teď máme data a k tomu metadata. Máme informaci například o tom, kde byla kniha vydaná, kdo byl její autor, nebo kdy byla vydaná. A to, co jsme my udělali bylo, že jsme prošli všechny tyto záznamy a vypustili vše co nebylo nejvyšší kvality. A nakonec nám zbyla sbírka 5 miliónů knih, 500 miliard slov, řada písmen tisíckrát delší než lidský genom - text, který, když by byl přepsán, by dosáhl odsud na Měsíc a zpátky desetkrát - opravdový střípek našeho kulturního genomu. Samozřejmě, když jsme čelili tak nehorázné hyperbole.. (smích) udělali jsme to, co by každý výzkumník s trochou sebeúcty udělal. Vzali jsme stránku z XKCD, a řekli: "Ustupte, zkusíme vědu!"
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
(Smích)
(Laughter)
JM: No a pochopitelně jsme si říkali, že nejprve ty data zveřejníme, aby na nich lidi mohli tu vědu dělat. Takže jsme přemýšleli, jaká data můžeme zveřejnit? Pochopitelně chtěli jsme vzít obsah všech těch pěti miliónů knih a všechen zveřejnit. Na to Google, a zejména Jon Orwant, nás seznámili s jednou pěknou rovnicí. Máte pět miliónů knih. To je pět miliónů autorů a pět miliónů žalob je už pořádný proces. Takže, i když by to bylo opravdu úžasné, opět to bylo i opravdu nepraktické. (Smích)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
Takže jsme ustoupili a pojali velmi praktický přístup, který byl však trochu méně úžasný. Řekli jsme si, že namísto plného znění, vydáme o těchto knihách statistiky. Takže například: "Záblesk štěstí" To jsou dvě slova; říkáme tomu dvou-gram. Takže Vám můžeme říci, kolikrát se daný dvou-gram objevil v knihách v roce 1801, 2, 3 až do roku 2008. To nám dá časovou řadu stopující jak často se tato věta v danné době použila. Děláme to se všemi slovy a frázemi, které se v těchto knihách objevují a to nám dá jednu velkou mapu dvou mliard řádků zrcadlící proměny kultury.
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
ELA: Takže tyto řádky nazýváme dvě milardy n-gramů. Co nám umí říct? Jednotlivé n-gramy měří kulturní trendy. Dám Vám příklad. Řekněme, že se mám fajn a druhý den vám o tom chci říci. Mohl bych říci: "Včera mi bylo fajn." Nebo bych mohl říct: "Včera mi bylo dobře." Co bych měl říct správně? Jak se rozhodnout?
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
Přibližně před šesti měsíci by situace v této oblasti vypada asi takto - šli byste za tímto psychologem s úžasným účesem a řekli: "Steve, ty jsi expert na nepravidelná slovesa. Co bych měl říct?" A on by Vám řekl: "No, většina lidí by řekla "fajn" ale někteří by řekli "dobře". Ale, když byste se vrátili, zhruba, 200 let nazpátek, a oslovili byste dalšího odborníka s neméně úžasným účesem: (Smích) "Tome, co bych měl říci?" Řekl by: "Inu, v mé době většina lidí řekne "dobře", ale někteří i "fajn". Takže nyní Vám ukáži původní data. Tyto dvě linky vznikly také z oněch dvou miliard údajů. To, co vidíte je frekvence užití dvou podobných slov rok po roce. A toto jsou pouze dvě z dvou miliard linek. Takže všechna ta data jsou ještě mnohem úžasnější než tento slide.
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
(Smích)
(Laughter)
(potlesk)
(Applause)
JM: Existuje mnoho dalších obrázků, které vydají za 500 miliard slov. Například toto. Když bychom vzali třeba "chřipku", uvidíte maxima v dobách, kdy víte, že velké chřipkové epidemie zabíjely po celém světě.
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
ELA: pokud ještě nejste přesvědčeni, hladiny moře stoupají, stejně jako obsah CO2 v atmosféře či globální teplota.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
JM: Možná byste také stáli o to vidět tento n-gram, který říká Nietzschemu, že Bůh není mrtvý, i když byste mohli usoudit, že by mohl užít lepšího PR agenta..
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
(Smích)
(Laughter)
ELA: S tímto se můžete dostat k pár dosti abstraktním pojmům. Tak například, dovolte mi Vás seznámit s historií roku 1950. Po drtivou většinu celé historie o samotný rok 1950 nikdo ani nezavadil. V roce 1700, 188, ani 1900. Ani trochu. Ani v 30. nebo 40. letech nikoho nezajímal. Najednou, uprostřed 40. let to začalo vřít. Lidé si uvědomili, že přijde rok 1950 a že to může být velké. (Smích) Ale nic lidi nezajímalo na roku 1950 více, než rok 1950. (Smích) Lidé byli celí bez sebe. Nemohli přestat mluvit o všem, co v tom roce dělali, co plánovali do té doby dosáhnout a jaké sny si chtěli splnit v roce 1950. Ve skutečnosti byl rok 1950 tak fascinující, že i v dalších letech lidé vydrželi mluvit o tom, jak úžasné věci se staly i v roce 51, 2, 3.. Až konečně v roce 1954 se lidé z ničeho nic probrali a zjistili, že rok 1950 je poněkud pasé. (Smích) A stejně tak splaskla i ta bublina.
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
(Smích)
(Laughter)
A příběh roku 1950 je příběh každého roku, který jsme zaznamenali trochu jinak, díky těmto krásným tabulkám, co máme. A protože tyto úžasné tabulky máme, můžeme věci měřit. Můžeme říct: "Takže, jak rychle ta bublina splaskla?" Ukázalo se, že to dokážeme změřit velmi přesně. Rovnice byly odvozeny, grafy vytvořeny a čistý výsledek říká, že zjistíme, jak ta bublina splaskává rychleji a rychleji každ rok. O minulost ztrácíme zájem čím dál rychleji.
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
JM: A nyní malý kariérní tip. Pro ty z Vás, kdo se chcete stát slavnými, můžeme vzít inspiraci od 25 nejslavnějších politických osobností, autorů a herců atd. Pokud se chcete stát slavnými spíše hned, měli byste být herci, neboť tehdy zazáříte pravděpodobně před 30. rokem. Jste stále mladí, takže je to skvělé. Pokud jste ochotni si trochu počkat, měli byste být spisovatel, protože pak Vás nejvyšší pocty čekají později, jako třeba úspěch Marka Twaina. Ale pokud se chcete dostat opravdu na vrchol, měli byste odložit uspokojení ještě více a pochopitelně se stát politikem. Slavným se stanete před 60tým rokem a velmi slavným poté. Také vědci tíhnout k slávě ve výrazně starším věku. Jako například biologové a fyzici tíhnou k slávě srovnatelné s herci. Jediná chyba by byla, když byste se dali na dráhu matematika. (Smích) Pokud byste to udělali, mohli byste si říct: "Oh, skvěle. To nejlepší udělám mezi 20-30 lety. Jenže, ouha. Nikoho to nezaujme.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
(Smích)
(Laughter)
ELA: Mezi n-gramy najdeme ještě více varování. Například tady vidíme trajektorii Marc Chagalla, malíře narozeného 1887. Která vypadá jako běžná trajektorie slavné osobnosti. Stává se slavnějším a slavnějším všude, kromě Německa. Pokud se podíváte na Německo, zjistíte něco velmi bizardního, co se jen tak nevidí. A to je to, že se stává extrémně slavným a pak zničeho nic sláva opadne, s nejnižším bodem v letech 1933 až 1945, kdy se odrazil ode dna. A pochopitelně to, co zjistíme je, že Marc Chagall je židovský umělec v nacistickém Německu.
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
Tyto signály jsou ve skutečnosti tak silné, že nepotřebujeme ani vědět, že tu byl někdo cenzorován. Můžeme to zjistit užitím základních metod zpracování dat. Toto je jedna jednoduchá metoda. A sice: rozumné očekávání je, že míra slávy jednoho člověka v daném čase by se měla rovnat cca průměru jeho slávy před tím a potom. Něco takového očekáváme. A srovnáváme to se slávou, kterou pozorujeme. A jen dělíme jedno druhým, abychom se dostali k tzv. indexu potlačení. Pokud je index potlačení velmi, ale velmi nízký, pak asi se jedná o nějaký útisk, cenzuru. Pokud je velmi vysoký, můze to být výsledek propagandy.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
JM: Nyní se můžeme podívat na několik příkladů rozdělení indexů potlačení napříč populací. Zde je například je index potlačení pro asi 5 000 lidí vybraných z anglické literatury, kde nebylo žádné známé potlačení, vypadá takto, v podstatě těsně vycentrované na jedné. To, co očekáváte je to, co vidíte. Toto je rozložení je viděno v Německu - velmi odlišné - posunuté doleva. Lidé o tom mluvili dvakrát méně, než by měli. Ale co je ještě důležitější, rozdělení je mnohem širší. Mnoho lidí se umístilo daleko vlevo na této škále a o nich se mluvilo 10 krát méně, než by se mělo. Mnoho lidí se ale také umístilo daleko v pravo, které podporovala propaganda. Tento obrázek je znak cenzury v knihách.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
ELA: Tuto metodu nazýváme kulturomikou. Je to trochu jako genomika. S tím rozdílem, že genomika je biologie, nahlížena skrze pohled na posloupnosti bází lidského genomu. Kulturomika je podobná. Aplikuje analyzu masivní sbírky dat ke studiu lidské kultury. Zde však namísto pohledu skrze lidský genom nahlížíme člověka skrze digitální kusy historických záznamů. Na kulturomice je skvělé to, že se jí může věnovat každý. Jak to? Je to možné díky třem chlapíkům, Jonovi Orwantovi, Mattotvi Graymu a Willovi Brockmanovi z Googlu, kteří, když viděli prototyp Ngrame Vieweru, řekli, "Tohle je fakt supr, tuhle věc musíme dostat k lidem." Takže dva týdny před tím, než jsme vydali svou studii vytvořili kódy pro verzi Ngram Vieweru, která by byla dostupná všem. Takže i vy si můžete napsat jakoukoliv frázi či slovo, které vás zajímá a vidět je okamžitě v n-gramu a také si zabrouzdat ukázkou všech možných knih, ve kterých se Váš n-gram vyskytuje.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
JM: Během prvního dne byly užity více než miliónkrát a to je nejlepší ze všech statistik. Takže lidé chtějí být co nejlepší a dělat to nejlepší. Ale ukazuje se, že v 18. století se o to lidé o toto nezajímali. Nechtěli být co nejlepší. Chtěli být co "nejlepčí". To, co jste viděli byla samozřejmě chyba. Není to pokus o jakousi prostřednost. Spousta slov se historicky psala s jinými písmeny. Například S jako Beta, v angličtině jako F apod. Google si to samozřejmě sám od sebe nepřeložil a tak jsme to popsali ve vědedckém článku, který jsme vydali. Ale ukázalo se, že je to připomínka, toho, že i když je to celé velká zábava, když interpretujete tyto grafy, musíte být velmi opatrní a použít to nejlepší co věda nabízí.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
ELA: Lidé to využívali pro mnoho rozličných zábavných účelů. (Smích) Ve skutečnosti nebudeme muset ani moc mluvit, jen Vám ukážeme zbylé slidy a můžeme mlčet. Tato osoba se zajímala o historii frustrace. Jsou různé typy frustrací. Pokud se praštíte do palce, zakřičíte "argh". Pokud planetu Zemi zničí Vogoni, aby si udělali prostor pro mezihvězdný bypass, bude to osmimístné "aaaaaaaargh." Tato osoba studovala všechny "arghy." od jednoho po osmimístné. A ukázalo se, že méně frekventovaná "argh" se pochopitelně váží k více frustrujícím situacím, s jednou zvláštní výjimkou v 80. letech. Domníváme se, že to bude mít něco společného s Reaganem.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
(Smích)
(Laughter)
JM: Tato data mají mnohotvárné využití, ale základ je vždy digitalizace historických záznamů. Google začal a zdigitalizoval 15 miliónů knih. To je 12 procent všech knih, které kdy byly vydané. To je slušný kousek z lidské kultury. Ale kultura má mnohem víc: manuskripty, noviny, věci, které nejsou v textech - jako umění a obrazy. Ale všechny se nalézají v nějaké podobě v našich počítačech kolem světa. A až budou všechny zdigitalizované, nastane změna v chápání naší minulosti, současnosti a kultury lidstva.
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
Velice Vám děkuji.
Thank you very much.
(potlesk)
(Applause)