Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Ерез Либерман Ејден: Сите знаат дека една слика вреди илјада зборови. Но, ние од Харвард се прашувавме дали ова навистина е така. (смеа) Па, составивме тим од експерти од Харвард, МИТ, Американскиот речник на зборови, Енциклопедија Британика, па дури и од нашиот горд спонзор Гугл. Внимателно работевме на ова околу четири години. И дојдовме до неверојатен заклучок. Дами и господа, сликата не вреди илјада зборови. Всушност, најдовме некои слики кои вредат 500 милијарди зборови.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
Жан-Батист Мишел: Како дојдовме до овој заклучок? Јас и Ерез размислувавме како да добиеме голема слика за човечката култура и човечката историја, за промените низ времето. Досега се напишани многу книги и си рековме дека најдобриот начин да учиме од нив е да ги прочитаме сите тие милиони книги. Се разбира, доколку постои скала на луди нешта, ова мора да се рангира екстремно високо. Проблемот е што истовремено постои и Х оска, која е многу практична оска. На неа сме многу ниско.
(Applause)
(аплауз)
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
Луѓето често користат алтернативен пристап, т.е. земаат неколку извори и ги читаат многу внимателно. Ова е многу практично, но не и многу луда работа. Она што навистина сакате да го направите е да дојдете до лудиот, но и практичен дел од овој простор. Излезе дека има една компанија преку реката што се вика Гугл, која неколку години претходно започнала проект за дигитализација, кој би можел да го овозможи овој пристап. Тие имаат дигитализирано милиони книги. Тоа значи дека можат да се користат методи за пресметка кои ќе овозможат читање на сите книги со еден клик. Тоа е многу практично и ептен лудо.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
Да ви кажам малку за тоа од каде доаѓаат книгите. Уште од памтивек постоеле автори, кои настојувале да пишуваат книги, што станало значително полесно со развојот на машината за печатење пред неколку века. Оттогаш, авторите успеале во 129 милиони поединечни случаи да објават книги. Доколку овие книги не се изгубени, тогаш се наоѓаат некаде во некоја библиотека. Многу од овие книги се дигитализирани од страна на Гугл, кој досега има скенирано 15 милиони книги.
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
Кога Гугл дигитализира книга, ја става во навистина убав формат. Сега ги имаме податоците, плус имаме и метаподатоци, т.е. каде била објавена книгата, кој е авторот, кога била објавена. Потоа, ги прегледавме сите овие податоци и елиминиравме сè што не е со највисок квалитет. Она што ни останува е колекција од пет милиони книги. 500 милијарди зборови. Низа од знаци илјада пати подолга од човечкиот геном - текст кој, кога би бил испишан, би се протегал од овде до Месечината и назад 10 пати последователно - вистински сведок на нашиот културолошки геном. Се разбира, она што тогаш го направивме, соочени со една ваква безгранична хипербола... (смеа) е она што секои истражувачи со самопочит би го направиле. Како и во XKCD стриповите, рековме „Настрана, ве молиме. Одиме со наука.“
(Laughter)
(смеа)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
Се разбира, си рековме „Ајде, прво да ги објавиме податоците, за луѓето да можат научно да ги обработат“. Се прашавме кои податоци да ги објавиме. Секако, би сакале да го објавите целиот текст од овие пет милиони книги. Гугл, а особено Џон Орвант, ни кажа една мала равенка што требаше да ја научиме. Значи, имате пет милиони. Тоа се пет милиони автори. А, тоа се пет милиони тужители. И макар што тоа би било навистина супер, сепак е многу непрактично. (смеа)
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
Повторно се предомисливме и се насочивме кон попрактичниот пристап, кој не е толку луд. Па, наместо да го објавиме целиот текст, решивме да ја објавиме статистиката за книгите. Земете, на пример, „Блесок на среќа“. Тоа се три збора. Ние го викаме три-грам. Ќе ви покажеме колку пати одреден три-грам се појавил во книгите од 1801, 1802, 1803, сè до 2008 година. Тоа ни дава временска низа за тоа колку често оваа реченица била користена низ времето. Тоа го повторивме со сите зборови и фрази што се појавуваат во овие книги, и така добивме голема табела од две милијарди низи кои ни кажуваат како се менувала културата низ времето.
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
Значи, имаме две милијарди низи, или, како што ние ги викаме, два милијарди ен-грами. Што ни кажуваат тие? Поединечните ен-грами ги мерат културолошките трендови. Да ви дадам еден пример. Да претпоставиме дека просперирам и утре сакам да ви кажам колку добро ми одело. Можам да речам „Вчера, напредував“. Или, можам да кажам „Вчера, просперирав“. Кој збор да го употребам? Од каде да знам?
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
Од пред околу шест месеци, со најмодерните алатки можете, на пример, да му се обратите на овој психолог со неверојатна фризура и да го прашате „Стив, ти си експерт за неправилни глаголи. Што да правам?“. А, тој ќе ви рече „Па, повеќето луѓе велат просперирав, но некои луѓе велат напредував.“ Исто така знаете, повеќе или помалку, дека ако се вратите за 200 години назад во времето и го прашате овој државник со еднакво неверојатна фризура... (смеа) „Том, што да правам?“, тој ќе ви каже „Па, во мое време, повеќето луѓе напредуваа, но некои просперираа“. Сега ќе ви ги покажам необработените податоци. Два реда од оваа табела со две милијарди записи. Ја гледате фреквенцијата по години на „просперира“ и „напредува“ низ времето. Ова се само два реда од две милијарди редови. Значи, вкупниот сет на податоци е милијарди пати поневеројатен од овој слајд.
(Laughter)
(смеа)
(Applause)
(аплауз)
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
Постојат многу други слики кои вредат 500 милијарди зборови. На пример, оваа. Да го земеме грипот. Ќе видите скокови во времето кога знаете дека големи епидемии на грип убивале многу луѓе низ светот.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
Ако сè уште не сте убедени, нивото на морињата расте, како и атмосферскиот јаглерод диоксид и глобалната температура.
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
Можеби ќе сакате да го погледнете и овој ен-грам, за да му кажете на Ниче дека Бог не е мртов, иако можеби ќе се согласите дека му треба подобра реклама.
(Laughter)
(смеа)
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
Можете да налетате на некои прилично апстрактни концепти. На пример, да ви ја кажам историјата за 1950-тата година. Претежно во минатото на никого не му било гајле за 1950. Во 1700, во 1800, во 1900... на никого не му било гајле. Низ 30-тите и 40-тите на никого не му било гајле. Наеднаш, во средината на 40-тите, почнало нешто да се шушка. Луѓето сфатиле дека ќе се случи 1950 година и дека тоа може да биде доста важно. (смеа) Но, ништо не ги заинтересирало луѓето за 1950 година како годината 1950. (смеа) Луѓето шетале наоколу преокупирани. Не можеле да престанат да зборуваат за сите работи кои ги направиле во 1950, за сите работи што планирале да ги направат во 1950, сите соништа за она што сакале да го постигнат во 1950. Всушност, 1950 била толку фасцинантна што со години подоцна луѓето продолжиле да зборуваат за сите неверојатни нешта што се случиле тогаш. Во '51, '52, '53... Конечно во 1954, некој се разбудил и сфатил дека 1950 одамна поминала. (смеа) И така, одеднаш, целата работа спласнала.
(Laughter)
(смеа)
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
Приказната за 1950 година е приказната за секоја година што ја имаме евидентирано, со мала промена, бидејќи сега ги имаме овие убави табели. Па, така, можеме да ги мериме нештата. Може да речеме „Колку брзо спласнала работата?“. Излезе дека многу прецизно можеме да го измериме тоа. Беа изведени равенки, беа направени графикони, и крајниот резултат ни говори дека работите спласнуваат сè побрзо и побрзо со секоја измината година. Сега побрзо губиме интерес за минатото.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
Еден мал професионален совет. Оние од вас кои сакаат да бидат славни може да учат од 25-те најславни политички фигури, автори, актери и така натаму. Ако сакате да станете славни кога сте помлади, треба да бидете актер, бидејќи кај нив славата врвот го достигнува кон крајот на 20-тите години од животот. Сè уште сте млади, баш супер. Ако можете да почекате малку, тогаш треба да бидете автор, бидејќи тогаш ќе ги достигнете најголемите височини, како Марк Твен, на пример. Тој е екстремно славен. Но, ако сакате да дојдете до самиот врв, тогаш треба да го одложите задоволството и, се разбира, да станете политичар. Тогаш ќе станете славни кон крајот од вашите 50-ти, а потоа ќе станувате уште пославни. Научниците, исто така, стануваат славни кога се многу постари. Како на пример, биолозите и физичарите можат да бидат славни речиси како актерите. Но, никако не смеете да станете математичар. (смеа) Ако го направите тоа, ќе си мислите „Супер. Најголемите резултати ќе ги постигнам во моите 20-ти.“ Но, никому нема да му е гајле.
(Laughter)
(смеа)
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
Има и потрезвени податоци помеѓу ен-грамите. На пример, еве ја траекторијата за Марк Шагал, уметник роден во 1887. Ова изгледа како нормална траекторија за една славна личност. Тој станува сè пославен. Но, не ако барате на германски. Ако барате на германски, ќе видите нешто сосема бизарно, нешто што ретко се гледа. Тој станува екстремно славен, потоа наеднаш славата му паѓа, достигнувајќи најниска точка од 1933 до 1945, пред пак да се врати. Се разбира, од ова гледаме дека Марк Шагал бил еврејски уметник во нацистичка Германија.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
Овие показатели се толку силни, што не мора да знаеме дали некој бил цензуриран. Самите може да го откриеме тоа преку просто анализирање на показателот. Еве едноставен начин како да се направи тоа. Разумно очекување е дека нечија слава во еден даден временски период треба да биде приближно колку и просекот од нивната слава пред и по тој период. Тоа би го очекувале. Тоа ќе го споредиме со фактичката слава. Едното го делиме со другото и добиваме т.н. индекс на супресија (потиснување). Доколку овој индекс е многу, многу мал, тогаш веројатно сте биле потиснати. Доколку е многу голем, тогаш можеби користите пропаганда.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
Можете да ја погледнете дистрибуцијата на индексите на супресија низ цели популации. На пример, овде... ова е индекс на супресија за 5.000 луѓе добиен од англиските книги за кои нема супресија. Тој изгледа вака. Во основа, цврсто е центриран на еден. Го гледате тоа и што би го очекувале. Оваа дистрибуција е од Германија. Многу е различна. Поместена е на лево. Луѓето за нив зборувале два пати помалку отколку што би требало. Но, што е уште поважно, дистрибуцијата е многу поширока. Има многу луѓе на самиот лев крај од дистрибуцијата, за кои е зборувано десет пати помалку одошто е нормално. Но, има и многу луѓе на десниот крај, на кои изгледа им помогнала пропаганда. Оваа слика е показател за цензурата на книгите.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
Овој метод го нарекуваме културомика. Сличен е на геномиката, со таа разлика што со геномиката ја разбираме билогијата, преку базните секвенци во човечкиот геном. Културомиката е слична. Тоа е применета анализа врз податоци од голем размер со цел да се проучи човечката култура. Наместо да гледаме низ призмата на геномот, овде гледаме низ призмата на дигитализираните историски податоци. Она што е супер кај културомиката е што секој може да ја примени. Зошто? Затоа што тројца момци, Џон Орвант, Мет Греј и Вил Брокман од Гугл, го видоа прототипот за „Ngram Viewer“ и рекоа „Ова е баш забавно. Мора да го направиме достапно за луѓето.“ Во период од две недели, пред да излезе нашата статија, тие направија верзија на „Ngram Viewer“ наменета за широката јавност. Па, така и вие може да напишете збор или фраза што ве интересираат и веднаш да го видите ен-грамот за нив. Исто така, можете да ги пребарате и книгите во кои се појавува вашиот ен-грам.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
Во само првиот ден оваа алатка беше искористена преку милион пати. Тоа е најдоброто од сите пребарувања. Луѓето сакаат да бидат најдобри што можат, да дадат сè од себе. Но, изгледа дека во 18-тиот век на луѓето воопшто не им било гајле за тоа. Не сакале да бидат најдобри (beSt), туку најдобли (beFt). Се разбира ова е само грешка. Не се работи за стремеж кон медиокритет, туку тогаш буквата S се пишувала поинаку, слично на F. Гугл го немаше забележано ова и затоа ние го спомнавме во трудот што го објавивме. Ова треба да биде само потсетник дека, иако ова е многу забавно, кога ги интерпретирате графконите мора да бидете многу внимателни и мора да ги примените основните стандарди на науката.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
Луѓето го користат ова за разни забавни цели. (смеа) Нема потреба да зборуваме. Само ќе ви ги покажеме слајдовите и ќе молчиме. Овде некој бил заинтересиран за историјата на фрустрацијата. Има разни видови на фрустрација. Ако си го удрите палецот, тоа е „уф“ со едно у. Доколку Земјата е уништена од страна на Вогоните за да се изгради меѓуѕвездена обиколница, тоа е „уф“ со осум у. Оваа личност ги проучувала сите видови на „уф“, со од една до осум букви у. Се покажало дека поретко се користат оние „уф“ кои кореспондираат на нештата што се пофрустрирачки, освен, за чудо, во раните 80-ти. Мислиме дека тоа некако е поврзано со Реган.
(Laughter)
(смеа)
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
Овие податоци може да се користат на разни начини, но она што е најважно е дека историските записи се дигитализираат. Гугл започна со дигитализација на 15 милиони книги. Тоа се 12 проценти од сите книги што некогаш биле објавени, што е значаен дел од човечката култура. Но, културата е многу повеќе: имаме ракописи, весници, податоци кои не се текстуални, како уметноста и сликите. Сите тие треба да се најдат на нашите компјутери, на компјутерите низ целиот свет. Тоа ќе го смени начинот на кој ги разбираме нашето минато, нашата сегашност и човечката култура.
Thank you very much.
Ви благодарам многу.
(Applause)
(аплауз)