Ерез Лийберман Айден: Всеки знае, че една картина струва хиляда думи. Но ние от Харвард се чудехме дали това наистина е вярно. (Смях) Затова събрахме екип от експерти, който включва Харвард, МИТ, Американския речник "Херитидж", енциклопедия "Британика" и дори гордите ни спонсори- Гугъл. Размишлявахме върху това около 4 години и стигнахме до стряскащ извод. Дами и господа, една картина не струва хиляда думи. Всъщност намерихме няколко картини, които струват 500 милиарда думи.
Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.
Жан Батист Мишел: Как стигнахме до този извод? Ерез и аз търсихме начини да добием пълна представа за човешката култура и история-как се променят във времето. Много книги са били написани през вековете. Та си мислехме: "Добре, най-добрият начин да се научим от тях е да прочетем всички тези милиони книги" Разбира се, ако има степен колко невероятно е това, това трябва да е доста, доста голяма степен. Проблемът е, че има ос Х за това, която е практическата ос. Това е много, много ниско.
Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.
(Аплодисменти)
(Applause)
Сега хората използват алтернативен подход, който включва намирането на няколко източника и прочитането им много внимателно. Това е много практично, но не толкова невероятно. Това, което наистина искаш да направиш, е да стигнеш до невероятната, но практична част в тази област. Оказва се, че има компания отвъд реката на име Гугъл, която е била започнала преди няколко години проект по дигитизация, който може и да осъществи този подход. Те са направили електронен вариант на милиони книги. Това означава, че човек може да използва компютърни методи, за да чете всяка книга само с едно кликване. Това е много практично и изключително страхотно.
Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.
ЕЛА: Нека Ви кажа малко повече за това, откъде идват книгите. Имало е писатели още от време оно. Тези писатели са се опитвали всячески да пишат книги. И това станало доста по-лесно с изобретяването на печатната машина преди няколко века. Оттогава писателите са получили 129 милиона различни възможности да публикуват книги. Ако тези книги не бъдат изгубени някъде в историята, то те ще бъдат някъде в библиотека и много от тези книги биват намирани в библиотеките и дигитализирани от Гугъл. Гугъл вече е сканирал над 15 милиона книги до този момент.
ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.
Когато Гугъл дигитализира една книга, те я правят в много добър формат. Сега имаме данните, освен това имаме метаданни. Имаме информация къде е публикувана, кой е авторът, кога е била публикувана. Какво направихме ние - прегледахме всички тези архиви и изхвърлихме всичко, което не е най-високо качество. Това, което получихме, е една колекция от 5 милиона книги, 500 милиарда думи, наниз от знаци хиляда пъти по-дълъг от човешкия геном- текст, който ако бъде написан, ще е дълъг от тук до Луната и обратно, умножено по 10 пъти- истински къс от нашия културен геном. Разбира се, това, което направихме, изправени пред толкова голяма хипербола, (Смях) беше това, което всеки себеуважаващ се изследовател би направил. Взехме една страница от ХКСД и казахме: "Стойте назад! Ще изпробваваме наука."
Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."
(Смях)
(Laughter)
ЖМ: Сега, разбира се, си мислим първо да направим данните свободни, за да могат хората да правят наука с тях. Мислим си какви данни можем да направим достъпни? Разбира се, че искате да вземете книгите и да пуснете пълните текстове на тези 5 милиона книги по нета. Гугъл и Джон Оруънт най-вече ни казаха едно малко уравнение, което трябва да научим. И така, имаш 5 милиона книги, което е 5 милиона автора, а 5 милиона ищци е един голям съдебен процес. И въпреки че това би било наистина много, много готино, отново, това е много, много непрактично. (Смях)
JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)
Отново ние леко отстъпихме и предприехме практичния подход, който беше по-малко готин. Казахме си: "Добре, вместо да пуснем пълния текст, ще пуснем в интернет пространството статистика за книгите. Така, вземете например "Лъч щастие". това са 4 думи, наричаме това 4-грама. Ще ви кажем колко пъти точно определена 4-грама се е появявал в книги от 1801, 1802, 1803, чак до 2008. Това ни дава времеви серии, посочващи колко пъти точно това изречение е било използвано във времето. Направихме това за всички думи и фрази, които се появяват в тези книги. Това ни дава една голяма таблица от 2 милиарда реда, която ни казва как културата ни се е променяла.
Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.
ЕЛА: Тези 2 милиарда реда наричаме 2 милиарда н-грами. Какво ни казват те? Индивидуалните н-грамови измерват културните тенденции. Нека ви дам един пример. Нека предположим, че аз преуспявам. Утре искам да ви кажа колко добре се справих. И така, може да кажа: "Вчера успях." Алтернативно мога да кажа: "Вчера преуспях." Добре, кое да използвам? Как да разбера?
ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?
От преди около 6 месеца състоянието на изкуството в тази сфера би било такова, например, че да ви накара да отидете при психолог с невероятна коса и да кажете: "Стийв, ти си експерт по неправилни глаголи. Какво да правя?" И той би ви казал: "Повечето хора казват успях, но някои хора казват преуспях." И ти знаеше малко или много, че ако се върнеш назад 200 години и попиташ същия човек със също толкова хубава коса, (Смях) "Том, какво би трябвало да кажа?" Той би ви отговорил: "По мое време повечето хора успяваха, но някои преуспяха." Сега ще ви покажа само сухи данни. Два реда от тази таблица с 2 милиарда реда. Това, което виждате, е година след година използване на "успял" и "преуспял" през времето. Това са само 2 от 2 милиарда реда. Цялата база данни е един милиард пъти по-готина от този слайд.
As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.
(Смях)
(Laughter)
(Аплодисменти)
(Applause)
ЖМ: Има много други картини, които струват 500 милиарда думи. Например, тази. Ако вземете инфлуенца, ще надникнете във времето, когато сте знаели, че големи епидемии са убивали хора по целия глобус.
JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.
ЕЛА: Ако още не сте убеден нивото на морското равнище се покачва, както и атмосферният въглероден двуокис и глобалната температура.
ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.
ЖМ: Може би искате да видите и точно тази н-грама и това е за да кажем на Ницше, че Господ не е мъртъв, въпреки че ще се съгласите, че ще се нуждае от по-добър публицист.
JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.
(Смях)
(Laughter)
ЕЛА: Може да достигнете до някои доста абстрактни идеи с този начин на мислене. Например, нека ви кажа историята на 1950 година. Горе-долу за по-голямата част от историята на никой не му пукаше за 1950. През 1700, 1800, 1900 никой не се интересуваше. През 30-те и 40-те години на никой не му пукаше. Изведнъж, по средата на 40-те започна едно шумене. Хората осъзнаха, че 1950 ще се случи и че може би ще е голямо. (Смях) Но нищо не заинтересова хората през 1950 така, както годината 1950. (Смях) Хората ходеха наоколо обсебени. Не можеха да спрат да говорят за всичките неща, които са направили през тази година. за всичките неща, които са смятали да направят през 1950, за всичките мечти, които са искали да постигнат през 1950. Всъщност,1950 беше толкова пленителна, че за години напред хората продължаваха да говорят за всичките невероятни неща, които са се случили през 1951, 1952, 1953. Най-накрая през 1954 някой се събуди и осъзна, че 1950 е минала някакси пасивно, (Смях) И просто така балонът се спука.
ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.
(Смях)
(Laughter)
А историята на 1950 е историята на всяка година, която имаме в архив, с малък обрат, защото сега имаме тези хубави таблици. И защото имаме тези таблици, можем да измерваме неща. Можем да кажем: "Колко бързо се пука балонът?" И се оказва, че можем да измерим това доста бързо. Изведохме уравнения, направихме диаграми и чистият резултат е, че балонът се пука по-бързо и по-бързо с всяка следваща година. Загубваме интерес в миналото все по-бързо.
And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.
ЖМ: И сега един малък съвет относно кариерата. За тези от вас, които искат да станат известни, могат да се поучат от 25 от най-известните политици, писатели, актьори и т.н. Затова ако искате да станете известен на по-ранен етап, трябва да станете актьор, защото при тях славата расте от края на 20-те им години. Все още сте млад, невероятно е. Ако може да чакате, трябва да станете писател, защото тогава се изкачвате до големи висоти, като Марк Твен, например: изключително известен. Но ако искате да достигнете до самия връх, трябва да отложите овациите и, разбира се, да станете политик. Така ще станете известен към края на 50-те си години и ще станете много, много известен след това. Учените също стават популярни, когато остареят много. Например, биолози и физици стават почти толкова известни, колкото актьорите. Една грешка, която не трябва да допускте, е да станете математици. (Смях) Ако направите това, може да си помислите: "О, страхотно, ще създам най-добрия си труд, когато съм на 20." Но познайте какво, на никого няма да му пука.
JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.
(Смях)
(Laughter)
ЕЛА: Има по-изтрезвяващи бележки сред н-грамите. Например, ето траекторията на Марк Шагал, артист, роден през 1887. И това изглежда като нормалната траектория на един известен човек. Той става по-известен, и по-известен, и по-известен освен ако не гледате в немския език. Ако гледате в немския език, ще забележите нещо много странно, нещо, което почти не се забелязва никъде, е това че той става много известен и изведнъж тръгва стремглаво надолу, и стига до най-ниската точка между 1933 и 1945, преди да се отблъсне отново. И разбира се, това, което наблюдаваме, е фактът, че Марк Шагал е бил еврейски артист в нацистка Германия.
ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.
Тези сигнали са толкова силни, че не ни трябва да знаем, че някой е бил цензуриран. Всъщност можем да достигнем до този извод, като използваме елементарно преработване на сигналите. Ето един лесен начин да го направите. Е, разумното очакване е, че славата на някого в даден период от време би трябвало да бъде грубо средното от тяхната слава преди и след. Та, това е горе-долу какво очакваме. И сравняваме това със славата, която наблюдаваме и просто разделяме едната на другата, за да получим нещо, което наричаме индекс на потискане. Ако този индекс е много, много, много малък, тогава може би сте потиснати. Ако е много голям, тогава най-вероятно се възползвате от пропаганда.
Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.
ЖМ: Сега може да наблюдавате разпределението на тези индекси сред цели народи. Например, тук- този индекс на потискане е за 5 000 души, избрани от английски книги, къдете няма познат натиск- би било така-силно концентриран върху един. Това, което очаквате, е горе-долу това, което наблюдавате. Това е разпределение, както в Германия- много различно, изместено вляво. Хората говореха за него 2 пъти по-малко, а и така е трябвало да бъде. Но много по-важно е, че разпространението е трябвало да бъде по-обширно. Има много хора, които попадат в крайно ляво при това разпределение. И за тях се е говорило 10 пъти по-малко, отколкото е трябвало. Но пък тогава много хора в крайно дясно изглежда имат полза от пропаганда. Тази картина е характерна черта за цензура в книгите.
JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.
ЕЛА: Наричаме културомикс този метод. Прилича на геномикс. Само че геномиксът е леща в биологията през прозорецът на редицата от бази в човешкия геном. Културомиксът е подобен. Това е приложението на огромна база данни анализи за изучаване на човешката култура. Тук, вместо през леща на геном, използваме леща на дигитализирани късове на човешката история. Невероятното нещо на културомиксА е това, че всеки може да го прави. А защо това е така? Всеки може да го прави, защото 3 момчета, Джон Оруънт, Мат Грей и Уил Брокман в Гугъл, видяха прототипа на Нграм Вюър, и казаха: "Това е толквоа забавно. Трябва да направим това достъпно за хората." И така за 2 седмици -2 седмици, преди да ни излезе докладът, те измислиха версия на програмата за широката публика. И така всеки може да напише думата, която го интересува, и да види нейната н-грама веднага. А също така и да търси примери на най-различни книги, в които се появява н-грамата.
ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.
ЖМ: Това беше изпробвано над милион пъти на първия ден и това е наистина най-хубавото от всички питания. Хората, които иската да бъдат най-добри, слагат най-добрия си крак напред. Но изглежда през 18 век на хората не им е пукало за това изобщо. Те не са искали да са най-добре, а са искали да са най-добрите. Излиза, че просто е станала грешка. Не е този стремеж за посредственост, а просто С се е изписвало различно, малко като Ф. Но разбира се, Гугъл не са знаели това на времето, затова отбелязахме това в научната статия, която написахме. Но изглежда това само напомня, че въпреки това да е много забавно, когато тълкувате тези графи, трябва да сте много внимателни, и трябва да усвоите основните стандарти в науките.
JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.
ЕЛА: Хората са използвали това за всякакви цели. (Смях) Всъщност, няма да приказваме, а просто ще ви покажем всичките слайдове и ще замълчим. Този човек се е интересувал от историята на раздразнението. Има различни видове раздразнение. Ако си прободеш пръста на крака, това е "Ауч" с едно A. Ако Земята бъде унищожена от Вогони, за да направят път за междузвезден път, това е "Aааааааргхх" с 8 А-та. Този човек изучава всички А-та, от едно до осем. Излиза, че по-малко използваното "аргх" са, разбира се, тези, които съответстват на неща, които са по-дразнещи, освен, странно, през 80-те. Мислим, че това има нещо общо с Рейгън.
ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.
(Смях)
(Laughter)
ЖМ: Тези данни имат много приложения, но най-важното е, че историческте архиви се дигитализират. Гугъл е започнал да прави това с 15 милиона книги. Това са 12% от всички публикувани книги. Това е огромен къс от човешката култура. Има много повече в културата: ръкописи, вестници, неща, които не са текстове, като изкуството и картините. Всичко това е на нашите компютри, на компютри по целия свят. И когато това се случи, това ще промени начина ни на разбиране на нашето минало, настояще и бъдеще.
JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.
Благодаря ви много.
Thank you very much.
(Аплодисменти)
(Applause)