Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.

Erez Lieberman Aiden: Të gjithë e dinë se një fotografi vlen sa një mijë fjalë. Por ne në Harvard po e vemë në pikëpyetje vërtetësinë e kësaj shprehje. (Të qeshura) Kështuqë ne e kemi mbledh nji ekip profesionistësh, nga Harvard, MIT, Fjalori i Trashëgimisë Amerikane (The American Heritage Dictionary), Enciklopedia Britanika dhe sponsorët tanë të nderuar Google Ne kemi menduar thellë për këtë çështje për katër vite të tëra. Dhe kemi arritur në konkludime befasuese. Zonja dhe Zotërinj, një fotografi nuk vlen sa një mijë fjalë. Në fakt, ne kemi hasur në disa fotografi të cilat vlejnë sa 500 miliardë fjalë.

Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.

Jean-Baptiste Michel: Pra si kemi arritur deri te ky konkludim? Erezi dhe une po mendonim për mënyrat si ta gjejmë nji fotografi e cila përfshin kulturën e njerëzimit dhe historinë e njerëzimit: duke ndryshuar nëpër kohë. Gjatë viteve janë shkruar shumë libra. Ne po mendonim, mënyra më e mirë për të mësuar prej tyre është ti lexosh të gjithë këta miliona libra. Tani natyrisht nëse do të mund të masnin me ndonjë shkallë se sa mbresëlënëse do të ishte kjo gjë, sigurisht do ta rendisnim tej, tej lartë. Tani problemin qëndron se aty gjindet nji bosht X, i cili ështe boshti praktik. Kjo është shumë, shumë e ultë.

(Applause)

(Duartrokitje)

Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.

Tani njerëzit tentojnë të përdorin nji qasje alternative, e cila përfshin grumbullimin e disa burimeve dhe leximin e tyre me kujdes. Kjo gjë është tejet praktike por jo edhe aq mbresëlënëse. Se çka duam të bëjmë është t'arrijmë te pjesa mbresëlënëse e poashtu praktike e kësaj hapësire. Fillimisht kompania e quajtur Google kishte filluar një projekt të digjitalizimit (të të dhënave) disa vite më herët që veç do ta mundësonte këtë qasje. Ata kanë digjitalizuar miliona libra. Kjo do të thotë, duke shfrytëzuar metodat komputative mundemi ti lexojmë të gjithë librat me një shtypje butoni. Kjo gjë është tejet praktike dhe më se mbresëlënëse.

ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.

ELA: Më lejoni t'ju rrëfej pak se si kanë ardhur librat. Qysh se nuk mbahet mend kanë ekzistuar autorët. Këta autorë janë përpjekur të shkruajnë libra. Mundimi i tyre është lehtësuar në mënyrë të konsiderueshme me zhvillimin e makinave shtypëse disa shekuj më herët. Që nga at'herë autorë kanë fituar në 129 milionë raste të ndryshme libra të botuar. Tani nëse këto libra nuk janë të humbur nëpër kohëra, ato duhet të jenë diku në ndonjë bibliotekë, dhe shumë nga këto libra janë huazuar nga bibliotekat dhe janë digjitalizuar nga Google, e cila i ka skenuar 15 milionë libra deri sot.

Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."

Tani, kur Google digjitalizon një libër, ata e vendosin në një format shumë të mirë. Tani kemi të dhëna (data) dhe poashtu metatëdhëna (metadata). Ne kemi informacione për gjër si: ku është botuar libri, kush ka qenë autori dhe kur është botuar. Se çka bëjmë ne është që i kontrollojmë gjithë të dhënat dhe i përjashtojmë gjithëçka që nuk është e dhënë e kualitetit më të lartë. Neve na mbetet një koleksion i pesë milionë librave, 500 miliardë fjalëve, një varg karakteresh një mijë herë më i gjatë se gjenomi i njeriut -- një tekst i cili po të shkruhej do të zgjatej sa prej këtu gjer në Hënë e prapë mbrapa deri këtu edhe atë 10 herë-- një copë e thyer e gjenomit tonë kulturor. Natyrisht çka kemi bërë ne kur jemi ballafaquar me atë hiperbollë të tmerrshme... (Të qeshura) ishte ajo që çdo hulumtues i respektueshëm do të bënte. Ne morrëm një faqe nga XKCD dhe kemi thënë: "Mbajuni. Ne do të provojmë shkencën."

(Laughter)

( Të qeshura)

JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)

JM: Natyrisht, ne po mendonim, do ti vendosnim të dhënat ashtu që njerëzit ti përdorin për shkencë ato. Tani po mendonim, cilat të dhëna mund ti nxjerrim? Natyrisht, ju do të dëshironi ti merrni librat dhe ti publikoni tekstin e plotë të pesë milionë librave. Tani Google, dhe Jon Orwant në veçanti na kanë treguar një ekuacion të cilin duhet ta mësojmë. Kështuqë nëse keni pesë milionë autorë dhe pesë milionë paditës formojnë një paditje masive. Edhe pse kjo do të ishte me të vërtetë e mrekullueshme, megjithatë do të ishte tejet jo praktike. (Të qeshura)

Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.

Kështu qe ne përsëri u zbrapsëm, dhe u drejtuam me një qasje më praktike e cila ishte më pak mbresëlënëse. Dhe thamë, në vend se ta publikojmë tekstin e plotë, ne do te publikojmë statistikat rreth librave. Për shembull " A gleam of happiness" ("Një dritë e zbehtë e lumturisë"). Përmban katër fjalë, ne mund ta thërrasim një katër-gram. Tani do t'ju rrëfejmë se sa herë një katër-gram i veçantë është shfaqur nëpër libra në vitet 1801. 1802, 1803, e gjer në vitin 2008. Kjo na sjell neve një seri e cila na tregon frekuencën e përdorimit gjatë kohës të një fjalie të veçantë. E kemi bërë këtë gjë për të gjitha fjalët dhe frazat të cilat shfaqen në ato libra, dhe kjo na sjell një tabelë të madhe me dy miliardë linja të cilat na rrëfejnë se si kultura ka ndryshuar.

ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?

ELA: Kështu që këto dy miliardë linja, ne i kemi quajtur dy miliardë n-grame. E çka na rrëfejnë ato neve? N-gramet individuale masin trendet kulturore. Ta marr një shembull për t'ju ilustruar. Le të supozojmë se unë jam duke u zhvilluar, dhe të nesërmen do të dëshiroja t'ju rrëfej sa kam arritur. Kështuqë mund të them , "Dje përparova" (Shënim: Mirret shembull trajta e foljeve të rregullta dhe parregullta në gjuhën angleze). Ose mund të thosha, "Dje kam përparuar". Cilën formë do të duhej ta përdorja? Si ta di?

As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.

Diku para gjashtë muajsh, arti i kësaj fushe do të ishte, si shembull, të takoni një psikolog me flokë të mrekullueshëm, e ti thoni; "Steve, ti je një ekspert në foljet e parregullta. Çka më duhet të bëj?" Ai do t'ju përgjigjej, "Shumica e njerëzve përdorin shprehjen: kam përparuar, por ka të tillë që përdorin: përparova." Edhe ju e dini, pak a shumë, se po t'ju duhej të ktheheni prapa në kohë për 200 vite dhe ta pyetni deklaruesin e rradhës poashtu me flokë të mrekullueshëm, (Të qeshura) "Tom, si duhet ta them?" Ai do t'ju përgjigjej, " Tani, në kohën time shumica e njerëzve janë zhvilluar, por disa zhvilluan." Tani do t'ju paraqes disa të dhëna të papërpunuara, Dy rreshta prej kësaj tabele prej dy miliardë të dhënash. Se çka po shohim është frekuenca vit për vit e "jam zhvilluar" dhe "u zhvillova" gjatë kohës. Kjo tani është vetëm dy prej dy miliardë rreshtash. Pra i gjithë kompleti i të dhënave është një miliardë herë më i mrekullueshëm se kjo faqe prezentimi.

(Laughter)

(Të qeshura)

(Applause)

(Duartrokitje)

JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.

JM: Tashti ka shumë fotografi që vlejnë sa 500 miliardë fjalë, Si shembull, kjo. Nëse e marrim gripin, do të shihni pika kulminante gjatë kohës kur ju keni qenë në dijeni se epidemitë e mëdha të gripit kanë qenë vdekjeprurëse përgjatë globit.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ELA: Nëse nuk jeni ende të bindur, nivelet e ujërave po rritet, po ashtu edhe niveli i CO2 dhe temperatura globale.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

JM: Ndoshta do të duhej ta shiqoni pikërisht këtë n-gram, e kjo vetëm për ti tregu Niçes se Zoti nuk ka vdek. edhe pse edhe ju ndoshta pajtoheni se ai ka nevoje për ndonjë publicist më të mirë.

(Laughter)

(Të qeshura)

ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.

Ju mund ti qaseni edhe disa koncepteve mjaft abstrajte me këtë metodë. Për shembull, më lejoni t'ju rrëfej historinë e vitit 1950. Për shumicën e historisë askujt s'ju ka bërë vonë për vitin 1950. Në vitin 1700, 1800, 1900, askush nuk është brengosur. Gjatë viteve 30ta dhe 40ta, askush nuk është brengosur. Papritmas, në mesin e viteve 40ta, filloi të bëhet zhurmë. Njerëzit e kuptuan se viti 1950 do të vinte, dhe do të mund të ishte madhështorë. (Të qeshura) Por asgjë nuk i tërhoqi vëmendjen njerëzve në vitin 1950 vetëm se veç viti 1950 në vete. (Të qeshura) Njerëzit shetisnin rreth e rrotul të obsesionuar. Ata nuk mund të ndalonin së foluri për gjërat që kishin bërë në vitin1950, gjërat që kishin planifikuar se do ti bënin në vitin 1950, gjithë ato ëndrra që kishin dëshiruar ti plotësonin në vitin 1950. Në fakt, viti 1950 ishte aq i mahnitshëm sa për vitet që do të vinin, njerëzit do të flisnin për të gjitha gjërat e mrekullueshme që kanë ndodhur, në '51tën, '52tën, '53tën. Më në fund në vitin 1954, dikush u kthjell dhe kuptoi se disi 1950ta është zbehur. (Të qeshura) Dhe kështu, baloni pëlciti.

(Laughter)

(Të qeshura)

And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.

Dhe tregimi i 1950tës është tregimi i çdo viti të cilin e kemi regjistruar ne, me pak ndryshime, sepse tani i kemi këto diagrame të mira. Dhe sepse i kemi këto diagrame të mira, ne mundemi ti masim gjërat. Ne mund të themi: "Sa shpejt mundet një balon të pëcals?" Dhe siç po duket ne mundemi ta masim atë Ekuacionet janë derivuar, grafiqet janë ndërtuar, dhe rezultati i fundit është se ne kemi konkluduar se baloni pëlcet shpejt e më shpejt me çdo vit që kalon. Ne po humbim interesimin për të kaluarën në mënyrë tejet të shpejtë.

JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.

JM: Tani një këshillë sa i përket karrierës. Për ata që kërkojnë famën, mund të mësojmë prej 25 figurave më të famshme të politikës, autorëve, aktorëve e kështu me radhë. Kështuqë pra, nëse doni të bëheni të famshëm qysh herët, duhet të bëheni aktor, sepse atëherë fama fillon t'ju rritet kah mosha 20 vjeçare, ju jeni ende të rinj, çka është e mrekullueshmë. Nëse dëshironi të prisni pak, duhet të bëheni autor, sepse atëherë mund të ngriteni në majat më të larta, si shembull Mark Twain, më se i famshëm. Por nëse doni të arrini majat e majave, duhet të i vononi kënaqësitë dhe natyrisht të bëheni një politikan. Në këtë rast do të bëheni të famshëm kah mosha 50 vjeçare, do të bëheni shumë, shumë të famshëm pastaj. Poashtu edhe shkenctarët duken se bëhen të famshëm kur veçse janë më të moshuar. Si shembull, biologët dhe fizikantët duken se gati bëhen të famshëm sa vetë aktorët. Një gabim nuk duhet ta bëni, e të bëheni matematicient. (Të qeshura) Nëse veç bëheni, ju do të mendoni, "Për mrekulli, do ti realizoj punimet më të mira të miat në moshën 20 vjeçare." Edhe a e dini, se askujt si bëhet vonë për këtë fakt.

(Laughter)

(Të qeshura)

ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.

ELA: Ne mund të gjejmë shënime më të qarta midis n-grameve. Si shembull, ja trajektorja e Marc Chagall, një artist i lindur në vitin 1887. Dhe kjo duket si një trajektore normale e një personi të famshëm. Ai bëhet gjithëmonë më i famshëm, përveç se nëse shiqoni në gjuhën gjermane. Nëse shiqoni në gjuhën gjermane, do të nuhasni diçka tërësisht bizare, diçka që gati kurrë nuk do të shihni, gjë që është se ai bëhet më se i famshëm e pastaj papritmas merr teposhtëzën, duke përjetuar një pikë të ultë midis viteve 1933 dhe 1945, para se të tërhiqet pastaj. Se çka po vërejmë natyrisht, është fakti që Marc Chagall ishte një artist hebre në një Gjermani Naziste.

Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.

Tani, këto sinjale janë shumë të fortë sa që neve nuk na nevojitet te jemi në dijeni se dikush ishte i çenzuruar. Ne në fakt mund ta kuptojmë vetvetiu duke shfrytëzuar procesimin e sinjaleve themelore. Ja si është metoda më e thjeshtë për ta bërë. Pritjet racionale që fama e dikujt gjatë një periudhe kohore do të duhet të jetë përafërsisht mesatarja e famës së tyre para dhe pasi që veç ishin të famshëm. Kjo është çka ne presim. Dhe ne e krahasojmë me famën të cilën e vëzhgojmë. Dhe veç i ndajmë njërën me tjetrën për të prodhuar diçka që ne e quajmë indeksi i shuarjes. Nëse ky indeks i shuarjes është tejet, tejet, tejet i vogël, atëherë ju veçse jeni të shtypur. Nëse ky indeks është i madh, ndoshta jeni duke përfituar nga propaganda.

JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.

JM: Tani ju mund të shihni shpërndarjen e indekseve te shuarjeve nëpër popullatën e gjerë. Pra si shembull këtu-- ky indeks i shuarjes është për 5,000 njerëz të përzgjedhur nëpër libra anglez ku nuk ka pasur shtypje të njohur-- do të dukej diçka si kjo, pra e përqëndruar ngushtë në një. Se çka prisni në parim është se çka vëzhgoni. Kjo shpërndarje e parë në Gjermani-- shumë e ndryshme, është zhvendosur në të majtë. Njerëzit kanë folur rreth saj dy herë më pak se është dashur. Por çka është më me rëndësi, shpërndarja është më e gjerë. Janë gjendur shumë njerëz të cilët kanë përfunduar në skajin e anës së majtë të shpërndarjes të cilët kanë folur 10 herë më pak se është dashur. Por në anën tjetër shumë njerëz në skajin e anës së djathtë siç duket kanë përfituar nga propaganda. Kjo fotografi është vula dalluese e çenzurës në librin e shënuar.

ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.

Pra kulturomikë e quajmë ne këtë metodë. Diçka e ngjashme me gjenomikën. Përveç se gjenomika e vë nën thjerrëz biologjinë nëpërmjet dritares së ndërtueme në sekuenca në bazë të gjenomit njerëzor. Kulturomika është e ngjashme. Paraqet aplikimin e analizës së të dhënave masive të mbledhura paraprakisht për të studiuar kulturën njerëzore. Tani këtu në vend se të shiqojmë nëpërmjet thjerrëzës së një gjenomi, shiqojmë nëpërmjet thjerrëzës së pjesëve të digjitalizuara të regjistrave historik. Mashështia e kulturomikës është se çdokush mund ta bëj. Pse çdokush mundet? Gjithëkush do të ketë mundësi, sepse tre djem, Jon Orwant, Matt Gray dhe Will Brockman në Google, kur e kanë e parë prototipin e Ngram Viewer, thanë, "Kjo duket shumë zbavitëse. Do të duhet të jetë e disponueshme për njerëzit." Për rrafsh dy javë--dy javë para se të publikohej artikulli ynë-- ata kodifikuan një version të Ngram Viewer për publikun e gjerë. Dhe ju mund të shtypni ndonjë fjalë apo frazë e cila ju intereson dhe ta shiqoni n-gram e tij menjiherë-- poashtu të shfletoni shembuj prej librave të ndryshëm në të cilat n-grami juaj shfaqet.

JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.

JM: Tani ky apllikacion është shfrytëzuar një milionë herë në ditë e parë të tij, dhe kjo ështe më e mirë prej të gjitha kërkimeve. Kështuqë njerëzit duan të jenë më e mira e vetvetes, le të vënë hapin më të mirë përpara. Por siç do të shihet njerëzit në shekullin e XVIII-të nuk janë brengosur shumë për atë gjë. Njerëzit nuk kanë dashur të jenë në të mirën (fjala në angl. best) e tyre por në të mifën e tyre ( beft, një shkronjë e shkruar gabimisht, fraza mbetet pa kuptim). Se çka ka ndodhur, natyrisht, ky është një gabim. Nuk ishte ajo që u përpjek për mediokritet, por shkronja S shkruhej pak më ndryshe, diçka si shkronja F. Tani natyrisht, Google nuk mund ta haste në atë kohë, kështu që ne e raportuam në artikullin që po shkruanim. Por ajo doli të ishte vetëm një rikujtues se edhe pse kjo është shumë zbavitëse, kur i intepretoni këto grafiqe, duhet të keni shumë kujdes, dhe ti përvetësoni standardet themelore shkencore.

ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.

ELA: Njerëzit e kanë shfrytëzuar këtë aplikacion për qëllime të ndryshme zbavitëse. (Të qeshura) Në fakt, ne nuk do të flasim më, do t'ju paraqesim të gjitha faqet e prezentimit dhe do të jemi të qetë. Ky person ishte i interesuar në historinë e frustrimit. Ekzistojne lloje të ndryshme të frustrimit. Nëse zeni në thua, në pasthirrmën tuaj "ah" gjendet vetëm një A. Nëse planeti Tokë do të shkatërrohej tërësisht nga jashtëtokësorët Vogonë për të liruar hapësirë për një bajpas ndëryjor, në "Aaaaaaaah" do të gjindeshin tetë A-ja. Ky person studio të gjitha pasthirrmat "ah", prej me një deri tetë A-ja. Dhe siç u pa "ah"-et më pak të shpeshta janë natyrisht ato të cilat korrespondojnë me gjërat më frustruese-- përveç çuditërisht në vitet e fillimit të 1980tës. Ne mendojmë se kjo ka të bëj diçka me Reagan.

(Laughter)

(Të qeshura)

JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.

JM: Këto të dhëna mund të shfrytëzohen në mënyra të ndryshme, por çka duam të themi është se shënimet historike po digjitalizohen. Google ka fillu digjitalizimin e 15 milionë librave. Kjo është vetëm 12 përqind e të gjithë librave të botuar deri sot. Paraqet një copë të konsiderueshme të kulturës njerëzore. Kuptohet ka shumë më shumë gjëra në kulture si: dorëshkrimet, shtypi ditor, gjërat që nuk përmbajnë tekst, si arti dhe pikturat. E gjithë këto ndodhen në kompjuterët tanë, në kompjuterët nëpër botë. E kur gjithë këto ndodhin, do të transformojnë mënyrën se si ne e kuptojmë te kaluarën, të tashmen tonë si dhe kulturën njerëzore.

Thank you very much.

Ju falemnderit shumë.

(Applause)

(Duartrokitje)

(Applause)

(Duartrokitje)

(Laughter)

( Të qeshura)

(Laughter)

(Të qeshura)

(Applause)

(Duartrokitje)

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ELA: Nëse nuk jeni ende të bindur, nivelet e ujërave po rritet, po ashtu edhe niveli i CO2 dhe temperatura globale.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

(Laughter)

(Të qeshura)

(Laughter)

(Të qeshura)

(Laughter)

(Të qeshura)

(Laughter)

(Të qeshura)

Thank you very much.

Ju falemnderit shumë.

(Applause)

(Duartrokitje)

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?