Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.

Erez Lieberman Aiden: Semua orang tahu sebuah gambar mengandung seribu kata. Tapi kami di Harvard ingin tahu apakah itu memang benar. (Suara tawa) Jadi kami mengumpulkan tim ahli, mulai dari Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica hingga sponsor kami, Google. Kami memikirkan hal ini selama empat tahun. Kami sampai pada kesimpulan yang mengejutkan. Hadirin yang terhormat, sebuah gambar tidak mengandung seribu kata. Bahkan, kami menemukan beberapa gambar yang mengandung 500 miliar kata.

Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.

Jean-Baptiste Michel: Bagaimana kami bisa sampai pada kesimpulan ini? Saya dan Erez berpikir tentang cara mendapatkan gambaran besar budaya manusia dan sejarah manusia: berubah seiring waktu. Ada banyak buku yang telah ditulis selama bertahun-tahun ini. Jadi kami berpikir, cara terbaik untuk belajar adalah dengan membaca semua jutaan buku ini. Tentu saja, kalau ada ukuran seberapa keren hal ini, rankingnya pasti sangat tinggi. Masalahnya ada sumbu-X untuk itu, yaitu sumbu kepraktisan, yang sangat-sangat rendah.

(Applause)

(Tepuk tangan)

Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.

Orang-orang cenderung menggunakan pendekatan alternatif, mengambil beberapa buku dan membacanya dengan teliti. Ini sangat praktis tapi tidak keren. Yang ingin kita lakukan adalah masuk ke sisi yang keren tapi juga praktis. Ternyata ada sebuah perusahaan di seberang sungai yang bernama Google yang memulai proyek digitalisasinya beberapa tahun lalu yang mungkin bisa mewujudkan pendekatan ini. Mereka mendigitalkan jutaan buku. Jadi artinya, seseorang bisa menggunakan metode komputasional untuk membaca semua buku dengan satu klik. Itu sangat praktis dan mengagumkan.

ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.

ELA: Mari kita bahas sedikit dari mana asal buku-buku itu. Sejak dulu, selalu ada yang namanya penulis. Penulis-penulis ini berjuang menulis buku. Ini menjadi jauh lebih mudah ketika mesin cetak muncul beberapa abad yang lalu. Sejak itu, penulis telah melalui dalam 129 juta kesempatan berbeda untuk menerbitkan buku. Kalau buku-buku itu tidak hilang ditelan waktu, kemungkinan mereka ada di perpustakaan, dan ada banyak buku itu yang diambil dari perpustakaan dan didigitalkan oleh Google, yang telah memindai 15 juta buku sampai hari ini.

Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."

Saat Google mendigitalkan buku, mereka memasukkannya ke dalam format yang rapi. Kita sekarang punya data dan juga metadatanya. Kita punya informasi seperti di mana buku itu diterbitkan, siapa penulisnya, kapan diterbitkan. Yang kita lakukan adalah menelusuri catatan-catatan itu dan mengecualikan semua yang kualitas datanya tidak baik. Akhirnya yang tersisa adalah sekumpulan buku sebanyak lima juta, 500 miliar kata, serangkaian karakter yang seribu kali lebih panjang daripada genom manusia -- teks yang jika dituliskan panjangnya adalah jarak dari sini ke Bulan dan kembali 10 kali -- potongan penting genom budaya kita. Tentu saja itu yang kami lakukan ketika dihadapkan dengan hiperbola semacam itu ... (Suara tawa) sama seperti yang akan dilakukan oleh peneliti sejati mana pun. Kami ambil satu halaman dari XKCD, dan berkata, "Minggir. Kami akan menggunakan ilmu pengetahuan."

(Laughter)

(Suara tawa)

JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)

JM: Tentu saja, kami berpikir, mari pertama-tama kita gelar data ini di luar sana agar orang-orang bisa menerapkan ilmu pengetahuan sendiri. Kami berpikir, apakah data ini boleh kami buka? Tentu saja kita ingin mengambil semua buku itu dan membuka seluruh teks dari lima juta buku ini. Google, dan terutama Jon Orwant, memberi tahu kami hitungan yang harus kami ketahui. Jadi ada lima juta buku, itu artinya lima juta penulis dan lima juta pengacara dengan setumpuk tuntutan. Jadi meskipun itu akan sangat keren, kembali, itu sangat tidak praktis. (Suara tawa)

Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.

Sekali lagi, kami terjebak, dan kami mengambil pendekatan yang sangat praktis, yang kurang keren. Kami berkata, ketimbang membuka seluruh teks, kami akan membuka statistik tentang buku-buku itu saja. Jadi misalnya "A gleam of happiness." Terdiri dari empat kata; kita menyebutnya empat-gram. Kami akan memberitahu berapa kali empat-gram tertentu muncul dalam buku di tahun 1801, 1802, 1803, sampai 2008. Itu akan menghasilkan rangkaian waktu seberapa sering frasa tertentu ini digunakan dalam periode tertentu. Kami melakukan itu pada semua kata dan frasa yang muncul dalam buku-buku itu, dan itu menghasilkan segepok dua miliar baris yang menunjukkan bagaimana budaya berubah.

ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?

ELA: Jadi dua miliar baris itu, kami menyebutkan dua miliar n-gram. Apa yang ditunjukkan? Masing-masing n-gram menunjukkan perkembangan tren budaya. Mari saya perlihatkan contohnya. Misalkan kata "thriving" dalam Bahasa Inggris kalau saya ingin menggunakan bentuk lampau kata itu. Saya mungkin menggunakan, "throve." Selain itu saya juga bisa menggunakan, "thrived." Mana yang harus saya gunakan? Bagaimana kita bisa tahu?

As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.

Sekitar enam bulan lalu, cara terbaik dalam bidang ini yang bisa kita lakukan, misalnya, mengunjungi psikolog dengan rambut indah ini, dan berkata, "Steve, Anda ahli dalam kata kerja tidak beraturan. Apa yang harus saya gunakan?" Dia akan menjawab, "Kebanyakan orang menggunakan "thrived", tapi ada beberapa yang mengatakan "throve." Kurang lebih Anda pasti tahu kalau kita kembali ke masa 200 tahun lalu dan bertanya ke pejabat yang juga punya rambut indah ini, (Suara tawa) "Tom, apa yang harus saya gunakan?" Dia akan menjawab, "Yang saya tahu, kebanyakan orang menggunakan 'throve', tapi ada beberapa yang mengatakan 'thrived". Yang akan saya tunjukkan hanyalah data mentah. Dua baris dari tabel berisi dua miliar catatan ini. Yang Anda lihat adalah frekuensi tahun demi tahun kata "thrived" dan "throve". Ini baru dua dari dua miliar baris. Jadi keseluruhan data yang ada miliaran kali lebih keren dari ini.

(Laughter)

(Suara tawa)

(Applause)

(Tepuk tangan)

JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.

JM: Ada banyak gambar yang bernilai lebih dari 500 miliar kata. Yang ini misalnya. Kalau kita gunakan kata "influenza", bisa kita lihat puncaknya di saat epidemi flu membunuh orang-orang dunia.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ELA: Kalau Anda belum yakin bahwa tingkat permukaan laut meningkat, begitu juga dengan CO2 di atmosfer dan suhu global.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

JM: Anda mungkin juga ingin melihat n-gram yang ini, dan ini untuk memberitahu Nietzsche bahwa Tuhan belum mati, meski Anda mungkin setuju yang dia butuhkan sebenarnya penerbit yang lebih baik.

(Laughter)

(Suara tawa)

ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.

ELA: Anda bisa mendapatkan konsep yang sangat abstrak dengan ini. Misalnya, mari saya ceritakan sejarah dari tahun 1950. Seperti kebanyakan periode dalam sejarah, tidak ada yang peduli dengan tahun 1950. Di tahun 1700, 1800, 1900, tidak ada yang peduli. Sepanjang tahun 30-an dan 40-an, tidak ada yang peduli. Tiba-tiba, di pertengahan tahun 40-an, mulai ramai. Orang-orang sadar bahwa tahun 1950 akan segera tiba, dan bisa jadi sesuatu yang besar. (Suara tawa) Tapi puncak ketertarikan orang-orang akan tahun 1950 adalah di tahun 1950. (Suara tawa) Orang-orang semua terobsesi. Mereka tidak bisa berhenti bicara tentang hal-hal yang mereka lakukan di tahun 1950, semua yang akan mereka lakukan di tahun 1950, semua mimpi yang ingin mereka capai di tahun 1950. Bahkan, tahun 1950 begitu menariknya hingga beberapa tahun kemudian, orang-orang masih terus berbicara tentang hal-hal yang terjadi, di tahun 1951, 1952, 1953. Akhirnya di tahun 1954, seseorang bangun dan menyadari bahwa tahun 1950 sudah lewat. (Suara tawa) Seperti itu saja, gelembungnya pun meledak.

(Laughter)

(Suara tawa)

And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.

Cerita tentang tahun 1950 adalah cerita tahunan yang kita catat, dengan sedikit variasi karena sekarang kita punya grafik yang keren ini. Karena kita punya grafik keren ini, kita bisa mengukur. Kita bisa berkata, "Seberapa cepat gelembung ini meledak?" Ternyata kita bisa mengukurnya dengan sangat tepat. Menghasilkan persamaan, menciptakan grafik, dan hasil bersihnya adalah kita menemukan gelembung ini meledak semakin cepat setiap tahunnya. Kita kehilangan minat terhadap masa lalu dengan lebih cepat.

JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.

JM: Sedikit nasihat karir. Bagi Anda yang ingin menjadi terkenal, kita bisa belajar dari 25 tokoh politik yang paling terkenal, penulis, aktor, dan sebagainya. Kalau Anda ingin cepat terkenal, Anda harus menjadi aktor, karena ketenaran mulai naik di akhir usia 20-an -- Anda masih muda, benar-benar bagus. Kalau Anda mau menunggu, Anda harus menjadi penulis, karena Anda bisa naik sangat tinggi, seperti Mark Twain, misalnya: sangat terkenal. Tapi kalau Anda ingin mencapai puncak, Anda harus mau menunggu lebih lama dan, tentu saja, menjadi politikus. Di sini Anda akan menjadi terkenal di akhir usia 50-an, dan menjadi sangat terkenal sesudahnya. Ilmuwan juga cenderung menjadi terkenal di usia tua. Misalnya, ahli biologi dan fisika cenderung hampir sama terkenalnya dengan aktor. Yang tidak boleh Anda lakukan adalah menjadi ahli matematika. (Suara tawa) Kalau Anda melakukan itu, Anda mungkin berpikir, "Baiklah. Saya akan menghasilkan karya terbaik di usia 20-an." Tapi coba tebak, tidak ada yang peduli.

(Laughter)

(Suara tawa)

ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.

ELA: Ada catatan yang lebih serius tentang n-gram. Misalnya, inilah lintasan Marc Chagall, seniman yang lahir di tahun 1887. Ini tampak seperti lintasan normal orang terkenal. Dia menjadi semakin terkenal, kecuali kalau Anda melihat dalam data bahasa Jerman. Dalam bahasa Jerman, ada sesuatu yang sangat aneh, sesuatu yang jarang Anda lihat, dia menjadi sangat terkenal dan tiba-tiba anjlok, mencapai titik dasar antara 1933 dan 1945, sebelum naik lagi setelahnya. Tentu saja, yang kita lihat adalah kenyataan bahwa Marc Chagall adalah artis Yahudi di negara Nazi Jerman.

Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.

Sinyal ini sangat kuat kita tidak perlu tahu bahwa seseorang disensor. Kita bisa melihatnya menggunakan pengolahan sinyal yang paling dasar. Inilah cara sederhana untuk melakukannya. Harapan yang masuk akal seseorang terkenal dalam periode waktu tertentu seharusnya kurang lebih sama dengan ketenaran mereka sebelum dan sesudahnya. Jadi itulah yang kita harapkan. Kita membandingkan itu dengan ketenaran yang kita amati. Kita cukup membagi satu hal dengan yang lainnya untuk mendapatkan apa yang kita sebut indeks tekanan. Kalau indeks tekanan sangat kecil, kemungkinan Anda sedang ditekan. Kalau sangat besar, mungkin Anda diuntungkan oleh propaganda.

JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.

JM: Anda bisa melihat distribusi indeks tekanan di seluruh populasi. Misalnya, di sini -- indeks tekanan untuk 5000 orang dipilih dalam buku bahasa Inggris yang diketahui tidak ada tekanan -- akan seperti ini, intinya berpusat pada satu titik. Yang Anda harapkan adalah yang Anda lihat. Ini distribusi seperti yang tampak di Jerman -- sangat berbeda, bergeser ke kiri. Orang-orang membicarakannya dua kali lebih sedikit dari yang seharusnya. Tapi yang jauh lebih penting, distribusinya sangat lebar. Ada banyak orang yang akhirnya ada di pojok kiri distribusi ini yang berbicara sekitar 10 kali lebih sedikit dari yang seharusnya. Tapi ada banyak juga orang di pojok kanan yang diuntungkan oleh propaganda ini. Gambar ini adalah rekaman penyensoran dalam sejarah buku.

ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.

ELA: Jadi kulturomika itulah sebutan untuk metode ini. Seperti genomika. Hanya saja genomika menggunakan kacamata biologi melalui jendela rangkaian basa dalam genom manusia. Kulturomika hampir mirip. Ini adalah aplikasi analisis pengumpulan data skala besar untuk penelitian budaya manusia. Di sini, alih-alih melalui kacamata genom, kami melalui kacamata potongan digital catatan sejarah. Yang menarik tentang kulturomika ini semua orang bisa melakukannya. Mengapa semua orang bisa melakukannya? Semua orang bisa melakukannya berkat tiga orang ini, Jon Orwant, Matt Gray, dan Will Brockman di Google, melihat prototip Ngram Viewer, dan berkata, "Ini asyik. Kita harus membuatnya untuk umum." Jadi tepat dalam dua minggu - sebelum makalah kami terbit -- mereka membuat versi Ngram Viewer untuk khalayak umum. Jadi Anda bisa mengetikkan kata atau frasa yang menarik minat Anda dan langsung melihat n-gramnya -- juga menelusuri contoh-contoh berbagai buku yang memuat n-gram Anda tadi.

JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.

JM: Perangkat ini digunakan lebih dari satu juta kali dalam hari pertama, dan ini yang terbaik dari semua permintaan yang ada. orang-orang selalu ingin melakukan yang terbaik. Tapi ternyata di abad ke-18, orang-orang tidak peduli dengan hal itu. Mereka tidak ingin melakukan yang terbaik, "best", tapi "beft". Tentu saja, ini hanya kesalahan. Bukan orang-orang saat itu ingin menjadi biasa saja, tapi karena saat itu huruf S ditulis berbeda, seperti huruf F. Google tidak mengetahui ini saat itu, jadi kami melaporkan ini dalam artikel ilmiah yang kami tulis. Tapi ini ternyata menjadi sebuah peringatan bahwa meskipun menyenangkan, saat menginterpretasikan grafik ini, Anda harus hati-hati, dan Anda harus mengadopsi standar dasar dalam ilmu pengetahuan.

ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.

ELA: Orang-orang menggunakannya untuk bermain-main. (Suara tawa) Sebenarnya, kami bahkan tidak perlu bicara, hanya perlu menunjukkan semua slide yang ada dan diam. Orang ini tertarik pada sejarah frustrasi. Ada banyak jenis frustrasi. Kalau Anda tersandung, itu "argh" dengan satu A. Kalau planet Bumi dimusnahkan oleh Vogon yang datang melalui jalan pintas antargalaksi, itu "aaaaaaaargh" dengan delapan A. Orang ini menyelidiki semua "argh," mulai dari satu sampai delapan A. Ternyata semakin sedikit "argh" tentu saja menyatakan hal-hal yang lebih membuat frustrasi -- kecuali, anehnya, di awal tahun 80-an. Kami pikir ini berhubungan dengan Reagan.

(Laughter)

(Suara tawa)

JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.

JM: Ada banyak kegunaan data ini, tapi pada dasarnya catatan sejarah sedang didigitalkan. Google sudah mulai mendigitalkan 15 juta buku. Itu 12 persen dari semua buku yang pernah diterbitkan. Itu bagian yang cukup besar dari budaya manusia. Ada banyak budaya: naskah, koran, ada yang bukan berupa teks, seperti seni dan lukisan. Semua ini ada dalam komputer kita, komputer di seluruh dunia. Dan ketika itu terjadi, itu akan mengubah cara kita memahami masa lalu, masa kini, dan budaya manusia.

Thank you very much.

Terima kasih banyak.

(Applause)

(Tepuk tangan)

(Applause)

(Tepuk tangan)

(Laughter)

(Suara tawa)

(Laughter)

(Suara tawa)

(Applause)

(Tepuk tangan)

JM: Ada banyak gambar yang bernilai lebih dari 500 miliar kata. Yang ini misalnya. Kalau kita gunakan kata "influenza", bisa kita lihat puncaknya di saat epidemi flu membunuh orang-orang dunia.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ELA: Kalau Anda belum yakin bahwa tingkat permukaan laut meningkat, begitu juga dengan CO2 di atmosfer dan suhu global.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

JM: Anda mungkin juga ingin melihat n-gram yang ini, dan ini untuk memberitahu Nietzsche bahwa Tuhan belum mati, meski Anda mungkin setuju yang dia butuhkan sebenarnya penerbit yang lebih baik.

(Laughter)

(Suara tawa)

(Laughter)

(Suara tawa)

(Laughter)

(Suara tawa)

(Laughter)

(Suara tawa)

Thank you very much.

Terima kasih banyak.

(Applause)

(Tepuk tangan)

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?