Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.

Erez Lieberman Aiden : Mọi người đều biết một bức ảnh đáng giá một nghìn từ. Nhưng chúng tôi, tại Harvard luôn thắc mắc liệu điều đó có thật sự đúng. (Tiếng cười) Vì vậy chúng tôi tập hợp một đội những chuyên gia, từ khắp Harvard , MIT, Từ điển Di sản Mỹ, Bách khoa toàn thư Britannica và cả nhà tài trợ tự hào của chúng tôi, Google. Chúng tôi đã ngẫm nghĩ về điều này trong khoảng bốn năm. Và chúng tôi đã đi đến một kết luận đầy sửng sốt. Xin thưa với quí vị rằng, một bức tranh không đáng một nghìn từ. Thực tế, chúng tôi đã tìm thấy bức tranh đáng giá 500 nghìn triệu từ!

Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.

Jean-Baptiste Michel: Vậy làm thế nào chúng tôi lại đi đến kết luận này? Erez và tôi đã suy nghĩ cách nắm bắt được bức tranh toàn cảnh về nền văn hoá nhân loại và lịch sử loài người thay đổi qua thời gian. Có rất nhiều cuốn sách được viết ra trong nhiều năm. Vậy nên chúng tôi nghĩ rằng, vậy cách tốt nhất để học từ chúng là đọc hết hàng triệu cuốn sách này. Tất nhiên, nếu có thang đo về độ hoành tráng của dự án này, thì nó hoàn toàn, hoàn toàn hoành tráng. Nhưng vấn đề là còn có một trục ngang cho việc đánh giá này, đó là đánh giá về mức độ thực tế. Thì điều này rất rất ít tính thực tế.

(Applause)

(Vỗ tay)

Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.

Thế là người ta có khuynh hướng tìm cách khác, đó là chọn ra một số nguồn sách và đọc chúng thật cẩn thận. Cách này cực kì thực tiễn nhưng không hoành tráng cho lắm. Điều mà chúng ta muốn thật sự là một cách thức vừa hoành tráng vừa thực tiễn. Và hoá ra có một công ty gọi là Google đã bắt đầu một dự án số hoá từ một vài năm trước khiến ta thực hiện được cách thức đó. Họ đã số hoá hàng triệu cuốn sách. Điều đó có nghĩa là, ta có thể dùng máy móc để đọc tất cả các cuốn sách trong một cú nhấn chuột. Cách này rất thực dụng và cực kì hoành tráng.

ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.

ELA: Để tôi nói cho các bạn biết một chút về nơi những cuốn sách đó bắt nguồn. Từ thời xa xưa đã có những nhà sáng tác. Những nhà sáng tác này nỗ lực viết những cuốn sách. Và việc này trở nên khá dễ dàng hơn nhờ sự phát triển của công nghệ in ấn vài thế kỉ trước. Từ đó, các nhà sáng tác đã có được 129 triệu cơ hội xuất bản những cuốn sách. Bây giờ nếu những cuốn sách đó không lạc vào lịch sử, thì chúng sẽ ở đâu đó trong một thư viện nào đó, và nhiều trong số đó được lưu trữ và số hoá bởi Google, nơi đến nay đã quét được 15 triệu cuốn sách.

Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."

Bây giờ khi Google số hoá một cuốn sách, họ sẽ đưa nó vào một định dạng thật đẹp. Chúng ta có dữ liệu, thêm vào đó chúng ta có siêu dữ liệu. Chúng ta có thông tin về những thứ như là cuốn sách đó được xuất bản khi nào, ai là tác giả, nó được xuất bản khi nào. Và điều chúng tôi làm là lướt qua tất cả những bộ dữ liệu đó và loại bỏ hết những cái không phải là những dữ liệu chất lượng nhất. Cái còn lại là một tập hợp của 5 triệu cuốn sách. 500 tỉ từ, một chuỗi kí tự dài hơn hàng ngàn lần hệ gien con người -- một bản chữ mà khi viết ra sẽ dài bằng từ đây đi đến mặt trăng rồi vòng lại hơn 10 lần -- một mảnh thực của hệ gien văn hoá cuả chúng ta. Tất nhiên, điều chúng tôi đã làm khi đối diện với một sự phóng đại tàn bạo như thế ... (Tiếng cười) là điều mà bất kì nhà nghiên cứu đáng kính nào cũng sẽ làm. Chúng tôi trích ra một trang trong chuỗi XKCD và chúng tôi nói "Khoan đã. Chúng tôi sẽ thử thí nghiệm chúng."

(Laughter)

(Tiếng cười)

JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)

JM : Tất nhiên, chúng tôi đã nghĩ là trước tiên hãy thử đưa dữ liệu ra cho người ta thí nghiệm. Và chúng tôi suy nghĩ, dữ liệu nào có thể đem ra đây? Tất nhiên, các bạn muốn lấy những cuốn sách và tung ra hết nguyên bản của 5 triệu cuốn sách. Google, cụ thể là Jon Orwant, đã bảo cho chúng tôi một công thức mà chúng tôi nên nghĩ tới. Chúng tôi có 5 triệu cuốn sách, tức bằng với năm triệu tác giả và năm triệu đơn kiện cho một cuộc kiện tụng khổng lồ. Vì thế, dù cách này rất rất hoành tráng, nhưng một lần nữa lại cực kì cực kì không thực tế. (Tiếng cười)

Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.

Một lần nữa chúng tôi lại nhượng bộ Chúng tôi đã thử cách thực tế nhất nhưng ít hoành tráng Chúng tôi nói rằng, được rồi, thay vì phát hành nguyên cả văn bản, chúng tôi sẽ tung ra thống kê về những quyển sách đó. Hãy lấy một ví dụ cụm từ "Tia sáng hạnh phúc" Đây là cụm bốn từ; chúng tôi gọi đó là một four-gram. Chúng tôi sẽ cho các bạn biết một four-gram sẽ xuất hiện bao nhiêu lần trong những cuốn sách năm 1801, 1802, 1803, cho đến tận năm 2008. Qua đó chúng ta sẽ có được một chuỗi thời gian cho ta biết một câu nhất định được dùng với tần suất thế nào qua thời gian. Chúng tôi làm như thế với tất cả từ ngữ và nhóm từ trong những cuốn sách đó, kết quả chúng tôi có được một bảng khổng lồ của hai tỉ đường cho chúng tôi thấy cách nền văn hoá thay đổi qua thời gian.

ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?

ELA: Chúng tôi gọi hai tỉ đường đó là hai tỉ n-gram. Chúng cho ta biết điều gì ư? Đó là mỗi n-gram đo xu hướng của nền văn hoá. Để tôi cho bạn một ví dụ. Thử giả định rằng tôi đang phát triển Mai tôi muốn nói cho các bạn biết tôi đã phát triển thế nào. Và có lẽ tôi sẽ nói là "Yesterday, I throve" ("Ngày hôm qua, tôi đã phát triển") Hay nói cách khác rằng " Yesterday, I thrived." ("Ngày hôm qua, tôi đã phát triển") Tôi nên nói theo cách nào? Làm sao biết được?

As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.

Nếu là sáu tháng trước tính nghệ thuật trong lĩnh vực này là chẳng hạn bạn sẽ tìm đến nhà tâm lý học có bộ tóc tuyệt vời này và nói rằng, "Steve, anh là chuyên gia về động từ bất quy tắc. Tôi nên chia động từ đó theo cách nào?" Và ông ta sẽ nói với bạn rằng " Phần lớn người ta chia động từ đó thành "thrived", nhưng một vài người dùng "throve"." Ít nhiều bạn cũng biết rằng nếu bạn quay ngược lại 200 năm trước và hỏi nhà chính trị có bộ tóc tuyệt vời ngang ngửa này (Tiếng cười) "Tom, tôi nên nói thế nào?" Ông ta sẽ nói rằng " Ở thời kì của tôi, hầu hết người ta dùng "throve", nhưng một số dùng "thrived"." Giờ tôi sẽ cho các bạn xem dữ liệu sống Hai hàng trích ra từ bảng của hai tỷ dữ liệu kia Cái bạn đang nhìn thấy là tần số xuất hiện từng năm của "thrived" và "throve" Đây chỉ là hai trong số hai tỉ hàng. Vì thế toàn bộ dữ liệu này sẽ hoành tráng hơn cả tỉ lần cái slide này.

(Laughter)

(Tiếng cười)

(Applause)

(Vỗ tay)

JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.

JM: Vậy có bao nhiêu bức tranh khác đáng 500 tỉ từ ngữ. Ví dụ như cái này Nếu bạn chọn dịch cúm, bạn sẽ thấy những thời điểm cao trào mà bạn biết khi mà những dịch cúm lớn tiêu diệt con người khắp nơi.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ELA: Nếu bạn vẫn chưa tin mực nước biển đang tăng, khí CO2 và nhiệt độ trái đất cũng thế.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

JM: Các bạn chắc cũng muốn xem cái n-gram này, nó nói cho Nietzsche biết rằng chúa không chết, dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn.

(Laughter)

(Tiếng cười)

ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.

ELA : Bạn có thể nắm được một số khái niệm khá trừu tượng đại loại thế này. Để tôi kể cho bạn nghe về lịch sử của năm 1950. Phần lớn trong lịch sử chẳng ai đếm xỉa gì về năm 1950 cả Năm 1700, 1800, 1900, chẳng ai quan tâm. Trong suốt những năm 30 và 40, cũng chẳng ai quan tâm . Bất ngờ vào giữa những năm 40 bắt đầu có một chút động đậy. Người ta bắt đầu nhận ra 1950 sắp đến và có thể nó sẽ rất hoành tráng! (Tiếng cười) Nhưng không có bất cứ thứ gì có thể làm cho người ta chú ý đến năm 1950 như chính năm 1950. (Tiếng cười) Người ta đi lại xung quanh, bị ám ảnh. Họ không thể dừng nói về tất cả những thứ họ làm trong năm 1950 tất cả những thứ họ đang định làm trong năm 1950 tất cả những giấc mơ họ muốn đạt được trong năm 1950. Thực tế 1950 tuyệt vời đến nỗi nhiều năm sau đó, người ta vẫn cứ nói đến những điều kinh ngạc đã xảy ra. trong năm 51, 52, 53. Cuối cùng thì đến năm 1954, có người mới thức tỉnh và nhận ra rằng 1950 đã qua lâu rồi! (Tiếng cười) Và cứ như thế, bong bóng nổ!

(Laughter)

(Tiếng cười)

And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.

Câu chuyện của năm 1950 là câu chuyện của từng năm mà chúng ta lưu lại được, với một chút sự biến hóa nhỏ bởi giờ chúng ta có những biểu đồ hay ho này Và bởi vì chúng ta có những biểu đồ hay ho này, chúng ta có thể đo đạc nhiều thứ Chúng ta có thể hỏi rằng ""Bong bóng nổ" nhanh như thế nào?" Và chúng ta có thể đo đạc điều đó một cách chính xác. Các phương trình được tính toán, các đồ thị được vẽ ra, và kết quả cuối cùng là chúng ta phát hiện ra "bong bóng nổ" ngày càng nhanh qua từng năm. Chúng ta mất dần sự quan tâm đến quá khứ một cách nhanh chóng.

JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.

JM: Bây giờ chúng tôi sẽ chia sẻ một vài lời khuyên về sự nghiệp cho bạn. Cho những ai muốn nổi tiếng, chúng ta có thể học từ 25 hình tượng chính trị gia nổi tiếng nhất, các nhà sáng tác, diễn viên, v.v.v Vì vậy nếu bạn muốn nổi tiếng sớm, bạn nên làm diễn viên, bởi tiếng tăm của bạn sẽ ngày càng tăng cuối những năm 20 của bạn -- bạn vẫn còn trẻ, điều đó thật tuyêt. Nếu bạn có thể đợi một chút, bạn nên làm tiểu thuyết gia, bởi rồi bạn sẽ đầy tiếng tăm như Mark Twain, cực kì nổi tiếng. Nhưng nếu bạn muốn vươn đến đỉnh cao nhất, bạn đừng hài lòng sớm mà hãy trở thành nhà chính trị. Bạn sẽ trở nên nổi tiếng cuối những năm 50 tuổi và sẽ càng nổi tiếng hơn sau đó Những nhà khoa học cũng trở nên nổi tiếng khi họ già đi. Ví dụ như là nhà sinh học, nhà vật lý học có khuynh hướng nổi tiếng gần bằng diễn viên. Có một sai lầm mà bạn không nên phạm phải là trở thành nhà toán học. (Tiếng cười) Nếu bạn làm điều đó bạn có thể sẽ nghĩ rằng "Thật tuyệt. Mìng sẽ cố gắng hết sức trong những năm tuổi 20." Nhưng đoán thử đi, làm gì có ai quan tâm.

(Laughter)

(Tiếng cười)

ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.

ELA: Còn có nhiều ghi chú nghiêm túc hơn thế này trong những n-gram đó. Ví dụ, đây là đường phát triển của Marc Chagall, một nghệ sĩ sinh năm 1887. Và nó giống con đường phát triển bình thường của một người nổi tiếng. Ông ta càng ngày càng nổi tiếng, trừ khi bạn nhìn vào nước Đức. Nếu bạn nhìn vào nước Đức, bạn sẽ thấy một thứ hoàn toàn lạ một thứ bạn chưa bao giờ thấy, đó là sự cực kì nổi tiếng của ông ấy và rồi bất ngờ tụt dốc thảm hại, cho đến tận cùng trong những năm 1933 và 1945 , rồi lại hồi phục danh tiếng sau đó. Dĩ nhiên là chúng ta nhận ra rằng sự thật thì Marc Chagall là một nghệ sĩ do thái của quốc xã Đức.

Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.

Bây giờ, những dấu hiệu này thực sự rất chuẩn đến mức mà chúng ta không cần ai phải kiểm duyệt chúng. Chúng ta tự nhận ra sự việc bằng cách xử lý những dấu hiệu thật cơ bản. Đây là một trong những cách đơn giản. Chẳng hạn như một dự đoán hợp lý rằng danh tiếng trong một khoảng thời gian nhất định sẽ bằng trung bình của danh tiếng trước và sau đó chia ra. Đó là thứ chúng ta dự đoán. Rồi chúng ta so sánh nó với mức độ nổi tiếng chúng ta quan sát được. Chúng ta chia cái nó với mức độ dự đoán kia. để được cái gọi là "mức độ danh tiếng bị kìm hãm" Nếu mức độ danh tiếng bị kìm hãm rất rất nhỏ , thì bạn có lẽ đang bị kìm hãm. Nếu nó rất rất lớn, thì có lẽ bạn đang được lợi từ cơ quan tuyên truyền

JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.

JM: Giờ bạn hãy nhìn vào sự phân phối của mức độ bị kìm hãm trên toàn dân số. Ví dụ ở đây -- mức độ danh tiếng bị kìm hãm này của 5000 người chọn ra trong những cuốn sách tiếng anh không có sự kìm hãm được biết đến -- nó sẽ như thế này, hầu như gần bằng 1. Điều bạn mong muốn đơn giản chính là điều bạn quan sát được. Đây là sự phân phối được thấy ở Đức -- rất khác, nó được dịch chuyển về bên trái. Người ta đã nói về nó ít hơn hai lần nó đáng được. Nhưng quan trọng hơn hết là sự phân phối này trải rộng hơn nhiều . Có nhiều người cuối cùng lại ở xa hơn về phía trái của sự phân phối này những người được ít hơn đến 10 lần danh tiếng mà họ đáng có. Nhưng đồng thời cũng có rất nhiều người ở xa phía bên phải họ dường như đang hưởng lợi từ giới tuyên truyền. Bức tranh này chính là dấu đóng của sự kiểm duyệt sách.

ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.

ELA: Chúng tôi gọi phương pháp này là văn hoá học. Giống như di truyền học. Khác ở chỗ di truyền học là ống kính của sinh học qua cửa sổ nhìn vào chuỗi nền tảng trong hệ gen của con người. Văn hoá học cũng tương tự. Nó là sự ứng dụng của sự phân tích hàng loạt dữ liệu trên qui mô lớn vào việc nghiên cứu văn hoá con người. Tại đây, qua ống kính của dữ liệu lịch sử đã được số hoá. thay vì qua ống kính của hệ gien. Điều tuyệt vời về văn hoá học là ai cũng có thể thực hiện được nó. Tại sao mọi người đều có thể thực hiện? Mọi người đều có thể làm điều đó là nhờ ba người , Jon Orwant, Matt Gray và Will Brockman của Google nhìn thấy bản đồ mẫu của Ngram Viewer, và nói rằng "Cái này thật hay! Chúng ta phải làm thứ này cho mọi người dùng." Thế là trong chỉ hai tuần -- hai tuần trước khi bài luận văn của chúng tôi hoàn thành -- họ đã lập trình một phiên bản của NGram Viewer cho công chúng. Bạn có thể đánh một từ nào đó mà bạn thích và xem n-gram của nó ngay lập tức -- và cũng có thể xem ví dụ của tất cả các cuốn sách khác nhau mà n-gram xuất hiện trong đó.

JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.

JM : Nó được sử dụng hơn một triệu lần vào ngày đầu tiên, và đây thực sự là câu chất vấn hay nhất. Người ta muốn cố gắng hết sức, bước bước chân chắc nhất về phía trước. Nhưng hoá ra vào thế kỉ 18, người ta không hề thực sự quan tâm đến điều đó . Họ không muốn là "best", họ chỉ muốn là "beft". Dĩ nhiên thật ra đó chỉ là một lỗi chính tả. không có gì to tát cả, chỉ là S từng được viết theo cách khác, gần giống chữ F. Dĩ nhiên, Google lúc đó đã không để ý đến điều này, nên chúng tôi đã viết về điều đó trong một bài báo cáo khoa học. Nhưng hoá ra đây chỉ là một sự nhắc nhở rằng dù có hay đến đâu chăng nữa thì khi bạn tìm cách hiểu những biểu đồ này, bạn phải vô cùng cẩn thận, và bạn phải áp dụng những chuẩn mực nền tảng trong khoa học.

ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.

ELA : Người ta dùng phương pháp này cho đủ thứ mục đích hài hước. (Tiếng cười) Thực ra chúng tôi không nhất thiết phải nói, chúng tôi sẽ chỉ cho các bạn xem tất cả những bức hình này và giữ yên lặng. Người này muốn biết về lịch sử của sự giận dữ. Có rất nhiều loại giận dữ. Nếu bạn bị vấp chân, đó sẽ là một chữ A "argh". Nếu trái đất bị xâm chiếm bởi người Vogons để làm đường giữ thông tin liên lạc giữa các vì sao. đó sẽ là tám chữ A "aaaaaaaarg" Người này nghiên cứu tất cả "arghs" từ một cho đến tám chữ "A". Và kết quả là Từ "arghs" với ít chữ A tất nhiên tương ứng với những thứ gây nhiều tức giận hơn. ngoại trừ trong những năm đầu của thập niên 80, thật kì lạ! Chúng tôi cho rằng điều này có lẽ có liên quan đến Reegan.

(Laughter)

(Tiếng cười)

JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.

JM: Có rất nhiều cách sử dụng dữ liệu này, nhưng điều mấu chốt là hồ sơ lịch sử đang được số hoá. Google đã số hoá 15 triệu cuốn sách. Đó là 12 phần trăm của tất cả những cuốn sách đã từng được xuất bản. Đó là một tảng lớn đáng kể của văn hoá loài người. Còn rất nhiều của nền văn hoá: nào là những bản viết tay, nào là báo chí, nào là những thứ không phải là chữ mà là nghệ thuật và những bức tranh. Những thứ này tình cờ lại có trong máy tính của chúng ta, trên những chiếc máy tính trên khắp thế giới. Khi điều đó xảy ra, nó sẽ thay đổi cách chúng ta hiểu về quá khứ, hiện tại và nền văn hóa con người.

Thank you very much.

Cảm ơn rất nhiều.

(Applause)

(Vỗ tay)

(Applause)

(Vỗ tay)

(Laughter)

(Tiếng cười)

(Laughter)

(Tiếng cười)

(Applause)

(Vỗ tay)

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ELA: Nếu bạn vẫn chưa tin mực nước biển đang tăng, khí CO2 và nhiệt độ trái đất cũng thế.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

JM: Các bạn chắc cũng muốn xem cái n-gram này, nó nói cho Nietzsche biết rằng chúa không chết, dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn.

(Laughter)

(Tiếng cười)

(Laughter)

(Tiếng cười)

(Laughter)

(Tiếng cười)

(Laughter)

(Tiếng cười)

Thank you very much.

Cảm ơn rất nhiều.

(Applause)

(Vỗ tay)

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?