Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Erez Lieberman Aiden: Jeder weiß, dass ein Bild mehr als tausend Worte sagt. Aber wir in Harvard haben uns gefragt, ob das wirklich stimmt. (Gelächter) Also haben wir ein Team von Experten versammelt aus Harvard, dem MIT, vom American Heritage Dictionary, der Encyclopedia Britannica und sogar unserem stolzen Sponsor, dem Google. Darüber haben wir ungefähr vier Jahre lang gegrübelt. Und wir sind zu einem überraschenden Ergebnis gekommen. Meine Damen und Herren, ein Bild sagt nicht mehr als tausend Worte. In Wahrheit haben wir Bilder gefunden, die mehr als 500 Milliarden Worte sagen.

Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.

Jean-Baptiste Michel: Wie sind wir zu diesem Ergebnis gekommen? Erez und ich haben uns Wege überlegt wie wir ein Gesamtbild der menschlichen Kultur und Geschichte erzeugen können: Veränderung im Lauf der Zeit. Über die Jahre wurden so viele Bücher geschrieben. Also haben wir uns gedacht, der beste Weg von ihnen zu lernen, sei all diese Millionen Bücher zu lesen. Wenn es ein Maß dafür gäbe wie toll das ist, wäre dieses sehr, sehr hoch. Das Problem dabei ist, es gibt auch eine X-Achse, die praktische Achse. Die wäre sehr, sehr niedrig.

Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.

(Applaus)

(Applause)

Eine Alternative wäre stattdessen nur ein paar Quellen zu nehmen und diese sehr genau zu lesen. Das ist extrem praktisch, aber weniger toll. Was man wirklich machen will, ist das Tolle und das Praktische zu verbinden. Es stellte sich heraus, dass es auf der anderen Seite des Flusses eine Firma gab, Google, die vor ein paar Jahren ein Digitalisierungsprojekt startete, das genau diese Herangehensweise ermöglichen könnte. Sie haben Millionen Bücher digitalisiert. Das bedeutet, dass man am Computer diese ganzen Bücher auf Knopfdruck lesen kann. Das ist sehr praktisch und extrem toll.

Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.

ELA: Lasst mich also ein bisschen über den Ursprung von Büchern erzählen. Seit Urzeiten gibt es Autoren. Sie strebten danach Bücher zu schreiben. Dies wurde mit der Erfindung der Druckerpresse vor einigen Jahrhunderten deutlich einfacher. Seither haben Autoren es 129 Millionen Mal geschafft Bücher zu veröffentlichen. Wenn diese Bücher nicht im Laufe der Geschichte verloren gegangen sind, stehen sie in irgendeiner Bibliothek, und viele dieser Bücher wurden von Google erfasst und digitalisiert, die bis heute 15 Millionen Bücher gescannt haben.

ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.

Wenn Google ein Buch digitalisiert, bringen sie es in ein sehr schönes Format. Nun haben wir die Daten, und außerdem Metadaten. Wir haben Informationen wie wo es verlegt wurde, wer der Autor war und wann es veröffentlicht wurde. Wir gehen dann durch all diese Daten und schließen alles aus was nicht von höchster Qualität ist. Was übrig bleibt sind 5 Millionen Bücher, 500 Milliarden Wörter, eine Reihe von Buchstaben eintausendmal so lang wie das menschliche Genom -- wenn man ihn ausschreiben würde, reichte dieser Text zehn Mal bis zum Mond und zurück -- ein beachtlicher Teil unseres kulturellen Genoms. Natürlich haben wir, konfrontiert mit einer solch unverschämten Übertreibung ... (Gelächter) das getan, was jeder anständige Forscher getan hätte. Wir haben uns etwas bei dem Online-Comic XKDC abgeschaut und gesagt: „Vorsicht! Wir versuchen es mit Wissenschaft.“

Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."

(Gelächter)

(Laughter)

JM: Zuerst haben wir uns selbstverständlich gedacht, veröffentlichen wir einfach die Daten, so dass Wissenschaft damit betrieben werden kann. Jetzt fragen wir uns aber, welche Daten können wir veröffentlichen? Natürlich will man alle 5 Millionen Bücher im Volltext veröffentlichen. Google allerdings, und vor allem Jon Orwant, haben uns eine kleine Gleichung vermittelt. Man hat also 5 Millionen Bücher, das heißt 5 Millionen Autoren, 5 Millionen Kläger und einen gewaltigen Prozess. Daher wäre dies, obwohl sehr, sehr toll, wieder sehr, sehr unpraktisch. (Gelächter)

JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)

Nochmal haben wir ein bisschen nachgegeben und haben das Praktische gemacht, das jedoch weniger toll war. Wir haben uns entschieden, dass wir statt der Volltexte Statistiken über die Bücher veröffentlichen. Nehmen wir zum Beispiel „A gleam of happiness“. Das sind vier Wörter; das nennen wir ein Viergramm. Wir sagen euch wie oft ein bestimmtes Viergramm in Büchern in den Jahren 1801, 1802, 1803, bis 2008 auftaucht. Wir bekommen eine Zeitfolge, die zeigt, wie oft dieser bestimmte Satz im Laufe der Zeit benutzt wurde. Das machen wir für alle Wörter und Sätze, die in diesen Büchern auftauchen, und daher haben wir eine große Tabelle mit zwei Milliarden Sätzen, die uns etwas über die Veränderung der Kultur erzählen.

Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.

ELA: Also diese zwei Milliarden Sätze, die nennen wir zwei Milliarden Ngramme. Was sagen sie aus? Die individuellen Ngramme messen kulturelle Trends. Ich gebe euch ein Beispiel. Sagen wir, dass ich Erfolg habe („thriving“), und morgen will ich dir sagen wie viel Erfolg ich gehabt habe. Also sage ich vielleicht: „Gestern ‚throve’ ich“. Auf andere Weise könnte ich auch sagen: „Gestern ‚thrived’ ich“. Welches soll ich denn jetzt benutzen? Wie kann ich das wissen?

ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?

Bis vor ungefähr sechs Monaten war der Stand der Technik in diesem Bereich, dass man zum folgenden Psychologen mit fantastischen Haaren geht und ihn fragt: „Steve, Sie sind ein Experte der unregelmäßigen Verben. Was soll ich sagen?“ Und er würde sagen: „Naja, die meisten Leute sagen ‚thrived’, aber manche Leute sagen ‚throve’“. Und man wusste auch, mehr oder weniger, dass wenn man 200 Jahre in die Vergangenheit reist und den folgenden Staatsmann mit genauso fantastischen Haaren fragt: (Gelächter) „Tom, was soll ich sagen?“ Er würde sagen: „Naja, zu meiner Zeit sagten die meisten ‚throve’, aber manche ‚thrived’“. Was ich euch hier zeige sind die Rohdaten. Zwei Reihen aus dieser Tabelle mit zwei Milliarden Einträgen. Was ihr seht ist die jährliche Häufigkeit von „thrived“ und „throve“ im Laufe der Zeit. Doch dies sind nur zwei von zwei Milliarden Reihen. Die ganze Datenmenge ist also eine Milliarde Mal so toll wie diese Folie.

As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.

(Gelächter)

(Laughter)

(Applaus)

(Applause)

JM: Es gibt noch viele andere Bilder, die mehr als 500 Milliarden Wörter sagen. Zum Beispiel dieses. Wenn man „influenza“ eingibt, sieht man Hochpunkte an Stellen von denen man weiß, dass große Grippeepidemien Menschen in der ganzen Welt töteten.

JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.

ELA: Wenn du noch nicht überzeugt bist, der Meeresspiegel steigt an, genauso wie atmosphärisches CO2 und die globale Temperatur.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

JM: Schauen wir uns auch dieses Ngramm an, um Nietzsche sagen zu können, dass Gott doch nicht tot ist, obwohl ihr vielleicht auch der Meinung seid, dass er einen besseren Publizist braucht.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

(Gelächter)

(Laughter)

ELA: Hiermit kann man ziemlich abstrakte Konzepte ableiten. Lasst mich zum Beispiel die Geschichte des Jahres 1950 erzählen. Für den größten Teil der Geschichte war 1950 allen scheißegal. In den Jahren 1700, 1800, 1900, war es allen egal. In den 30ern und 40ern, war es allen egal. Plötzlich, mitten in den 40ern, wurde jeder aufgeregt. Es wurde erkannt, dass 1950 kommen würde und, dass es etwas Großes sein könnte. (Gelächter) Aber nichts hat solches Interesse an 1950 erzeugt, wie das Jahr 1950. (Gelächter) Die Leute waren besessen. Sie konnten nicht aufhören über all die Sachen zu reden, die sie in 1950 gemacht hatten, in 1950 machen wollten, die ganzen Träume, die sie in 1950 verwirklichen wollten. 1950 war sogar so faszinierend, dass noch Jahre danach über die fantastischen Sachen geredet wurde, die sich ereigneten, in den Jahren ’51, ’52, ’53. Endlich in 1954 wachte jemand auf und merkte, dass 1950 nun passé sei. (Gelächter) Und so einfach zerplatzte die Blase.

ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.

(Gelächter)

(Laughter)

Und die Geschichte von 1950 ist die Geschichte von jedem aufgezeichneten Jahr, mit einer kleinen Wende, denn jetzt wir haben diese schönen Grafiken. Und weil wir diese schönen Grafiken haben, können wir Dinge messen. Wir können sagen: „Na, wie schnell zerplatzt denn die Blase?“ Und wir haben herausgefunden, dass wir das sehr genau messen können. Gleichungen wurden hergeleitet, Graphen wurden erzeugt, und das Endergebnis zeigt uns, dass die Blasen mit jedem Jahr schneller und schneller zerplatzen. Wir verlieren schneller unser Interesse an der Vergangenheit.

And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.

JM: Ein kleiner Karrieretip. Für diejenigen von euch die berühmt werden wollen, können wir von den 25 berühmtesten Politikern, Autoren, Schauspielern usw. lernen. Also wenn du früh berühmt werden willst, solltest du Schauspieler werden, weil die Berühmtheit dann gegen Ende deiner 20er kommt - du bist noch jung, es ist wirklich großartig. Wenn du aber ein bisschen warten kannst, solltest du Autor werden, weil du dann sehr große Höhen erreichst, wie zum Beispiel Mark Twain: extrem berühmt. Aber wenn du den Gipfel erreichen willst, solltest du deinen Erfolg verschieben und natürlich Politiker werden. Damit wird man gegen Ende seiner 50er berühmt, und nachher sehr, sehr berühmt. Wissenschaftler werden häufig auch erst berühmt wenn sie älter sind. Zum Beispiel, Biologen und Physiker werden oft fast so berühmt wie Schauspieler. Einen Fehler den du aber vermeiden solltest, ist Mathematiker zu werden. (Gelächter) Wenn du das machst, denkst du dir: „Genial! Ich mache meine beste Arbeit in meinen 20ern“. Aber stelle dir vor, es wird sich keiner interessieren.

JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.

(Gelächter)

(Laughter)

ELA: Es gibt auch ernüchterndere Seiten der Ngramme. Zum Beispiel, hier ist die Kurve von Marc Chagall, ein 1887 geborener Künstler. Die Kurve verläuft normal für eine berühmte Person. Er wird berühmter und berühmter, außer wenn man auf Deutsch sucht. Wenn man im Deutschen sucht, sieht man etwas sehr Bizarres, etwas was man fast nie sieht. Er wird extrem berühmt und stürzt dann auf einmal zwischen 1933 und 1945 bis zum Tiefpunkt und erholt sich nachher wieder. Was wir hier natürlich sehen ist, dass Marc Chagall ein jüdischer Künstler in Nazi-Deutschland war.

ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.

Diese Zeichen sind tatsächlich so stark, dass wir gar nicht wissen müssen, dass jemand zensiert wurde. Wir können es durch ganz elementare Datenverarbeitung herausfinden. Hier ist eine einfache Methode dafür. Eine sinnvolle Erwartung wäre, dass Berühmtheit in einer bestimmten Zeitspanne ungefähr gleich dem Durchschnitt der Berühmtheit vorher und dem nachher ist. Das ist also mehr oder weniger was wir erwarten. Und dies vergleichen wir mit der beobachtbaren Berühmtheit. Und wir dividieren halt das Eine durch das Andere, um einen sogenannten Unterdrückungsindex zu erzeugen. Wenn dieser Unterdrückungsindex sehr, sehr, sehr klein ist, dann kann es gut sein, dass du unterdrückt wirst. Wenn es sehr groß ist, dann profitierst du vielleicht von Propaganda.

Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.

JM: Man kann sich tatsächlich die Verteilung von Unterdrückungsindizes ganzer Populationen ansehen. Wie hier zum Beispiel - dieser Unterdrückungsindex ist für 5.000 Menschen aus englischen Büchern, für die es keine bekannte Unterdrückung gibt. Es sähe dann so aus, ziemlich genau eins. Was man erwartet ist im Grunde das, was man beobachtet. Dies ist die Verteilung in Deutschland - sehr anders, nach links verschoben. Darüber wurde zweimal weniger gesprochen als zu erwarten wäre. Aber viel wichtiger ist, dass die Verteilung viel breiter ist. Es gibt viele Leute, die am ganz linken Rand dieser Verteilung sind, von denen zehnmal weniger gesprochen wurde als erwartet. Aber außerdem viele ganz rechts, die anscheinend von Propaganda profitiert haben. Dies ist das typische Bild der Zensur in literarischen Aufzeichnungen.

JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.

ELA: Kulturomik nennen wir diese Methode. Es ist ungefähr wie Genomik. Doch Genomik ist mehr oder weniger ein Blick auf Biologie durch das Fenster der Sequenzen der Basen im menschlichen Genom. Kulturomik ist so ähnlich. Sie ist die Anwendungsanalyse einer Massendatensammlung auf die Erforschung der menschlichen Kultur. Hier blickt man, statt durch das Genom, durch digitalisierte Stücke der historischen Aufzeichnungen. Das Großartige an Kulturomik ist, dass es jeder machen kann. Warum kann es jeder machen? Jeder kann es machen, weil drei Typen von Google, Jon Orwant, Matt Gray und Will Brockman den Prototyp des Ngram Viewers sahen und sagten: „Das ist so ein Spaß. Dies müssen wir allen zugänglich machen.“ Und innerhalb von zwei Wochen - genau bevor unser Artikel erschienen ist - haben sie eine öffentliche Version des Ngram Viewers programmiert. Und jetzt kannst du auch irgendein interessantes Wort oder Redewendung eingeben und sofort das Ngram davon sehen - und auch Beispiele der ganzen verschiedenen Bücher, in denen dein Ngram auftaucht, durchsuchen.

ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.

JM: Dies wurde am ersten Tag über eine Million Mal genutzt, und das ist wirklich die beste aller Suchanfragen. Leute wollen ihr Bestes geben, sich hervortun. Aber es scheint, dass im 18. Jahrhundert das ziemlich egal war. Damals wollten sie nicht ihr Bestes geben, sondern ihr Beftes. Was hier natürlich passiert ist, ist nur ein Fehler. Es ist nicht, dass sie nach Mittelmäßigkeit strebten, sondern nur, dass das S früher anders geschrieben wurde, eher so wie ein F. Das hat Google anfangs natürlich nicht gemerkt, also haben wir das in unserem wissenschaftlichen Artikel berichtet. Das soll nur als Erinnerung dienen, dass man, obwohl es Spaß macht, diese Graphen mit Vorsicht interpretieren muss, und die Grundnormen der Wissenschaft anwendet.

JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.

ELA: Bisher ist es für viele lustige Zwecke genutzt worden. (Gelächter) Eigentlich müssen wir gar nicht reden, wir zeigen euch einfach diese Folien und schweigen. Diese Person hat sich für die Geschichte der Frustration interessiert. Es gibt verschiedene Arten von Frustration. Wenn man sich den Zeh stößt, bedeutet das ein „argh“ mit einem A. Wenn die Erde von den Vogonen vernichtet wird, um Platz für eine interstellare Umgehungsstraße zu machen, bedeutet das ein „aaaaaaaargh“ mit acht A. Diese Person beobachtet die ganzen „arghs“ von einem A bis acht A. Und es stellte sich heraus, dass die weniger häufigen „arghs“ selbstverständlich die sind, die sich auf frustrierendere Sachen beziehen - außer, seltsamerweise, in den früheren 80ern. Wir glauben, das hat vielleicht etwas mit Reagan zu tun.

ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.

(Gelächter)

(Laughter)

JM: Es gibt viele Verwendungen dieser Daten, aber im Endeffekt werden die historischen Aufzeichnungen digitalisiert. Google hat angefangen 15 Millionen Bücher zu digitalisieren. Das sind 12 Prozent aller Bücher, die je verlegt wurden. Ein beträchtlicher Teil der menschlichen Kultur. Es gibt viel mehr in der Kultur: es gibt Manuskripte, Zeitungen, es gibt Sachen die nicht Text sind, wie Kunst und Gemälde. All dies ist zufälligerweise auf unseren Computern, auf Computern auf der ganzen Welt. Und wenn das passiert, muss das unser Verständnis für unsere Vergangenheit, unsere Gegenwart und die menschliche Kultur verändern.

JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.

Vielen Dank.

Thank you very much.

(Applaus)

(Applause)

(Applaus)

(Applause)

(Gelächter)

(Laughter)

(Gelächter)

(Laughter)

(Applaus)

(Applause)

ELA: Wenn du noch nicht überzeugt bist, der Meeresspiegel steigt an, genauso wie atmosphärisches CO2 und die globale Temperatur.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

JM: Schauen wir uns auch dieses Ngramm an, um Nietzsche sagen zu können, dass Gott doch nicht tot ist, obwohl ihr vielleicht auch der Meinung seid, dass er einen besseren Publizist braucht.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

(Gelächter)

(Laughter)

(Gelächter)

(Laughter)

(Gelächter)

(Laughter)

(Gelächter)

(Laughter)

Vielen Dank.

Thank you very much.

(Applaus)

(Applause)

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?