Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Έρεζ Λίμπερμαν Έιντεν: Είναι γνωστό ότι μια εικόνα αξίζει χίλιες λέξεις. Αλλά εμείς στο Χάρβαρντ αναρωτιόμασταν αν αυτό αληθεύει. (Γέλια) Έτσι, μαζέψαμε μια ομάδα ειδικών από το Χαρβαρντ, το ΜΙΤ, το Λεξικό Αμερικανικής Κληρονομιάς, την εγκυκλοπαίδεια Μπριτάνικα και τους περήφανους χορηγούς μας, την Google. Και πέσαμε σε βαθιά περισυλλογή για περίπου τέσσερα χρόνια. Καταλήξαμε σε ένα τρομακτικό συμπέρασμα. Κυρίες και κύριοι, μια εικόνα δεν αξίζει 1.000 λέξεις. Πράγματι, βρήκαμε εικόνες που αξίζουν 500 δις λέξεις.

Erez Lieberman Aiden: Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true. (Laughter) So we assembled a team of experts, spanning Harvard, MIT, The American Heritage Dictionary, The Encyclopedia Britannica and even our proud sponsors, the Google. And we cogitated about this for about four years. And we came to a startling conclusion. Ladies and gentlemen, a picture is not worth a thousand words. In fact, we found some pictures that are worth 500 billion words.

Ζαν-Μπατίστ Μισέλ: Πώς καταλήξαμε σε αυτό το συμπέρασμα; Ο Έρεζ και εγώ σκεφτόμασταν τρόπους για να δούμε μία συνολική εικόνα του ανθρώπινου πολιτισμού και της ανθρώπινης ιστορίας: αλλαγή μέσα στον χρόνο. Πάρα πολλά βιβλία γράφτηκαν στη διάρκεια των χρόνων Έτσι σκεφτήκαμε ότι ο καλύτερος τρόπος να μάθουμε κάτι από αυτά είναι να τα διαβάσουμε όλα. Τώρα βέβαια, αν υπάρχει μια κλίμακα για το πόσο "φανταστικό" είναι αυτό τότε πρέπει να φιγουράρει πολύ ψηλά. Τώρα το πρόβλημα εδώ είναι ότι υπάρχει ο άξονας του χ, ο οποίος είναι ο άξονας της πρακτικότητας. Αυτή βρίσκεται πολύ, πολύ χαμηλά.

Jean-Baptiste Michel: So how did we get to this conclusion? So Erez and I were thinking about ways to get a big picture of human culture and human history: change over time. So many books actually have been written over the years. So we were thinking, well the best way to learn from them is to read all of these millions of books. Now of course, if there's a scale for how awesome that is, that has to rank extremely, extremely high. Now the problem is there's an X-axis for that, which is the practical axis. This is very, very low.

(Χειροκρότημα)

(Applause)

Τώρα ο κόσμος τείνει να έχει μια διαφορετική προσέγγιση, η οποία είναι να παίρνεις μόνο μερικές πηγές και να τις διαβάζεις πολύ προσεκτικά. Αυτό είναι πολύ πρακτικό αλλά όχι "φανταστικό" Αυτό που πραγματικά θέλουμε να κάνουμε είναι να φτάσουμε στο πρακτικό και "φανταστικό" κομμάτι αυτού του μέρους. Λοιπόν, υπάρχει μια εταιρεία στην άλλη μεριά του ποταμού που λέγεται Google™ η οποία πριν από μερικά χρόνια ξεκίνησε ένα έργο ψηφιοποίησης το οποιό θα επέτρεπε αυτή την προσέγγιση. Ψηφιοποίησαν εκατομμύρια βιβλία. Αυτό σημαίνει ότι κάποιος θα μπορούσε να χρησιμοποιήσει υπολογιστικές μεθόδους για να διαβάσει όλα τα βιβλία με το πάτημα ενός κουμπιού. Αυτό είναι πολύ πρακτικό και πάρα πολύ "φανταστικό".

Now people tend to use an alternative approach, which is to take a few sources and read them very carefully. This is extremely practical, but not so awesome. What you really want to do is to get to the awesome yet practical part of this space. So it turns out there was a company across the river called Google who had started a digitization project a few years back that might just enable this approach. They have digitized millions of books. So what that means is, one could use computational methods to read all of the books in a click of a button. That's very practical and extremely awesome.

ΕΛΕ: Επιτρέψτε μου να σας μιλήσω λίγο για την προέλευση των βιβλίων. Οι συγγραφείς υπάρχουν από αμνημονεύτων χρόνων. Αυτοί οι συγγραφείς προσπαθούσαν να γράψουν βιβλία. Αυτό έγινε πολύ ευκολότερο με την ανακάλυψη της τυπογραφίας πριν από μερικους αιώνες. Από τότε οι συγγραφείς κατάφεραν, σε 129 εκ. ξεχωριστές περιπτώσεις, να εκδώσουν βιβλία Αν τώρα, αυτά τα βιβλία δεν χάθηκαν κάπου μέσα στην ιστορία, τότε είναι σε κάποια βιβλιοθήκη και πολλά από αυτά τα βιβλία η Google τα πήρε από τη βιβλιοθήκη και τα ψηφιοποίησε, σαρώνοντας μέχρι σήμερα 15 εκατομμύρια βιβλία.

ELA: Let me tell you a little bit about where books come from. Since time immemorial, there have been authors. These authors have been striving to write books. And this became considerably easier with the development of the printing press some centuries ago. Since then, the authors have won on 129 million distinct occasions, publishing books. Now if those books are not lost to history, then they are somewhere in a library, and many of those books have been getting retrieved from the libraries and digitized by Google, which has scanned 15 million books to date.

Όταν η Google ψηφιοποιεί ένα βιβλίο, το μετατρέπει σε μια πολύ όμορφη μορφή. Έχουμε τα δεδομένα (data) και τα μεταδεδομένα (metadata) Έχουμε πληροφορίες για πράγματα όπως, τον τόπο έκδοσης, το συγγραφέα, την ημερομηνία έκδοσης. Και αυτό που κάνουμε είναι να περνάμε από όλα αυτα τα αρχεία και να αποκλείουμε οποιοδήποτε δεδομένο δεν είναι υψηλής ποιότητας. Στο τέλος μας μένει μια συλλογή από 5 εκατομμύρια βιβλία, 500 δισεκατομμύρια λέξεις, μια αλυσίδα χαρακτήρων χίλιες φορές μεγαλύτερη από το ανθρώπινο γονιδίωμα. Ένα κείμενο το οποίο γραμμένο θα έφτανε από εδώ μέχρι το φεγγάρι και πάλι πίσω πάνω από 10 φορές -- ένα αληθινό κομμάτι του πολιτιστικού μας γονιδιώματος Βέβαια αυτό που κάναμε, όταν βρεθήκαμε αντιμέτωποι με μια τέτοια υπερβολή... (Γέλια) ήταν αυτό που θα έκανε οποιοσδήποτε ερευνητής σέβεται τον εαυτό του Διαλέξαμε μια σελιδα απο το XKCD, και είπαμε, "Σταθείτε. Θα εφαρμόσουμε επιστήμη."

Now when Google digitizes a book, they put it into a really nice format. Now we've got the data, plus we have metadata. We have information about things like where was it published, who was the author, when was it published. And what we do is go through all of those records and exclude everything that's not the highest quality data. What we're left with is a collection of five million books, 500 billion words, a string of characters a thousand times longer than the human genome -- a text which, when written out, would stretch from here to the Moon and back 10 times over -- a veritable shard of our cultural genome. Of course what we did when faced with such outrageous hyperbole ... (Laughter) was what any self-respecting researchers would have done. We took a page out of XKCD, and we said, "Stand back. We're going to try science."

(Γέλια)

(Laughter)

ΖΜ: Βέβαια, σκεφτήκαμε, ας διαθέσουμε πρώτα τα δεδομένα σε όλους για να μπορέσουν να τα επεξεργαστούν επιστημονικά. Μετά σκεφτήκαμε, τι δεδομένα μπορούμε να διαθέσουμε; Αυτό που θέλεις να κάνεις, είναι να πάρεις τα βιβλία½ και να διαθέσεις το πλήρες κείμενο και των 5 εκ. βιβλίων Τώρα η Google, και συγκεκριμένα ο Τζον Όργουαντ, μας είπαν μια εξίσωση που έπρεπε να μάθουμε. Έχεις 5 εκατομμύρια βιβλία, δηλαδή 5 εκατομμύρια συγγραφείς και 5 εκατομμύρια ενάγοντες που σημαίνει μια τεράστια αγωγή. Έτσι, παρ' ότι αυτό θα ήταν πολύ, μα πολύ "φανταστικό" δεν θα ήταν καθόλου μα καθόλου πρακτικό. (Γέλια)

JM: Now of course, we were thinking, well let's just first put the data out there for people to do science to it. Now we're thinking, what data can we release? Well of course, you want to take the books and release the full text of these five million books. Now Google, and Jon Orwant in particular, told us a little equation that we should learn. So you have five million, that is, five million authors and five million plaintiffs is a massive lawsuit. So, although that would be really, really awesome, again, that's extremely, extremely impractical. (Laughter)

Για άλλη μια φορά βεβαια, σχεδόν υποκύψαμε, και διαλέξαμε την πολύ πρακτική προσέγγιση, που ήταν λίγο λιγότερο "φανταστική". Είπαμε ότι αντί να διαθέσουμε το πλήρες κείμενο, θα διαθέσουμε στατιστικά για τα βιβλία. Έτσι για παράδειγμα, η φράση "A gleam of happiness." Έχει τέσσερεις λέξεις; το ονομάζουμε τετρ-ακολουθία. Θα σας πούμε πόσες φορές εμφανίστηκε μια συγκεκριμένη τετρ-ακολουθία σε βιβλία το 1801, 1802, 1803, μέχρι το 2008. Αυτό μας δίνει ένα χρονικό διάγραμμα για το πόσο συχνά χρησιμοποιήθηκε η συγκεκριμένη πρόταση μέσα στο χρόνο. Αυτό το κάνουμε για όλες τις λέξεις και προτάσεις που εμφανίζονταν σε αυτά τα βιβλία, και αυτό μας δίνει έναν μεγάλο πίνακα 2 δισεκατομμυρίων γραμμών που μας λέει τον τρόπο που μεταβάλλεται ο πολιτισμός μας.

Now again, we kind of caved in, and we did the very practical approach, which was a bit less awesome. We said, well instead of releasing the full text, we're going to release statistics about the books. So take for instance "A gleam of happiness." It's four words; we call that a four-gram. We're going to tell you how many times a particular four-gram appeared in books in 1801, 1802, 1803, all the way up to 2008. That gives us a time series of how frequently this particular sentence was used over time. We do that for all the words and phrases that appear in those books, and that gives us a big table of two billion lines that tell us about the way culture has been changing.

EΛΕ: Έτσι αυτές τις 2 δισεκατομμύρια γραμμές, τις ονομάζουμε 2 δις. ν-ακολουθίες. Τι μας λένε; Οι μεμονωμένες ν-ακολουθίες μετράνε πολιτιστικές τάσεις. Ας σας δώσω ένα παράδειγμα. Ας υποθέσουμε ότι σήμερα επιτυγχάνω, και αύριο θέλω να σας πω πόσο καλά τα πήγα. Έτσι μπορώ να πω, "Εχθές, πέτυχα" Ή εναλλακτικά μπορώ να πω, "Εχθές, επέτυχα" Ποιο πρέπει να χρησιμοποιήσω; Πώς να το ξέρω;

ELA: So those two billion lines, we call them two billion n-grams. What do they tell us? Well the individual n-grams measure cultural trends. Let me give you an example. Let's suppose that I am thriving, then tomorrow I want to tell you about how well I did. And so I might say, "Yesterday, I throve." Alternatively, I could say, "Yesterday, I thrived." Well which one should I use? How to know?

Μέχρι πριν από έξι μήνες το καλύτερο που θα μπορούσες να κάνεις θα ήταν, για παράδειγμα, να πας στο συγκεκριμένο ψυχολόγο με τα καταπληκτικά μαλλιά, και να του πεις, "Στιβ, μιας και είσαι ειδήμων στα ανώμαλα ρήματα. τι πρέπει να κάνω;" Και αυτός θα σου έλεγε, "Οι περισσότεροι λένε πέτυχα, αλλά μερικοί λένε και επέτυχα." Και επίσης ήξερες, λίγο ή πολύ, ότι αν πας 200 χρόνια πίσω στο χρόνο, και ρωτήσεις το συγκεκριμένο πολιτικό με εξίσου καταπληκτικά μαλλιά (Γέλια) "Τομ, τι πρέπει να πω;" Θα έλεγε, "Στις μέρες μου, οι περισσότεροι επέτυχαν, αλλά κάποιοι πέτυχαν." Οπότε τώρα θα σας δείξω τα ακατέργαστα δεδομένα. Δύο γραμμές από τον πίνακα των 2 δις. γραμμών. Αυτό που βλέπετε είναι η συχνότητα ανά χρόνο που εμφανίζεται το "πέτυχα" (thrived) και το "επέτυχα" (throve) Αυτές είναι μόνο δύο από τις 2 δις. γραμμές. Έτσι το σύνολο των δεδομένων είναι ένα δις. φορές πιο "φανταστικό" από αυτό το γράφημα.

As of about six months ago, the state of the art in this field is that you would, for instance, go up to the following psychologist with fabulous hair, and you'd say, "Steve, you're an expert on the irregular verbs. What should I do?" And he'd tell you, "Well most people say thrived, but some people say throve." And you also knew, more or less, that if you were to go back in time 200 years and ask the following statesman with equally fabulous hair, (Laughter) "Tom, what should I say?" He'd say, "Well, in my day, most people throve, but some thrived." So now what I'm just going to show you is raw data. Two rows from this table of two billion entries. What you're seeing is year by year frequency of "thrived" and "throve" over time. Now this is just two out of two billion rows. So the entire data set is a billion times more awesome than this slide.

(Γέλια)

(Laughter)

(Χειροκρότημα)

(Applause)

ΖΜ: Τώρα, υπάρχουν πολλές άλλες φωτογραφίες που αξίζουν 500 δις. λέξεις. Για παράδειγμα, αυτή. Αν για παράδειγμα δείτε τη λέξη "γρίπη", θα δείτε ότι κορυφώνεται την περίοδο όπου οι μεγάλες επιδημίες της γρίπης, σκότωναν ανθρώπους ανά τον κόσμο

JM: Now there are many other pictures that are worth 500 billion words. For instance, this one. If you just take influenza, you will see peaks at the time where you knew big flu epidemics were killing people around the globe.

EΛΕ: Αν δεν έχετε πεισθεί ακόμα, η στάθμη της θάλασσας ανεβαίνει, όπως και το ατμοσφαιρικό διοξείδιο του άνθρακα και η παγκόσμια θερμοκρασία.

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

ΖΜ: Ίσως θα θέλατε να κοιτάξετε και αυτή τη συγκεκριμένη ν-ακολουθία, και αυτό για να πείτε στο Νίτσε ότι ο Θεός δεν έχει πεθάνει, παρ' ότι μπορεί να συμφωνήσετε ότι θα χρειαζόταν έναν καλύτερο εκδότη.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

(Γέλια)

(Laughter)

EΛΕ: Μπορείς να καταλήξεις σε πολύ αφηρημένες έννοιες με αυτή τη μέθοδο. Για παράδειγμα, να σας διηγηθώ την ιστορία του έτους 1950. Για το μεγαλύτερο διάστημα της παγκόσμιας ιστορίας, κανείς δεν νοιάστηκε για το 1950. Το 1700, το 1800, το 1900, κανείς δεν νοιάστηκε. Τις δεκαετίες του '30 και του '40 κανείς δεν νοιάστηκε. Ξαφνικά, στα μέσα της δεκαετίας του '40 άρχισε να δημιουργείται ένας θόρυβος. Οι άνθρωποι άρχισαν να πιστεύουν ότι το 1950 θα ερχόταν, και θα μπορούσε να είναι σημαντικό. (Γέλια) Αλλά τίποτα δεν απασχόλησε τους ανθρώπους για το 1950 περισσότερο απο το έτος 1950. (Γέλια) Είχε γίνει πλέον εμμονή. Δεν μπορούσαν να σταματήσουν να μιλάνε για όλα τα πράγματα που έκαναν το 1950, όλα τα πράγματα που σκόπευαν να κάνουν το 1950, όλα τα όνειρα που ήθελαν να πραγματοποιήσουν το 1950. Στην πραγματικότητα το έτος 1950 ήταν τόσο συναρπαστικό, που για χρόνια αργότερα, οι άνθρωποι συνέχισαν να μιλάνε για τα εκπληκτικά πράγματα που συνέβησαν, το '51, '52, '53. Ξαφνικά το 1954, κάποιος ξύπνησε και συνειδητοποίησε ότι το 1950 με κάποιο τρόπο... είχε ξεπεραστεί. (Γέλια) Και κάπως έτσι, έσκασε η φούσκα.

ELA: You can get at some pretty abstract concepts with this sort of thing. For instance, let me tell you the history of the year 1950. Pretty much for the vast majority of history, no one gave a damn about 1950. In 1700, in 1800, in 1900, no one cared. Through the 30s and 40s, no one cared. Suddenly, in the mid-40s, there started to be a buzz. People realized that 1950 was going to happen, and it could be big. (Laughter) But nothing got people interested in 1950 like the year 1950. (Laughter) People were walking around obsessed. They couldn't stop talking about all the things they did in 1950, all the things they were planning to do in 1950, all the dreams of what they wanted to accomplish in 1950. In fact, 1950 was so fascinating that for years thereafter, people just kept talking about all the amazing things that happened, in '51, '52, '53. Finally in 1954, someone woke up and realized that 1950 had gotten somewhat passé. (Laughter) And just like that, the bubble burst.

(Γέλια)

(Laughter)

Και η ιστορία του 1950, είναι η ιστορία κάθε χρόνου που έχουμε καταγράψει, με μικρές αλλαγές, αφού πλέον έχουμε αυτά τα όμορφα γραφήματα. Και επειδή έχουμε αυτά τα όμορφα γραφήματα, μπορούμε πλέον να μετρήσουμε. Μπορούμε να αναρωτηθούμε, "Πόσο γρήγορα σκάει η φούσκα?" Και φαίνεται ότι μπορούμε να το μετρήσουμε με μεγάλη ακρίβεια. Ανακαλύψαμε εξισώσεις, παρήγαμε γραφήματα, και το καθαρό αποτέλεσμα ήταν ότι η φούσκα σκάει όλο και γρηγορότερα χρόνο με τον χρόνο. Χάνουμε το ενδιαφέρον μας για το παρελθόν όλο και πιο γρήγορα.

And the story of 1950 is the story of every year that we have on record, with a little twist, because now we've got these nice charts. And because we have these nice charts, we can measure things. We can say, "Well how fast does the bubble burst?" And it turns out that we can measure that very precisely. Equations were derived, graphs were produced, and the net result is that we find that the bubble bursts faster and faster with each passing year. We are losing interest in the past more rapidly.

ΖM: Και τώρα μια μικρή επαγγελματική συμβουλή. Για εσάς που θέλετε να γίνεται διάσημοι, μπορείτε να συμβουλευθείτε τους 25 πιο διάσημους πολιτικούς, συγγραφείς, ηθοποιούς, κλπ. Έτσι αν θέλετε να γίνετε γρήγορα διάσημος, θα πρέπει να γίνετε ηθοποιός γιατί η φήμη αρχίζει να ανεβαίνει μέχρι το τέλος των 20 -- είστε ακόμα νέος και είναι καταπληκτικά. Τώρα, αν μπορείτε να περιμένετε λίγο, θα πρέπει να γίνετε συγγραφέας, γιατί μετά γίνεστε πολύ διάσημος, σαν τον Μαρκ Τουέϊν, για παράδειγμα, πολύ διάσημος. Αλλά αν θέλετε να φτάσετε στην κορυφή θα πρέπει να καθυστερήσετε την ικανοποίηση και φυσικά να γίνετε πολιτικός. Έτσι θα γίνετε διάσημος μέχρι το τέλος των 50, και θα γίνετε πολύ, πολύ διάσημος αργότερα. Επίσης οι επιστήμονες τείνουν να γίνονται διάσημοι όταν είναι πολύ μεγαλύτεροι. Για παράδειγμα οι βιολόγοι και οι φυσικοί, τείνουν να γίνονται σχεδόν όσο διάσημοι και οι ηθοποιοί. Ένα λάθος που δεν πρέπει να κάνετε είναι να γίνετε μαθηματικός. (Γέλια) Αν το κάνετε αυτό, θα πρέπει να σκεφθείτε, "Ωραία, θα κάνω την καλύτερή μου δουλειά στα 20 μου." Αλλά μαντέψτε! Δεν θα νοιάζει κανέναν.

JM: Now a little piece of career advice. So for those of you who seek to be famous, we can learn from the 25 most famous political figures, authors, actors and so on. So if you want to become famous early on, you should be an actor, because then fame starts rising by the end of your 20s -- you're still young, it's really great. Now if you can wait a little bit, you should be an author, because then you rise to very great heights, like Mark Twain, for instance: extremely famous. But if you want to reach the very top, you should delay gratification and, of course, become a politician. So here you will become famous by the end of your 50s, and become very, very famous afterward. So scientists also tend to get famous when they're much older. Like for instance, biologists and physics tend to be almost as famous as actors. One mistake you should not do is become a mathematician. (Laughter) If you do that, you might think, "Oh great. I'm going to do my best work when I'm in my 20s." But guess what, nobody will really care.

(Γέλια)

(Laughter)

EΛΕ: Υπάρχουν, όμως και πιο απογοητευτικά στοιχεία στις n-ακολουθίες (n-grams). Για παράδειγμα αυτό είναι το γράφημα του Μαρκ Σαγκάλ, ενός καλλιτέχνη γεννημένου το 1887. Και φαίνεται σαν ένα συνηθισμένο γράφημα διάσημου ανθρώπου. Γίνετε όλο και όλο πιο διάσημος, εκτός αν κοιτάξεις τα Γερμανικά. Αν κοιτάξεις τα Γερμανικά, βλέπεις κάτι πολύ περίεργο, κάτι που δεν βλέπεις σχεδόν ποτέ, το οποίο είναι ότι γίνεται υπερβολικά διάσημος, και μετά ξαφνικά πέφτει, βρισκόμενος στο ναδίρ μεταξύ 1933 και 1945, λίγο πριν ανακάμψει αμέσως μετά. Και φυσικά, αυτο που βλεπουμε, είναι ότι ο Μαρκ Σαγκάλ ήταν ένας Εβραίος καλλιτέχνης στην ναζιστική Γερμανία.

ELA: There are more sobering notes among the n-grams. For instance, here's the trajectory of Marc Chagall, an artist born in 1887. And this looks like the normal trajectory of a famous person. He gets more and more and more famous, except if you look in German. If you look in German, you see something completely bizarre, something you pretty much never see, which is he becomes extremely famous and then all of a sudden plummets, going through a nadir between 1933 and 1945, before rebounding afterward. And of course, what we're seeing is the fact Marc Chagall was a Jewish artist in Nazi Germany.

Αυτά τα τρία σημάδια είναι τόσο δυνατά που δεν χρειάζεται καν να ξέρουμε ότι κάποιος λογοκρίθηκε. Μπορούμε να το συμπεράνουμε επεξεργαζόμενοι πολύ βασικα σήματα. Να ένας απλός τρόπος. Μια λογική προσδοκία είναι ότι η φήμη κάποιου σε μια δεδομένη στιγμή πρέπει να είναι ο μέσος όρος της φήμης του πριν και της φήμης του μετά. Οπότε περιμένουμε περίπου αυτό. Και το συγκρίνουμε με τη φήμη που παρατηρούμε. Και απλά διαιρούμε το ένα με το άλλο για να πάρουμε κάτι που το αποκαλούμε συντελεστή καταστολής. Αν ο συντελεστής καταστολής είναι πολύ, πολύ μικρος τότε πιθανότατα έχετε δεχθεί καταστολή. Αν είναι πολύ μεγάλος, τότε μάλλον έχετε επωφεληθεί από προπαγάνδα.

Now these signals are actually so strong that we don't need to know that someone was censored. We can actually figure it out using really basic signal processing. Here's a simple way to do it. Well, a reasonable expectation is that somebody's fame in a given period of time should be roughly the average of their fame before and their fame after. So that's sort of what we expect. And we compare that to the fame that we observe. And we just divide one by the other to produce something we call a suppression index. If the suppression index is very, very, very small, then you very well might be being suppressed. If it's very large, maybe you're benefiting from propaganda.

ΖΜ: Τώρα μπορείτε να δείτε την κατανομή συντελεστών καταστολής σε ολόκληρους πληθυσμούς. Για παράδειγμα, εδώ -- αυτός ο συντελεστής καταστολής είναι για 5.000 ανθρώπους που διαλέχθηκαν από Αγγλικά βιβλία όπου δεν υπάρχει κάποιου είδους καταστολή -- θα ήταν έτσι, βασικά πιο επικεντρωμένο στο ένα. Αυτό που περιμένεις βασικά, είναι αυτό που παρατηρείς. Αυτή είναι η κατανομή στη Γερμανία -- πολύ διαφορετική, έχει μετακινηθεί αριστερά. Οι άνθρωποι μιλάνε δύο φορές λιγότερο γι' αυτό απ' ότι θα έπρεπε. Αλλά ακόμα πιο σημαντικό είναι ότι η κατανομή είναι πολύ πλατύτερη. Υπάρχουν πολλοί άνθρωποι που καταλήγουν τέρμα αριστερά στην κατανομή που αναφέρονται 10 φορές λιγότερο απ' ό,τι θα έπρεπε. Αλλά επίσης και πολύ άνθρωποι τέρμα δεξιά που φαίνεται να ευνοούνται από την προπαγάνδα. Αυτή η εικόνα είναι το σήμα κατατεθέν της λογοκρισίας στα βιβλία.

JM: Now you can actually look at the distribution of suppression indexes over whole populations. So for instance, here -- this suppression index is for 5,000 people picked in English books where there's no known suppression -- it would be like this, basically tightly centered on one. What you expect is basically what you observe. This is distribution as seen in Germany -- very different, it's shifted to the left. People talked about it twice less as it should have been. But much more importantly, the distribution is much wider. There are many people who end up on the far left on this distribution who are talked about 10 times fewer than they should have been. But then also many people on the far right who seem to benefit from propaganda. This picture is the hallmark of censorship in the book record.

ΕΛΕ: Οπότε, ονομάζουμε αυτή τη μέθοδο "πολιτιστικο-ματική" (culturomics). Είναι σαν τη γονιδιωματική. Εκτός του ότι η γονιδιωματική είναι μια ματιά στη βιολογία μέσα από το φακό της συχνότητας βάσης στο ανθρώπινο γονιδίωμα. Η "Πολιτιστικο-ματική" (culturomics) είναι παρόμοια. Είναι η εφαρμογή ανάλυσης σε συλλογές δεδομένων τεραστίων διαστάσεων για τη μελέτη του ανθρώπινου πολιτισμού. Εδώ αντί να κοιτάμε μέσα από τον φακό του γονιδιώματος κοιτάμε μέσα απο τον φακό ψηφιοποιημένων κομματιών των καταγραφών της ιστορίας. Το καλό με την "Πολιτιστικο-ματική" (culturomics) είναι οτι όλοι μπορούν να το κάνουν. Γιατί μπορούν όλοι να το κάνουν; Όλοι μπορούν να το κάνουν, επειδή αυτοί οι τρεις τύποι, ο Τζον Όρουαντ, ο Ματ Γκρέι και ο Ουίλ Μπρόκμαν στην Google, είδαν το πρωτότυπο του "προβολέα ν-ακολουθιών" (n-gram Viewer) και είπαν. "Αυτό είναι πολύ διασκεδαστικό. Πρέπει να το κάνουμε διαθέσιμο σε όλους." Έτσι μέσα σε μόλις δύο εβδομάδες -- δυο εβδομάδες πριν δημοσιευθεί η εργασία μας -- κατάφεραν να κρυπτογραφήσουν μια έκδοση του "προβολέα ν-ακολουθιών" (n-gram Viewer) για το κοινό. Κι έτσι μπορείτε να γράψετε οποιαδήποτε λέξη ή πρόταση θέλετε και να δείτε την ν-ακολουθία της (n-gram) αμέσως -- Επίσης μπορείτε να αναζητήσετε παραδείγματα από τα διάφορα βιβλία οπού η ν-ακολουθιά σας (n-gram) εμφανίζεται.

ELA: So culturomics is what we call this method. It's kind of like genomics. Except genomics is a lens on biology through the window of the sequence of bases in the human genome. Culturomics is similar. It's the application of massive-scale data collection analysis to the study of human culture. Here, instead of through the lens of a genome, through the lens of digitized pieces of the historical record. The great thing about culturomics is that everyone can do it. Why can everyone do it? Everyone can do it because three guys, Jon Orwant, Matt Gray and Will Brockman over at Google, saw the prototype of the Ngram Viewer, and they said, "This is so fun. We have to make this available for people." So in two weeks flat -- the two weeks before our paper came out -- they coded up a version of the Ngram Viewer for the general public. And so you too can type in any word or phrase that you're interested in and see its n-gram immediately -- also browse examples of all the various books in which your n-gram appears.

JM: Αυτό χρησιμοποιήθηκε πάνω απο 1 εκ. φορες την πρώτη μέρα, και αυτή είναι η καλύτερη ερώτηση. Οι άνθρωποι θέλουν να προσπαθούν, συνέχεια για το καλύτερο. Απ' ότι φαίνετε όμως, οι άνθρωποι τον 18ο αιώνα δεν ενδιαφερόντουσαν πολύ γι' αυτό. Απ' ότι φαίνετε δεν ήθελαν να "προσπαθούν" (best), αλλά να "προσψαθούν" (beft) Βέβαια, αυτό που έγινε είναι απλά ένα λάθος. Δεν ήταν αγώνας για τη μετριότητα. απλά τότε το "π" (s) γραφότανε αλλιώς, κάπως σας "ψ" (f). Βέβαια η Google, δεν το εντόπισε τότε όποτε το αναφέραμε στο επιστημονικό άρθρο που δημοσιεύσαμε. Αλλά απ' ότι φαίνεται αυτό είναι μόνο μια υπενθύμιση οτι παρ' οτι είναι πολύ διασκεδαστικό, όταν ερμηνεύεις τα γραφήματα θα πρέπει να είσαι πολύ προσεκτικός και να υιοθετείς τις βασικές αρχές των επιστημών.

JM: Now this was used over a million times on the first day, and this is really the best of all the queries. So people want to be their best, put their best foot forward. But it turns out in the 18th century, people didn't really care about that at all. They didn't want to be their best, they wanted to be their beft. So what happened is, of course, this is just a mistake. It's not that strove for mediocrity, it's just that the S used to be written differently, kind of like an F. Now of course, Google didn't pick this up at the time, so we reported this in the science article that we wrote. But it turns out this is just a reminder that, although this is a lot of fun, when you interpret these graphs, you have to be very careful, and you have to adopt the base standards in the sciences.

ΕΛΕ: Οι άνθρωποι το χρησιμοποιούν για πολύ διασκεδαστικούς σκοπούς. (Γέλια) Βασικά θα σταματήσουμε να μιλάμε, και θα σας δείξουμε την υπόλοιπη παρουσίαση σιωπηλοί. Αυτός ο άνθρωπος ενδιαφερόταν για την ιστορία του εκνευρισμού. Υπάρχουν πολλοί τύποι εκνευρισμού. Άμα στραμπουλήξεις το δάχτυλό σου, υπάρχει ένα "argh" με μόνο ένα "α". Αν ο πλανήτης Γη εξολοθρευτεί από εξωγήινους για να κάνουν χώρο, για κάποιο διαστρικό ταξίδι, αυτό είναι "aaaaaaaargh" με οχτώ "α." Αυτός ο άνθρωπος μελετάει τα διάφορα "arghs" από ένα μέχρι οχτώ "α". Και απ' ότι φαίνεται τα λιγότερο συχνά "arghs" είναι αυτά που αντιστοιχούν σε περισσότερο εκνευρισμό -- εκτός, παραδόξως, από τις αρχές της δεκαετίας του '80. Πιστεύουμε πως αυτό έχει κάποια σχέση με τον Ρόναλντ Ρήγκαν

ELA: People have been using this for all kinds of fun purposes. (Laughter) Actually, we're not going to have to talk, we're just going to show you all the slides and remain silent. This person was interested in the history of frustration. There's various types of frustration. If you stub your toe, that's a one A "argh." If the planet Earth is annihilated by the Vogons to make room for an interstellar bypass, that's an eight A "aaaaaaaargh." This person studies all the "arghs," from one through eight A's. And it turns out that the less-frequent "arghs" are, of course, the ones that correspond to things that are more frustrating -- except, oddly, in the early 80s. We think that might have something to do with Reagan.

(Γέλια)

(Laughter)

ΖΜ: Υπάρχουν πολλές χρήσεις για αυτά τα δεδομένα, αλλά η ουσία είναι ότι ψηφιοποιείται το ιστορικό μητρώο. Η Google έχει ψηφιοποιήσει 15 εκ. βιβλία. Αυτό είναι το 12% όλων των βιβλίων που έχουν ποτέ εκδοθεί. Είναι ένα μεγάλο κομμάτι του ανθρώπινου πολιτισμού. Υπάρχουν πολλά περισσότερα στον πολιτισμό: υπάρχουν χειρόγραφα, εφημερίδες, υπάρχουν πράγματα που δεν είναι κείμενο, όπως τέχνη και πίνακες. Όλα αυτά τυχαίνει να είναι στους υπολογιστές μας, σε υπολογιστές σε όλο το κόσμο. Και όταν αυτό συμβεί, θα αλλάξει τον τρόπο που αντιλαμβανόμαστε το παρελθόν μας, το παρόν μας και τον ανθρώπινο πολιτισμό.

JM: There are many usages of this data, but the bottom line is that the historical record is being digitized. Google has started to digitize 15 million books. That's 12 percent of all the books that have ever been published. It's a sizable chunk of human culture. There's much more in culture: there's manuscripts, there newspapers, there's things that are not text, like art and paintings. These all happen to be on our computers, on computers across the world. And when that happens, that will transform the way we have to understand our past, our present and human culture.

Ευχαριστούμε πολύ.

Thank you very much.

(Χειροκρότημα)

(Applause)

(Χειροκρότημα)

(Applause)

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

(Χειροκρότημα)

(Applause)

ELA: If you were not yet convinced, sea levels are rising, so is atmospheric CO2 and global temperature.

JM: You might also want to have a look at this particular n-gram, and that's to tell Nietzsche that God is not dead, although you might agree that he might need a better publicist.

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

Ευχαριστούμε πολύ.

Thank you very much.

(Χειροκρότημα)

(Applause)

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?

Related talks

Brewster Kahle: A free digital library

Aaron Koblin: Visualizing ourselves ... with crowd-sourced data

Amit Sood: Building a museum of museums on the web

Chip Kidd: Designing books is no laughing matter. OK, it is.

Ilan Stavans: Why should you read "Don Quixote"?

Chand John: What's the fastest way to alphabetize your bookshelf?