Blaise Agüera y Arcas: How computers are learning to be creative

Ηγούμαι μιας ομάδας στην Google που ερευνά τη μηχανική ευφυΐα. Με άλλα λόγια, τον κλάδο της μηχανικής που κάνει υπολογιστές και συσκευές να μπορούν να κάνουν κάποια απ' όσα κάνει το μυαλό. Γι' αυτό ενδιαφερόμαστε για τους κανονικούς εγκεφάλους καθώς και για τη νευροεπιστήμη, και ειδικότερα για τα πράγματα που κάνει το μυαλό μας που ακόμα είναι πολύ ανώτερο από τις επιδόσεις των υπολογιστών.

So, I lead a team at Google that works on machine intelligence; in other words, the engineering discipline of making computers and devices able to do some of the things that brains do. And this makes us interested in real brains and neuroscience as well, and especially interested in the things that our brains do that are still far superior to the performance of computers.

Ιστορικά, ένα από αυτά που μας ενδιέφεραν ήταν η αντίληψη, η διαδικασία με την οποία τα πράγματα εκεί έξω στον κόσμο -ήχοι και εικόνες- μετατρέπονται σε έννοιες μέσα στο μυαλό. Αυτό είναι ζωτικό για τον εγκέφαλό μας και επίσης είναι πολύ χρήσιμο για τον υπολογιστή. Για παράδειγμα, οι αλγόριθμοι μηχανικής αντίληψης που φτιάχνει η ομάδα μας κάνουν δυνατή την αναζήτηση στις φωτογραφίες του Google Photos βάσει του τι αυτές περιέχουν. Η άλλη πλευρά της αντίληψης είναι η δημιουργικότητα: το να μεταμορφώνετε μια έννοια σε κάτι εκεί έξω στον κόσμο. Έτσι τον τελευταίο χρόνο, η εργασία μας πάνω στη μηχανική αντίληψη συνδέθηκε απρόσμενα και με τον κόσμο της δημιουργικότητας και της τέχνης από μηχανές.

Historically, one of those areas has been perception, the process by which things out there in the world -- sounds and images -- can turn into concepts in the mind. This is essential for our own brains, and it's also pretty useful on a computer. The machine perception algorithms, for example, that our team makes, are what enable your pictures on Google Photos to become searchable, based on what's in them. The flip side of perception is creativity: turning a concept into something out there into the world. So over the past year, our work on machine perception has also unexpectedly connected with the world of machine creativity and machine art.

Νομίζω ότι ο Μιχαήλ Αγγελος είδε πολύ διορατικά αυτή τη δυαδική σχέση μεταξύ αντίληψης και δημιουργικότητας. Ένα φημισμένο απόφθεγμά του λέει: «Κάθε κομμάτι πέτρας έχει μέσα του ένα άγαλμα και είναι δουλειά του γλύπτη να το αποκαλύψει». Νομίζω ότι ο Μιχαήλ Άγγελος εννοεί ότι δημιουργούμε μέσα από την αντίληψη, και η ίδια η αντίληψη είναι μια πράξη φαντασίας από την οποία είναι φτιαγμένη η δημιουργικότητα.

I think Michelangelo had a penetrating insight into to this dual relationship between perception and creativity. This is a famous quote of his: "Every block of stone has a statue inside of it, and the job of the sculptor is to discover it." So I think that what Michelangelo was getting at is that we create by perceiving, and that perception itself is an act of imagination and is the stuff of creativity.

Το όργανο που σκέφτεται, αντιλαμβάνεται και φαντάζεται είναι φυσικά ο εγκέφαλος. Θα ήθελα να αρχίσω με λίγη ιστορία σχετικά με το τι γνωρίζουμε για τον εγκέφαλό μας. Γιατί διαφορετικά, ας πούμε, από την καρδιά ή τα έντερα δεν μπορείς να πεις πολλά για τον εγκέφαλο απλώς κοιτώντας τον τουλάχιστον δια γυμνού οφθαλμού. Οι πρώτοι ανατόμοι που εξέτασαν τον εγκέφαλο έδωσαν στις εμφανείς δομές του κάθε είδους περίεργη ονομασία, όπως ιππόκαμπος, ένα είδος μικρής γαρίδας. Αλλά φυσικά αυτό δεν μας λέει πάρα πολλά σχετικά με το τι πραγματικά συμβαίνει στο εσωτερικό.

The organ that does all the thinking and perceiving and imagining, of course, is the brain. And I'd like to begin with a brief bit of history about what we know about brains. Because unlike, say, the heart or the intestines, you really can't say very much about a brain by just looking at it, at least with the naked eye. The early anatomists who looked at brains gave the superficial structures of this thing all kinds of fanciful names, like hippocampus, meaning "little shrimp." But of course that sort of thing doesn't tell us very much about what's actually going on inside.

Ο πρώτος που πιστεύω ότι κάπως μάντεψε τι περίπου συμβαίνει μέσα στον εγκέφαλο ήταν ο μεγάλος Ισπανός νευροανατόμος Σαντιάγο Ραμόν ι Καχάλ τον 19ο αιώνα, που χρησιμοποίησε μικροσκόπιο και ειδικές χρωστικές που μπορούσαν επιλεκτικά να εισχωρήσουν και να χρωματίσουν με μεγάλη αντίθεση τα επιμέρους κελιά του εγκεφάλου, ούτως ώστε να αρχίσουμε να καταλαβαίνουμε τη μορφολογία τους. Αυτά είναι τα σκίτσα νευρώνων που έφτιαξε τον 19ο αιώνα.

The first person who, I think, really developed some kind of insight into what was going on in the brain was the great Spanish neuroanatomist, Santiago Ramón y Cajal, in the 19th century, who used microscopy and special stains that could selectively fill in or render in very high contrast the individual cells in the brain, in order to start to understand their morphologies. And these are the kinds of drawings that he made of neurons in the 19th century.

Αυτό είναι από εγκέφαλο πουλιού. Βλέπετε αυτή την απίστευτη ποικιλία από διάφορα είδη κελιών, ακόμα και η ίδια η κυτταρική θεωρία ήταν αρκετά νέα εκείνον τον καιρό. Και αυτές οι δομές, τα κελιά που έχουν αυτές τις διακλαδώσεις που εκτείνονται σε πολύ μεγάλες αποστάσεις ήταν κάτι πολύ νέο εκείνη την εποχή. Φυσικά, μας θυμίζουν καλώδια. Αυτό θα καταλάβαιναν κάποιοι άνθρωποι τον 19ο αιώνα - η επανάσταση καλωδίων και ηλεκτρικού ήταν μόλις στο ξεκίνημά τους. Αλλά με διάφορους τρόπους, αυτά τα μικροανατομικά σκίτσα του Ραμόν ι Καχάλ, όπως αυτό, ακόμη παραμένουν αξεπέραστα με κάποιους τρόπους.

This is from a bird brain. And you see this incredible variety of different sorts of cells, even the cellular theory itself was quite new at this point. And these structures, these cells that have these arborizations, these branches that can go very, very long distances -- this was very novel at the time. They're reminiscent, of course, of wires. That might have been obvious to some people in the 19th century; the revolutions of wiring and electricity were just getting underway. But in many ways, these microanatomical drawings of Ramón y Cajal's, like this one, they're still in some ways unsurpassed.

Πάνω από έναν αιώνα αργότερα προσπαθούμε να τελείωσουμε αυτό που άρχισε ο Ραμόν ι Καχάλ. Αυτά είναι τα ακατέργαστα δεδομένα από τους συνεργάτες μας στο Ινστιτούτο Νευροεπιστήμης Μαξ Πλανκ. Οι συνεργάτες μας απεικόνισαν μικρά κομμάτια εγκεφαλικού ιστού. Το συνολικό δείγμα εδώ είναι περίπου ένα κυβικό χιλιοστό σε μέγεθος, κι εδώ σας δείχνω ένα πολύ μικρό κομμάτι. Η μπάρα αριστερά είναι περίπου ένα μικρόμετρο. Οι δομές που βλέπετε είναι μιτοχόνδρια που είναι στο μέγεθος βακτηρίων. Και αυτές είναι συνεχείς τομές αυτού του πολύ μικρού κομματιού ιστού. Απλώς για σύγκριση, η διάμετρος μιας μέσης τρίχας είναι περίπου 100 μικρόμετρα. Άρα κοιτάζουμε κάτι πολύ πολύ μικρότερο από μια τρίχα μαλλιών.

We're still more than a century later, trying to finish the job that Ramón y Cajal started. These are raw data from our collaborators at the Max Planck Institute of Neuroscience. And what our collaborators have done is to image little pieces of brain tissue. The entire sample here is about one cubic millimeter in size, and I'm showing you a very, very small piece of it here. That bar on the left is about one micron. The structures you see are mitochondria that are the size of bacteria. And these are consecutive slices through this very, very tiny block of tissue. Just for comparison's sake, the diameter of an average strand of hair is about 100 microns. So we're looking at something much, much smaller than a single strand of hair.

Και από αυτές τις συνεχείς τομές από ηλεκτρονικό μικροσκόπιο κάποιος μπορεί να φτιάξει τρισδιάστατα νευρώνες που μοιάζουν έτσι. Έτσι είναι κάπως το ίδιο στυλ με αυτές του Ραμόν ι Καχάλ. Μόνο λίγοι νευρώνες άναψαν, γιατί αλλιώς δεν θα μπορούσαμε να δούμε τίποτα εδώ. Θα ήταν τόσο πυκνό, τόσο γεμάτο με δομές, με καλώδια που συνδέουν τους νευρώνες μεταξύ τους.

And from these kinds of serial electron microscopy slices, one can start to make reconstructions in 3D of neurons that look like these. So these are sort of in the same style as Ramón y Cajal. Only a few neurons lit up, because otherwise we wouldn't be able to see anything here. It would be so crowded, so full of structure, of wiring all connecting one neuron to another.

Έτσι ο Ραμόν ι Καχάλ ήταν λίγο μπροστά από την εποχή του και η πρόοδος για την κατανόηση του εγκεφάλου προχώρησε αργά τις επόμενες λίγες δεκαετίες. Γνωρίζαμε όμως ότι οι νευρώνες χρησιμοποιούν ηλεκτρισμό και μέχρι τον Β΄ Παγκόσμιο Πόλεμο είχαμε κάνει αρκετή πρόοδο ώστε να κάνουμε ηλεκτρικά πειράματα σε νευρώνες υπό λειτουργία ώστε να καταλάβουμε καλύτερα πώς δούλευαν. Τότε ακριβώς εφευρέθηκαν οι υπολογιστές και βασίστηκαν κατά πολύ στη δομή του εγκεφάλου - του «ευφυούς μηχανισμού», όπως τα αποκαλούσε ο Άλαν Τιούρινγκ, ο πατέρας της επιστήμης των υπολογιστών.

So Ramón y Cajal was a little bit ahead of his time, and progress on understanding the brain proceeded slowly over the next few decades. But we knew that neurons used electricity, and by World War II, our technology was advanced enough to start doing real electrical experiments on live neurons to better understand how they worked. This was the very same time when computers were being invented, very much based on the idea of modeling the brain -- of "intelligent machinery," as Alan Turing called it, one of the fathers of computer science.

Οι Γουόρεν ΜακΚάλοκ και Γουόλτερ Πιτς είδαν τα σκίτσα του Ραμόν ι Καχάλ από τον φλοιό του εγκεφάλου που σας δείχνω εδώ. Αυτός είναι ο φλοιός που επεξεργάζεται εικόνες που φτάνουν από το μάτι. Και τους φάνηκε σαν διάγραμμα κυκλώματος. Υπάρχουν πολλές λεπτομέρειες στο διάγραμμα των ΜακΚάλοκ και Πιτς που δεν είναι ακριβώς σωστές. Αλλά αυτή η βασική ιδέα ότι ο εγκεφαλικός ιστός λειτουργεί σαν μια σειρά από υπολογιστικά στοιχεία που μεταβιβάζουν πληροφορίες συνεχώς ο ένας στον άλλον είναι κατά βάσην σωστή.

Warren McCulloch and Walter Pitts looked at Ramón y Cajal's drawing of visual cortex, which I'm showing here. This is the cortex that processes imagery that comes from the eye. And for them, this looked like a circuit diagram. So there are a lot of details in McCulloch and Pitts's circuit diagram that are not quite right. But this basic idea that visual cortex works like a series of computational elements that pass information one to the next in a cascade, is essentially correct.

Ας μιλήσουμε για μια στιγμή τι θα πρέπει να κάνει ένα μοντέλο επεξεργασίας οπτικών πληροφοριών. Το βασικό έργο της αντίληψης είναι να πάρει μια τέτοια φωτογραφία και να πει, «Αυτό είναι ένα πουλί», που είναι κάτι πολύ απλό να κάνουμε με τον εγκέφαλό μας. Αλλά πρέπει να καταλάβετε ότι για έναν υπολογιστή, αυτό ήταν μάλλον αδύνατον πριν από λίγα χρόνια. Η κλασική δομή του υπολογιστή δεν ευνοεί αυτή τη δουλειά.

Let's talk for a moment about what a model for processing visual information would need to do. The basic task of perception is to take an image like this one and say, "That's a bird," which is a very simple thing for us to do with our brains. But you should all understand that for a computer, this was pretty much impossible just a few years ago. The classical computing paradigm is not one in which this task is easy to do.

Έτσι λοιπόν, αυτό που συμβαίνει με τα πίξελ, ανάμεσα στην εικόνα του πουλιού και τη λέξη «πουλί», αφορά ουσιαστικά μια ομάδα νευρώνων που αλληλοσυνδέονται σε ένα νευρωνικό δίκτυο, όπως στο διάγραμμα. Μπορεί να είναι βιολογικό νευρωνικό δίκτυο μέσα στον εγκεφαλικό φλοιό, ή, στις μέρες μας, αρχίζουμε να έχουμε την ικανότητα να μοντελοποιήσουμε τέτοια δίκτυα στον υπολογιστή. Θα σας δείξω πώς μοιάζουν αυτά τα δίκτυα.

So what's going on between the pixels, between the image of the bird and the word "bird," is essentially a set of neurons connected to each other in a neural network, as I'm diagramming here. This neural network could be biological, inside our visual cortices, or, nowadays, we start to have the capability to model such neural networks on the computer. And I'll show you what that actually looks like.

Μπορείτε να σκεφτείτε τα πίξελ ως το πρώτο επίπεδο νευρώνων, και βασικά έτσι λειτουργεί το μάτι - είναι οι νευρώνες στον αμφιβληστροειδή. Και αυτοί μεταδίδουν την πληροφορία σε αλλεπάλληλα επίπεδα νευρώνων, που όλα συνδέονται από συνάψεις διαφορετικών βαρών. Η συμπεριφορά αυτού του δικτύου χαρακτηρίζεται από τις δυνάμεις όλων αυτών των συνάψεων. Αυτές χαρακτηρίζουν τις υπολογιστικές ιδιότητες αυτού του δικτύου. Και στη λήξη της διαδικασίας, έχετε έναν νευρώνα ή μια μικρή ομάδα νευρώνων που θα ανάψει και θα πει «πουλί».

So the pixels you can think about as a first layer of neurons, and that's, in fact, how it works in the eye -- that's the neurons in the retina. And those feed forward into one layer after another layer, after another layer of neurons, all connected by synapses of different weights. The behavior of this network is characterized by the strengths of all of those synapses. Those characterize the computational properties of this network. And at the end of the day, you have a neuron or a small group of neurons that light up, saying, "bird."

Τώρα θα αναπαραστήσω αυτά τα τρία πράγματα - τα πίξελ τροφοδοσίας και τις συνάψεις στο νευρωνικό δίκτυο, και το πουλί, το εξαγόμενο - με τρεις μεταβλητές: x, w και y Μπορεί να υπάρχουν περίπου ένα εκατομμύριο x - ένα εκατομμύριο πίξελ σε αυτή την εικόνα. Υπάρχουν δισεκατομμύρια ή τρισεκατομμύρια w, που αντιπροσωπεύουν τα βάρη όλων των συνάψεων του νευρωνικού δικτύου. Και μπορεί να υπάρχει ένα μικρός αριθμός από y, από εξαγόμενα του δικτύου. Το «πουλί» είναι μόνο πέντε γράμματα, σωστά; Ας υποθέσουμε ότι αυτός είναι ένας πολύ απλός μαθηματικός τύπος, x "x" w = y. Βάζω τις φορές σε εισαγωγικά επειδή αυτό που φυσικά συμβαίνει εκεί μέσα είναι μια σειρά από πολύπλοκες μαθηματικές λειτουργίες.

Now I'm going to represent those three things -- the input pixels and the synapses in the neural network, and bird, the output -- by three variables: x, w and y. There are maybe a million or so x's -- a million pixels in that image. There are billions or trillions of w's, which represent the weights of all these synapses in the neural network. And there's a very small number of y's, of outputs that that network has. "Bird" is only four letters, right? So let's pretend that this is just a simple formula, x "x" w = y. I'm putting the times in scare quotes because what's really going on there, of course, is a very complicated series of mathematical operations.

Αυτή είναι μια εξίσωση. Υπάρχουν τρεις μεταβλητές. Και όλοι γνωρίζουμε ότι σε μια εξίσωση μπορείς να λύσεις ως προς τον έναν άγνωστο εάν γνωρίζεις τους άλλους δύο. Έτσι το πρόβλημα της συνεπαγωγής, δηλαδή του να συμπεράνουμε ότι πρόκειται για φωτογραφία πουλιού, είναι το εξής: είναι που ο άγνωστος είναι ο y και οι w και x είναι γνωστοί. Γνωρίζετε τα νευρωνικά δίκτυα, γνωρίζετε και τα πίξελ. Όπως βλέπετε είναι ένα σχετικά ξεκάθαρο πρόβλημα. Πολλαπλασιάζετε το 2 επί 3 και τελειώσατε. Θα σας δείξω ένα τεχνητό νευρωνικό δίκτυο που φτιάξαμε πρόσφατα, να κάνει ακριβώς αυτό.

That's one equation. There are three variables. And we all know that if you have one equation, you can solve one variable by knowing the other two things. So the problem of inference, that is, figuring out that the picture of a bird is a bird, is this one: it's where y is the unknown and w and x are known. You know the neural network, you know the pixels. As you can see, that's actually a relatively straightforward problem. You multiply two times three and you're done. I'll show you an artificial neural network that we've built recently, doing exactly that.

Δουλεύει σε πραγματικό χρόνο σε κινητό τηλέφωνο, και αυτό από μόνο του είναι αξιοθαύμαστο γεγονός, τα κινητά μπορούν να κάνουν δισεκατομμύρια και τρισεκατομμύρια λειτουργίες ανά δευτερόλεπτο. Αυτό που βλέπετε είναι ένα κινητό που κοιτάζει αλλεπάλληλες φωτογραφίες από πουλιά, και όχι μόνο λέει, «Ναι, είναι πουλί» αλλά αναγνωρίζει το είδος του πουλιού με ένα τέτοιο νευρωνικό δίκτυο. Έτσι σε αυτή την φωτογραφία, οι x και w είναι γνωστοί και ο y είναι ο άγνωστος. Φυσικά δεν μπαίνω σε λεπτομέρειες για το πολύ δύσκολο μέρος, το πώς στο καλό υπολογίσαμε το w, τον εγκέφαλο που μπορεί να κάνει κάτι τέτοιο; Πώς μπορεί να μάθαμε ένα τέτοιο μοντέλο;

This is running in real time on a mobile phone, and that's, of course, amazing in its own right, that mobile phones can do so many billions and trillions of operations per second. What you're looking at is a phone looking at one after another picture of a bird, and actually not only saying, "Yes, it's a bird," but identifying the species of bird with a network of this sort. So in that picture, the x and the w are known, and the y is the unknown. I'm glossing over the very difficult part, of course, which is how on earth do we figure out the w, the brain that can do such a thing? How would we ever learn such a model?

Αυτή λοιπόν η διαδικασία μάθησης, να λύνουμε ως προς w, αν το κάναμε με την απλή εξίσωση στην οποία τα βλέπουμε αυτά ως αριθμούς, ξέρουμε πώς ακριβώς να το κάνουμε: 6 = 2 x w, βασικά διαιρούμε διά 2 και τελειώσαμε. Το πρόβλημα είναι αυτή η πράξη. Διαίρεση λοιπόν - χρησιμοποιήσαμε τη διαίρεση ως το αντίθετο του πολλαπλασιασμού, αλλά όπως είπα μόλις, ο πολλαπλασιασμός είναι λίγο ψεύτικος. Αυτή είναι μια πολύ περίπλοκη, μια εντελώς μη γραμμική λειτουργία, δεν έχει αντίθετο. Έτσι πρέπει να βρούμε τρόπο να λύσουμε την εξίσωση χωρίς το σύμβολο της διαίρεσης. Και ο τρόπος να το κάνουμε είναι αρκετά ξεκάθαρος. Απλώς λέτε, ας κάνουμε ένα κόλπο της άλγεβρας και να μετακινήσουμε το 6 στη δεξιά πλευρά της εξίσωσης. Τώρα ακόμα έχουμε τον πολλαπλασιασμό. Και αυτό το μηδέν - ας το σκεφτούμε σαν ένα σφάλμα. Με άλλα λόγια, αν λύναμε σωστά ως προς w, τότε το σφάλμα θα ήταν μηδέν. Και αν δεν το κάναμε αρκετά σωστά, το σφάλμα θα είναι μεγαλύτερο από μηδέν.

So this process of learning, of solving for w, if we were doing this with the simple equation in which we think about these as numbers, we know exactly how to do that: 6 = 2 x w, well, we divide by two and we're done. The problem is with this operator. So, division -- we've used division because it's the inverse to multiplication, but as I've just said, the multiplication is a bit of a lie here. This is a very, very complicated, very non-linear operation; it has no inverse. So we have to figure out a way to solve the equation without a division operator. And the way to do that is fairly straightforward. You just say, let's play a little algebra trick, and move the six over to the right-hand side of the equation. Now, we're still using multiplication. And that zero -- let's think about it as an error. In other words, if we've solved for w the right way, then the error will be zero. And if we haven't gotten it quite right, the error will be greater than zero.

Έτσι μπορούμε απλώς να μαντέψουμε για να ελαχιστοποιήσουμε το σφάλμα, και αυτό το κάνουν καλά οι υπολογιστές. Ας κάνουμε μια πρώτη μαντεψιά: Τι θα γινόταν αν w = 0; Τότε το σφάλμα είναι 6. Εάν το w = 1; Το σφάλμα είναι 4. Ο υπολογιστής μπορεί δίνοντας διάφορες τιμές να περιορίσει το σφάλμα κοντά στο μηδέν. Κάνοντάς το αυτό, λαμβάνει διαδοχικές τιμές κοντά στο w. Πρακτικά ποτέ δεν το φτάνει αλλά μετά από καμιά δεκαριά δοκιμές φτάνουμε στο w = 2.999 που είναι αρκετά κοντά. Και αυτή είναι η διαδικασία μάθησης.

So now we can just take guesses to minimize the error, and that's the sort of thing computers are very good at. So you've taken an initial guess: what if w = 0? Well, then the error is 6. What if w = 1? The error is 4. And then the computer can sort of play Marco Polo, and drive down the error close to zero. As it does that, it's getting successive approximations to w. Typically, it never quite gets there, but after about a dozen steps, we're up to w = 2.999, which is close enough. And this is the learning process.

Θυμηθείτε λοιπόν ότι εδώ παίρνουμε πολλούς γνωστούς x και γνωστούς y και λύνουμε ως προς w μέσω μιας επαναληπτικής μεθόδου. Με τον ίδιο ακριβώς τρόπο μαθαίνουμε κι εμείς. Ως μωρά έχουμε πάρα πολλές εικόνες και μας λένε, «Αυτό είναι πουλί, αυτό δεν είναι πουλί». Και με τον καιρό και την επανάληψη λύνουμε ως προς w, λύνουμε αυτές τις νευρωνικές συνδέσεις.

So remember that what's been going on here is that we've been taking a lot of known x's and known y's and solving for the w in the middle through an iterative process. It's exactly the same way that we do our own learning. We have many, many images as babies and we get told, "This is a bird; this is not a bird." And over time, through iteration, we solve for w, we solve for those neural connections.

Έτσι τώρα κρατήσαμε τα x και w σταθερά για να λύσουμε ως προς y, αυτό είναι καθημερινή, γρήγορη αντίληψη. Βρίσκουμε πώς λύνουμε ως προς w, είναι μάθηση που είναι πολύ δυσκολότερη, ώστε να ελαχιστοποιήσουμε το σφάλμα, μέσα από πολλά δοκιμαστικά παραδείγματα.

So now, we've held x and w fixed to solve for y; that's everyday, fast perception. We figure out how we can solve for w, that's learning, which is a lot harder, because we need to do error minimization, using a lot of training examples.

Πριν περίπου από έναν χρόνο, ο Άλεξ Μόρντβιντσεφ της ομάδας μας αποφάσισε να πειραματιστεί με το τι θα γίνει αν λύσουμε ως προς x, με δεδομένους γνωστούς τους w και y. Με άλλα λόγια, γνωρίζετε ότι είναι ένα πουλί και ήδη έχετε ένα νευρωνικό δίκτυο που του έχετε μάθει τα πουλιά, αλλά τι είναι η εικόνα ενός πουλιού; Αποδεικνύεται τελικά ότι με την ίδια διαδικασία ελαχιστοποίησης σφάλματος μπορούμε να το κάνουμε με το δίκτυο που έχει μάθει να αναγνωρίζει τα πουλιά, και το αποτέλεσμα φαίνεται να είναι... μια εικόνα από πουλιά. Αυτή λοιπόν είναι μια εικόνα με πουλιά που φτιάχτηκε εξολοκλήρου από νευρωνικό δίκτυο που έμαθε να αναγνωρίζει πουλιά, απλώς λύνοντας ως προς x αντί ως προς y, και κάνοντάς το επαναληπτικά.

And about a year ago, Alex Mordvintsev, on our team, decided to experiment with what happens if we try solving for x, given a known w and a known y. In other words, you know that it's a bird, and you already have your neural network that you've trained on birds, but what is the picture of a bird? It turns out that by using exactly the same error-minimization procedure, one can do that with the network trained to recognize birds, and the result turns out to be ... a picture of birds. So this is a picture of birds generated entirely by a neural network that was trained to recognize birds, just by solving for x rather than solving for y, and doing that iteratively.

Να άλλο ένα διασκεδαστικό παράδειγμα. Είναι μια δουλειά του Μάικ Τάικα από την ομάδα μας. που το λέει «Παρέλαση ζώων». Μου θυμίζει λίγο την τεχνοτροπία του Γουίλιαμ Κέντριτζ, όπου φτιάχνει σκίτσα, τα σβήνει, φτιάχνει σκίτσα, τα σβήνει, και έτσι φτιάχνει μια ταινία. Σε αυτή την περίπτωση, ο Μάικ αντιστοιχεί το y με διάφορα ζώα από μια ομάδα, σε ένα δίκτυο που έχει σχεδιαστεί να αναγνωρίζει και να διακρίνει διάφορα ζώα μεταξύ τους. Και μας βγαίνει μια περίεργη μεταμόρφωση από ένα ζώο σε άλλο.

Here's another fun example. This was a work made by Mike Tyka in our group, which he calls "Animal Parade." It reminds me a little bit of William Kentridge's artworks, in which he makes sketches, rubs them out, makes sketches, rubs them out, and creates a movie this way. In this case, what Mike is doing is varying y over the space of different animals, in a network designed to recognize and distinguish different animals from each other. And you get this strange, Escher-like morph from one animal to another.

Εδώ, αυτός και ο Άλεξ μαζί, προσπάθησαν να μειώσουν τα y σε χώρο μόνο δύο διαστάσεων, φτιάχνοντας έτσι έναν χάρτη από τον χώρο όλων των πραγμάτων που αναγνωρίζονται από αυτό το δίκτυο. Φτιάχνοντας αυτό το είδος σύνθεσης ή δημιουργία εικόνων σε ολόκληρη αυτή την επιφάνεια, αναπτύσσοντας τις τιμές του y, φτιάχνετε ένα είδος χάρτη - έναν οπτικό χάρτη όλων των πραγμάτων που το δίκτυο ξέρει να αναγνωρίζει. Όλα τα ζώα είναι εδώ - το αρμαντίλο είναι σε αυτή τη θέση.

Here he and Alex together have tried reducing the y's to a space of only two dimensions, thereby making a map out of the space of all things recognized by this network. Doing this kind of synthesis or generation of imagery over that entire surface, varying y over the surface, you make a kind of map -- a visual map of all the things the network knows how to recognize. The animals are all here; "armadillo" is right in that spot.

Μπορείτε να το κάνετε και με άλλα είδη δικτύων. Αυτό είναι ένα δίκτυο σχεδιασμένο να αναγνωρίζει πρόσωπα, να διακρίνει πρόσωπα μεταξύ τους. Και εδώ βάζουμε ένα y που λέει «εγώ», τις παραμέτρους του δικού μου προσώπου. Και όταν λύσει ως προς x, παράγει αυτή την αλλόκοτη, λίγο κυβιστική, σουρεαλιστική, ψυχεδελική εικόνα μου από πολλαπλές απόψεις ταυτόχρονα. Ο λόγος που μοιάζει σαν να είναι πολλαπλές απόψεις ταυτόχρονα είναι επειδή το δίκτυο σχεδιάστηκε να απορρίπτει την αμφισημία ενός προσώπου σε μια ή σε άλλη πόζα, ή όταν το βλέπουμε κάθε φορά σε διαφορετικό φωτισμό. Όταν λοιπόν κάνετε μια τέτοια ανακατασκευή, αν δεν χρησιμοποιήσετε ως οδηγό μια βασική εικόνα ή στατιστικές, τότε θα υπάρξει μια σύγχυση από διαφορετικές απόψεις λόγω αμφισημίας. Αυτό συμβαίνει αν ο Άλεξ βάλει το δικό του πρόσωπο ως εικόνα-οδηγό κατά τη διαδικασία βελτιστοποίησης στην ανακατασκευή του προσώπου μου. Βλέπετε λοιπόν ότι δεν είναι τέλειο. Χρειάζεται αρκετή δουλειά ακόμη στη βελτιστοποίηση της διαδικασίας βελτιστοποίησης. Αλλά αρχίζουμε να παίρνουμε κάτι πολύ πιο συναφές ως πρόσωπο, που φτιάχνεται με οδηγό το δικό μου πρόσωπο.

You can do this with other kinds of networks as well. This is a network designed to recognize faces, to distinguish one face from another. And here, we're putting in a y that says, "me," my own face parameters. And when this thing solves for x, it generates this rather crazy, kind of cubist, surreal, psychedelic picture of me from multiple points of view at once. The reason it looks like multiple points of view at once is because that network is designed to get rid of the ambiguity of a face being in one pose or another pose, being looked at with one kind of lighting, another kind of lighting. So when you do this sort of reconstruction, if you don't use some sort of guide image or guide statistics, then you'll get a sort of confusion of different points of view, because it's ambiguous. This is what happens if Alex uses his own face as a guide image during that optimization process to reconstruct my own face. So you can see it's not perfect. There's still quite a lot of work to do on how we optimize that optimization process. But you start to get something more like a coherent face, rendered using my own face as a guide.

Δεν χρειάζεται να ξεκινήσετε από το μηδέν ή από μια αοριστία. Όταν λύνετε ως προς x, μπορείτε να ξεκινήσετε με ένα x, που είναι ήδη μια άλλη εικόνα το ίδιο. Όπως σε αυτή η επίδειξη. Αυτό είναι ένα δίκτυο σχεδιασμένο να ταξινομεί κάθε είδους διαφορετικά αντικείμενα - ανθρώπινες κατασκευές, ζώα... Εδώ αρχίζουμε μόνο με μια εικόνα από σύννεφα, και καθώς βελτιστοποιούμε, βασικά, αυτό το δίκτυο βρίσκει τι βλέπει μέσα στα σύννεφα. Και όσο περισσότερο το κοιτάζετε, τόσο περισσότερα πράγματα βρίσκετε κι εσείς μέσα στα σύννεφα. Μπορείτε επίσης να βάλετε το δίκτυο με τα πρόσωπα να οραματιστεί εδώ, και θα έχετε πολύ τρελά αποτελέσματα.

You don't have to start with a blank canvas or with white noise. When you're solving for x, you can begin with an x, that is itself already some other image. That's what this little demonstration is. This is a network that is designed to categorize all sorts of different objects -- man-made structures, animals ... Here we're starting with just a picture of clouds, and as we optimize, basically, this network is figuring out what it sees in the clouds. And the more time you spend looking at this, the more things you also will see in the clouds. You could also use the face network to hallucinate into this, and you get some pretty crazy stuff.

(Γέλια)

(Laughter)

Ή ακόμη, ο Μάικ έκανε και άλλα πειράματα όπου παίρνει την εικόνα με τα σύννεφα, οραματίζεται μορφές, ζουμάρει, οραματίζεται, ζουμάρει. Και με αυτό τον τρόπο βάζετε το δίκτυο σε μια κατάσταση, θα έλεγα σαν ένα είδος αντίστιξης, ένα είδος ελεύθερου συσχετισμού, όπου το δίκτυο τρώει την ίδια του την ουρά. Έτσι πλέον κάθε εικόνα μας κάνει να σκεφτόμαστε, «Τι νομίζω ότι βλέπω μετά; Τι νομίζω ότι βλέπω μετά; Τι νομίζω ότι βλέπω μετά;»

Or, Mike has done some other experiments in which he takes that cloud image, hallucinates, zooms, hallucinates, zooms hallucinates, zooms. And in this way, you can get a sort of fugue state of the network, I suppose, or a sort of free association, in which the network is eating its own tail. So every image is now the basis for, "What do I think I see next? What do I think I see next? What do I think I see next?"

Το παρουσίασα πρώτη φορά δημόσια σε μια ομάδα σε ομιλία στο Σιάτλ που λεγόταν «Ανώτερη Εκπαίδευση» - αμέσως αφού νομιμοποιήθηκε η μαριχουάνα.

I showed this for the first time in public to a group at a lecture in Seattle called "Higher Education" -- this was right after marijuana was legalized.

(Γέλια)

(Laughter)

Θα ήθελα να κλείσω γρήγορα με την απλή παρατήρηση ότι αυτή η τεχνολογία δεν περιορίζεται. Σας έδειξα μόνο οπτικά παραδείγματα επειδή είναι πιο ευχάριστα. Δεν είναι αποκλειστικά οπτική τεχνολογία. Ο καλλιτεχνικός συνεργάτης μας, Ρος Γκούντγουιν, έχει κάνει πειράματα με μια κάμερα που παίρνει φωτογραφίες, και μετά ένας υπολογιστής στο σακίδιό του γράφει ποιήματα μέσα από νευρωνικά δίκτυα, με βάση τα περιεχόμενα της εικόνας. Αυτό το ποιητικό νευρωνικό δίκτυο έχει εκπαιδευτεί με ένα μεγάλο όγκο ποίησης του 20ου αιώνα. Και η ποίηση είναι, ξέρετε, νομίζω, όχι και τόσο άσχημη, τελικά.

So I'd like to finish up quickly by just noting that this technology is not constrained. I've shown you purely visual examples because they're really fun to look at. It's not a purely visual technology. Our artist collaborator, Ross Goodwin, has done experiments involving a camera that takes a picture, and then a computer in his backpack writes a poem using neural networks, based on the contents of the image. And that poetry neural network has been trained on a large corpus of 20th-century poetry. And the poetry is, you know, I think, kind of not bad, actually.

(Γέλια)

(Laughter)

Κλείνοντας, σχετικά με τον Μιχαήλ Άγγελο, νομίζω ότι είχε δίκιο. Η αντίληψη και η δημιουργικότητα είναι πολύ στενά συνδεδεμένες. Μόλις είδαμε νευρωνικά δίκτυα που έχουν εκπαιδευτεί εξολοκλήρου να διακρίνουν, ή να αναγνωρίζουν διαφορετικά πράγματα στον κόσμο, και μπορούν να λειτουργούν αντίστροφα, να δημιουργούν. Ένα από τα πράγματα που συμπεραίνω από αυτό είναι ότι δεν είδε μόνο ο Μιχαήλ Άγγελος το γλυπτό μέσα στον όγκο της πέτρας, αλλά ότι κάθε πλάσμα, κάθε ον, κάθε εξωγήινος, που μπορεί να επιτελέσει τέτοιου είδους πράξεις αντίληψης, μπορεί επίσης να δημιουργήσει επειδή ακριβώς ο ίδιος μηχανισμός χρησιμοποιείται και στις δύο περιπτώσεις.

In closing, I think that per Michelangelo, I think he was right; perception and creativity are very intimately connected. What we've just seen are neural networks that are entirely trained to discriminate, or to recognize different things in the world, able to be run in reverse, to generate. One of the things that suggests to me is not only that Michelangelo really did see the sculpture in the blocks of stone, but that any creature, any being, any alien that is able to do perceptual acts of that sort is also able to create because it's exactly the same machinery that's used in both cases.

Επίσης πιστεύω ότι η αντίληψη και η δημιουργικότητα επ' ουδενί είναι αποκλειστικά κάτι ανθρώπινο. Έχουμε υπολογιστικά μοντέλα που μπορούν να κάνουν ακριβώς το ίδιο. Και αυτό δεν πρέπει να μας εκπλήσσει, το μυαλό κάνει υπολογισμούς.

Also, I think that perception and creativity are by no means uniquely human. We start to have computer models that can do exactly these sorts of things. And that ought to be unsurprising; the brain is computational.

Και τέλος, οι υπολογιστές ξεκίνησαν ως άσκηση στο σχεδιασμό ευφυών μηχανημάτων. Σχεδιάστηκε βασικά με την ιδέα του πώς μπορούμε να κάνουμε τις μηχανές ευφυείς. Και τελικά αρχίζουμε να εκπληρώνουμε μερικές από τις υποσχέσεις εκείνων των πρωτοπόρων, του Τούρινγκ και του Φον Νόιμαν, του ΜακΚάλοκ και του Πιτς. Και νομίζω ότι οι υπολογιστές δεν αφορούν μόνο τα λογιστικά, ή να παίζουμε Καντι Κρας ή κάτι τέτοιο. Εξαρχής τα σχεδιάσαμε κατ' εικόναν του μυαλού μας. Και μας δίνουν την ικανότητα να καταλάβουμε το μυαλό μας καλύτερα και να τα επεκτείνουμε.

And finally, computing began as an exercise in designing intelligent machinery. It was very much modeled after the idea of how could we make machines intelligent. And we finally are starting to fulfill now some of the promises of those early pioneers, of Turing and von Neumann and McCulloch and Pitts. And I think that computing is not just about accounting or playing Candy Crush or something. From the beginning, we modeled them after our minds. And they give us both the ability to understand our own minds better and to extend them.

Σας ευχαριστώ πολύ.

Thank you very much.

(Χειροκρότημα)

(Applause)

(Γέλια)

(Laughter)

I showed this for the first time in public to a group at a lecture in Seattle called "Higher Education" -- this was right after marijuana was legalized.

(Γέλια)

(Laughter)