Bé, dirigeixo un equip a Google encarregat d'IA. Dit d'una altra manera, la disciplina d'enginyeria que fa que els ordinadors imitin processos mentals. Això fa que ens interessem en els cervells reals, així com en la neurociència i més concretament en els processos cerebrals que són molt superiors als processos dels ordinadors.
So, I lead a team at Google that works on machine intelligence; in other words, the engineering discipline of making computers and devices able to do some of the things that brains do. And this makes us interested in real brains and neuroscience as well, and especially interested in the things that our brains do that are still far superior to the performance of computers.
Històricament, una d'aquestes àrees és la percepció. El procés mitjançant el qual coses del món exterior, sons i imatges, és converteixen en conceptes a la nostra ment. És un procés essencial per als nostres cervells i també resulta útil en el cas dels ordinadors. Els algoritmes de percepció de la màquina que fem a l'equip són els que fan possible buscar les fotos a Google Photos, basant-los en què contenen. Però la percepció també és creativitat. Fer d'un concepte, una cosa que hi ha al món. Durant els darrers anys, el nostre treball en la percepció mecànica ha connectat, inesperadament, amb el món de la creativitat mecànica, i l'art de les màquines.
Historically, one of those areas has been perception, the process by which things out there in the world -- sounds and images -- can turn into concepts in the mind. This is essential for our own brains, and it's also pretty useful on a computer. The machine perception algorithms, for example, that our team makes, are what enable your pictures on Google Photos to become searchable, based on what's in them. The flip side of perception is creativity: turning a concept into something out there into the world. So over the past year, our work on machine perception has also unexpectedly connected with the world of machine creativity and machine art.
En Miquel Àngel tenia una profunda comprensió d'aquesta relació dual entre percepció i creativitat. Per exemple, en aquesta cita seva: "En cada bloc de marbre hi ha una escultura, i la feina de l'escultor es descobrir-la." Crec que al que en Miquel Àngel es referia és a que creem per mitjà de la percepció. La percepció, en si mateixa, és un acte d'imaginació, i, per tant, l'àmbit de la creativitat.
I think Michelangelo had a penetrating insight into to this dual relationship between perception and creativity. This is a famous quote of his: "Every block of stone has a statue inside of it, and the job of the sculptor is to discover it." So I think that what Michelangelo was getting at is that we create by perceiving, and that perception itself is an act of imagination and is the stuff of creativity.
L'òrgan que pensa, percep i imagina és, per descomptat, el cervell. M'agradaria començar amb un xic d'història, sobre el que sabem del cervell. A diferència d'òrgans com el cor o els intestins, no se'n pot dir gaire d'un cervell, amb només mirar-lo, com a mínim a simple vista. Els primers anatomistes que observaren el cervell, van donar a les estructures superficials tota mena de noms originals, com l'hipocamp, que vol dir 'gambeta'. Però, obviament, aquests noms no ens en diuen pas gaire de què passa realment a l'interior.
The organ that does all the thinking and perceiving and imagining, of course, is the brain. And I'd like to begin with a brief bit of history about what we know about brains. Because unlike, say, the heart or the intestines, you really can't say very much about a brain by just looking at it, at least with the naked eye. The early anatomists who looked at brains gave the superficial structures of this thing all kinds of fanciful names, like hippocampus, meaning "little shrimp." But of course that sort of thing doesn't tell us very much about what's actually going on inside.
La primera persona que, considero, va desenvolupar algun tipus de coneixement en relació als processos cerebrals va ser el gran neuroanatomista espanyol Santiago Ramón y Cajal, durant el segle XIX. Va utilitzar el microscopi i colorants especials per omplir o buidar selectivament, per tal d'aconseguir un contrast molt alt de les cèlules individuals del cervell, i així començar a entendre les seves morfologies. Aquests dibuixos de les neurones en són el resultat, tot això al segle XIX.
The first person who, I think, really developed some kind of insight into what was going on in the brain was the great Spanish neuroanatomist, Santiago Ramón y Cajal, in the 19th century, who used microscopy and special stains that could selectively fill in or render in very high contrast the individual cells in the brain, in order to start to understand their morphologies. And these are the kinds of drawings that he made of neurons in the 19th century.
Aquest és d'un cervell d'ocell. S'observa l'increïble varietat de tipus de cèl·lules que hi ha, fins i tot la pròpia teoria cel·lular era innovadora en aquell moment. Aquestes estructures, aquestes cèl·lules amb arboritzacions, aquestes branques que poden anar molt i molt lluny, tot això era molt nou per l'època. Recorden, per descomptat, a cables. Això podia ser molt obvi per a alguna gent del segle XIX, donat que acabava de començar la revolució elèctrica i dels cables. Però en molts sentits, els dibuixos microanatòmics d'en Ramón y Cajal, com aquest, en certa manera encara avui són inmillorables.
This is from a bird brain. And you see this incredible variety of different sorts of cells, even the cellular theory itself was quite new at this point. And these structures, these cells that have these arborizations, these branches that can go very, very long distances -- this was very novel at the time. They're reminiscent, of course, of wires. That might have been obvious to some people in the 19th century; the revolutions of wiring and electricity were just getting underway. But in many ways, these microanatomical drawings of Ramón y Cajal's, like this one, they're still in some ways unsurpassed.
Més d'un segle desprès, encara intentem acabar la feina que ell va començar. Aquestes són les dades dels nostres col·laboradors, de l'Institut de Neurociència Max Planck. El que aquests col·laboradors han fet és prendre imatges de petits trossos de teixits cerebrals. Aquesta mostra completa té una mida d'un mil·límetre cúbic, i això només és una porció minúscula. La barra de l'esquerra és una micra, si fa no fa. Les estructures que es veuen són les mitocòndries. Tenen la mida d'un bacteri. Aquests són costats consecutius, travessant aquest diminut bloc de teixit. Per a fer-se una idea, el diàmetre d'un fil mitjà del cabell té unes 100 micres. Així doncs, ara mateix observem quelcom molt més petit que un simple fil de cabell.
We're still more than a century later, trying to finish the job that Ramón y Cajal started. These are raw data from our collaborators at the Max Planck Institute of Neuroscience. And what our collaborators have done is to image little pieces of brain tissue. The entire sample here is about one cubic millimeter in size, and I'm showing you a very, very small piece of it here. That bar on the left is about one micron. The structures you see are mitochondria that are the size of bacteria. And these are consecutive slices through this very, very tiny block of tissue. Just for comparison's sake, the diameter of an average strand of hair is about 100 microns. So we're looking at something much, much smaller than a single strand of hair.
A partir d'aquestes sèries de porcions de microscòpia d'electrons, és poden arribar a fer reconstruccions de neurones en 3D. Són així. Aquestes són similars a les de l'estil de Ramón y Cajal. Només il·luminem certes neurones donat que de no ser així no podríem veure res. Estaria massa atapeït, massa ple d'estructura, de connexions cerebrals entre una neurona i una altra.
And from these kinds of serial electron microscopy slices, one can start to make reconstructions in 3D of neurons that look like these. So these are sort of in the same style as Ramón y Cajal. Only a few neurons lit up, because otherwise we wouldn't be able to see anything here. It would be so crowded, so full of structure, of wiring all connecting one neuron to another.
Ramón y Cajal va ser un avançat al seu temps. El progrés en relació a la comprensió del cervell va seguir lentament durant les dècades següents. Però vam aprendre que les neurones usen electricitat. A la Segona Guerra Mundial, la tecnologia havia avançat prou com per a fer experiments elèctrics amb neurones vives, per tal d'entendre'n el funcionament. Va ser el mateix moment en que s'inventaren els primers ordinadors, molt basats en l'idea de modelar el cervell humà, de fer "màquines intel·ligents", com va dir l'Alan Turing, un dels pares de la informàtica.
So Ramón y Cajal was a little bit ahead of his time, and progress on understanding the brain proceeded slowly over the next few decades. But we knew that neurons used electricity, and by World War II, our technology was advanced enough to start doing real electrical experiments on live neurons to better understand how they worked. This was the very same time when computers were being invented, very much based on the idea of modeling the brain -- of "intelligent machinery," as Alan Turing called it, one of the fathers of computer science.
Warren McCulloch i Walter Pitts observaren els dibuixos d'en Ramon y Cajal del còrtex visual, que mostro aquí. Aquest còrtex processa les imatges que reben els ulls. Per ells, això semblava un esquema de connexions. Per això hi ha molts detalls als esquemes d'en McCulloch i en Pitt que no són gaire correctes. Però aquesta idea bàsica, que el còrtex visual funciona com una serie d'elements computacionals tot passant informació d'un a l'altre en una cascada és, en essència, correcta.
Warren McCulloch and Walter Pitts looked at Ramón y Cajal's drawing of visual cortex, which I'm showing here. This is the cortex that processes imagery that comes from the eye. And for them, this looked like a circuit diagram. So there are a lot of details in McCulloch and Pitts's circuit diagram that are not quite right. But this basic idea that visual cortex works like a series of computational elements that pass information one to the next in a cascade, is essentially correct.
Aturem-nos un moment per parlar del que ha de fer un model de processador d'informació visual. La tasca de percepció més bàsica seria: agafar una imatge i poder dir "és un ocell". Una tasca ben senzilla per als nostres cervells. Però cal entendre que, en el cas d'un ordinador, era una tasca impossible només fa uns anys. El paradigma clàssic de la informàtica no és aquell on aquesta tasca és fàcil de fer.
Let's talk for a moment about what a model for processing visual information would need to do. The basic task of perception is to take an image like this one and say, "That's a bird," which is a very simple thing for us to do with our brains. But you should all understand that for a computer, this was pretty much impossible just a few years ago. The classical computing paradigm is not one in which this task is easy to do.
Així doncs, què passa entre els píxels, entre la imatge de l'ocell i la paraula "ocell", és, essencialment, un conjunt de neurones interconnectades en una xarxa neuronal, Com mostra el diagrama. Aquesta xarxa neural pot ser biològica, dins el nostre còrtex visual, o, com hem començat a ser capaços de fer, modelar aquestes xarxes neurals a l'ordinador. Els ensenyaré quin aspecte té.
So what's going on between the pixels, between the image of the bird and the word "bird," is essentially a set of neurons connected to each other in a neural network, as I'm diagramming here. This neural network could be biological, inside our visual cortices, or, nowadays, we start to have the capability to model such neural networks on the computer. And I'll show you what that actually looks like.
Així, els píxels es poden entendre com una primera capa de neurones, que, de fet, és com funciona en el cas de l'ull, les neurones que hi ha a la retina. Una rere l'altra, capes, capes i més capes de neurones, totes interconnectades per sinapsis de diferents pesos. El comportament de la xarxa es caracteritza per la força de totes aquestes sinapsis. Aquestes determinen les propietats computacionals de la xarxa. El resultat final, és una neurona o un petit grup de neurones que s'il·luminen i diuen "ocell".
So the pixels you can think about as a first layer of neurons, and that's, in fact, how it works in the eye -- that's the neurons in the retina. And those feed forward into one layer after another layer, after another layer of neurons, all connected by synapses of different weights. The behavior of this network is characterized by the strengths of all of those synapses. Those characterize the computational properties of this network. And at the end of the day, you have a neuron or a small group of neurons that light up, saying, "bird."
Ara representaré aquestes tres coses: Els píxels d'entrada, les sinapsis a la xarxa neuronal i l'ocell, el resultat; amb tres variables: x, w i y. Potser hi ha un milió o més de 'x', un milió de píxels a la imatge. Hi ha milers de milions de 'w', que representen els pesos de les sinapsis a la xarxa neuronal. Però hi ha un nombre molt petit de 'y', els resultats de la xarxa neuronal. "Bird" ['ocell'] són 4 lletres, oi? Plantegem-nos-ho com una fórmula senzilla: x "x" w = y Poso els temps entre cometes perquè el que passa realment, per descomptat, són una serie d'operacions matemàtiques molt complicades.
Now I'm going to represent those three things -- the input pixels and the synapses in the neural network, and bird, the output -- by three variables: x, w and y. There are maybe a million or so x's -- a million pixels in that image. There are billions or trillions of w's, which represent the weights of all these synapses in the neural network. And there's a very small number of y's, of outputs that that network has. "Bird" is only four letters, right? So let's pretend that this is just a simple formula, x "x" w = y. I'm putting the times in scare quotes because what's really going on there, of course, is a very complicated series of mathematical operations.
Això és una equació. Hi ha 3 variables. Tothom sap que si tenim una equació, es pot resoldre una variable per mitjà de conèixer les altres dues. Així que el problema de la inferència, és a dir esbrinar que la imatge de l'ocell és un ocell, és el següent: 'y' és la incògnita i 'w' i 'x' són valors coneguts. Sabem la xarxa neural, sabem les píxels. De fet, en realitat es tracta d'un problema relativament senzill. Multiplicant 2 vegades 3 estaria resolt. Els ensenyaré una xarxa neuronal artificial, que hem construït fa poc, seguint aquesta idea.
That's one equation. There are three variables. And we all know that if you have one equation, you can solve one variable by knowing the other two things. So the problem of inference, that is, figuring out that the picture of a bird is a bird, is this one: it's where y is the unknown and w and x are known. You know the neural network, you know the pixels. As you can see, that's actually a relatively straightforward problem. You multiply two times three and you're done. I'll show you an artificial neural network that we've built recently, doing exactly that.
Això s'executa en temps real des d'un telèfon mòbil, la qual cosa ja és, en si, prou sorprenent; el fet que telèfons mòbils facin milers de milions i bilions d'operacions, en uns pocs segons. El que veuen és un telèfon, mirant una per una imatges d'ocells. De fet, no només mirant i dient "Sí, és un ocell", sinó també identificant-ne l'espècie d'au per mitjà d'aquesta xarxa. Així, en aquesta imatge, 'x' i 'w' són valors coneguts, i 'y' és la incògnita. Per descomptat, passem per alt la part més difícil, que és: com descobrim el valor de 'w', el cervell que ho pot fer? Com podríem aprendre un model així?
This is running in real time on a mobile phone, and that's, of course, amazing in its own right, that mobile phones can do so many billions and trillions of operations per second. What you're looking at is a phone looking at one after another picture of a bird, and actually not only saying, "Yes, it's a bird," but identifying the species of bird with a network of this sort. So in that picture, the x and the w are known, and the y is the unknown. I'm glossing over the very difficult part, of course, which is how on earth do we figure out the w, the brain that can do such a thing? How would we ever learn such a model?
Doncs aquest procés d'aprenentatge, de resoldre el valor de 'w', si el fem amb l'equació, on pensem en el problema com a números, sabem com fer-ho exactament: 6 = 2 x w. Dividim entre 2 i s'ha acabat. El problema ve amb aquesta operació. La divisió. Hem utilitzat la divisió perquè és l'oposat a la multiplicació, però com hem dit, la multiplicació no és del tot certa aquí. Es una operació tremendament complicada, una operació no lineal, que no té oposat. Així que hem d'esbrinar la manera de resoldre l'equació sense usar la divisió. La manera per fer-ho és bastant directa. Només s'ha de fer un petit truc d'àlgebra. És mou el 6 a la part dreta de l'equació. Així, encara usem la multiplicació. Aquest 0, considerem-lo un error. És a dir, si hem resolt 'w' correctament, l'error és 0; si no l'hem resolt bé, l'error serà més gran que 0.
So this process of learning, of solving for w, if we were doing this with the simple equation in which we think about these as numbers, we know exactly how to do that: 6 = 2 x w, well, we divide by two and we're done. The problem is with this operator. So, division -- we've used division because it's the inverse to multiplication, but as I've just said, the multiplication is a bit of a lie here. This is a very, very complicated, very non-linear operation; it has no inverse. So we have to figure out a way to solve the equation without a division operator. And the way to do that is fairly straightforward. You just say, let's play a little algebra trick, and move the six over to the right-hand side of the equation. Now, we're still using multiplication. And that zero -- let's think about it as an error. In other words, if we've solved for w the right way, then the error will be zero. And if we haven't gotten it quite right, the error will be greater than zero.
Ara només podem calcular a ull, per tal de minimitzar l'error, i els ordinadors són bons en aquest tipus de coses. Prenent una aproximació inicial: què passa si w = 0? Bé, llavors l'error és 6. Què passa si w = 1? L'error és 4. I així l'ordinador pot jugar a Marco Polo, per tal de reduir l'error prop de 0. A mesura que ho fa, fa aproximacions successives a 'w'. En general, mai hi arriba del tot, però desprès d'uns 12 passos, s'arriba a w=2.999, que està prou a prop. Aquest és el procés d'aprenentatge.
So now we can just take guesses to minimize the error, and that's the sort of thing computers are very good at. So you've taken an initial guess: what if w = 0? Well, then the error is 6. What if w = 1? The error is 4. And then the computer can sort of play Marco Polo, and drive down the error close to zero. As it does that, it's getting successive approximations to w. Typically, it never quite gets there, but after about a dozen steps, we're up to w = 2.999, which is close enough. And this is the learning process.
Recordem que el que hem estat fent aquí ha estat usar molts valors coneguts 'x' i 'y' i resoldre la 'w' central mitjançant un procés de repetició. És exactament la mateixa manera en la que aprenem nosaltres mateixos. De nadons tenim moltíssimes imatges i se'ns diu: "Això és un ocell, això no ho és". Amb el temps, a través de la repetició, resolem la nostra 'w', resolent les seves connexions neurals.
So remember that what's been going on here is that we've been taking a lot of known x's and known y's and solving for the w in the middle through an iterative process. It's exactly the same way that we do our own learning. We have many, many images as babies and we get told, "This is a bird; this is not a bird." And over time, through iteration, we solve for w, we solve for those neural connections.
Bé, ara hem mantingut 'x' i 'w' per tal de resoldre 'y' això és diari, la percepció ràpida. Hem descobert com resoldre 'w', l'aprenentatge, molt més difícil perquè s'ha de minimitzar l'error practicant amb molts exemples,
So now, we've held x and w fixed to solve for y; that's everyday, fast perception. We figure out how we can solve for w, that's learning, which is a lot harder, because we need to do error minimization, using a lot of training examples.
i fa un any, l'Alex Mordvintsev, del nostre equip, va decidir experimentar què passa en intentar resoldre 'x', amb una 'w' i una 'y' conegudes. És a dir, sabem que és un ocell, i tenim la xarxa neural entrenada en ocells, però què és la imatge d'un ocell? Va resultar que usant el mateix procés de minimitzar l'error, mitjançant la xarxa entrenada en reconèixer ocells, el resultat és... una imatge d'ocells. Aquesta imatge d'ocells es genera totalment per la xarxa neural entrenada en reconèixer ocells, tot resolent 'x' en lloc de resoldre 'y' de manera repetitiva.
And about a year ago, Alex Mordvintsev, on our team, decided to experiment with what happens if we try solving for x, given a known w and a known y. In other words, you know that it's a bird, and you already have your neural network that you've trained on birds, but what is the picture of a bird? It turns out that by using exactly the same error-minimization procedure, one can do that with the network trained to recognize birds, and the result turns out to be ... a picture of birds. So this is a picture of birds generated entirely by a neural network that was trained to recognize birds, just by solving for x rather than solving for y, and doing that iteratively.
Aquest és un altre bon exemple. És un treball fet pel Mike Tyka, del nostre grup. El va anomenar "Cavalcada d'animals". Em recorda una mica l'obra d'en William Kentridge, fa esborranys, els refrega, fa esborranys, els refrega i amb tot plegat fa una pel·lícula. En aquest cas, en Mike va variar 'y' en l'espai de diferents animals, a una xarxa dissenyada que reconeix i distingeix entre diferents animals. El resultat és aquest estil Escher d'animals transformant-se'n altres.
Here's another fun example. This was a work made by Mike Tyka in our group, which he calls "Animal Parade." It reminds me a little bit of William Kentridge's artworks, in which he makes sketches, rubs them out, makes sketches, rubs them out, and creates a movie this way. In this case, what Mike is doing is varying y over the space of different animals, in a network designed to recognize and distinguish different animals from each other. And you get this strange, Escher-like morph from one animal to another.
Ell i l'Alex van provar a reduir 'y' a un espai de només 2 dimensions, tot fent un mapa fora de l'espai de totes les coses que reconeix aquesta xarxa. En fer aquesta combinació o generar les imatges sobre tota aquesta superfície variant 'y' per la mateixa, es genera una mena de mapa; un mapa visual de tot allò que la xarxa pot reconèixer. Tots els animals hi són, com l'armadillo just en aquest punt.
Here he and Alex together have tried reducing the y's to a space of only two dimensions, thereby making a map out of the space of all things recognized by this network. Doing this kind of synthesis or generation of imagery over that entire surface, varying y over the surface, you make a kind of map -- a visual map of all the things the network knows how to recognize. The animals are all here; "armadillo" is right in that spot.
Això també es pot fer amb altra mena de xarxes. Aquesta és una xarxa dissenyada per a reconèixer cares. Per a distingir una cara d'una altra. Aquí hem posat a 'y' on hi posa "jo" els paràmetres de la meva cara. Quan amb això resolem 'x' genera aquesta bogeria. Barreja de cubista, surrealista i psicodèlica foto meva, amb múltiples punts de vista aplegats. La raó per la qual aplega múltiples punts de vista alhora és perquè la xarxa està dissenyada per a obviar l'ambigüitat d'una mateixa cara amb un gest o un altre, observat amb una il·luminació o una altra de diferent. Així, en fer aquesta mena de reconstrucció si no s'utilitza algun tipus d'imatge de guia, d'estadístiques de guia, el resultat és una confusió de diferents punts de vista, perquè és ambigu. Això és el que passa quan l'Alex usa la seva cara com a imatge de guia en el procés d'optimització per tal de reconstruir la meva cara. Es pot apreciar que no es perfecte. Encara queda molta feina a fer, per tal de millorar aquest procés d'optimització. Però, es comença a obtenir quelcom semblant a una cara, he deixat d'usar la meva cara com a guia.
You can do this with other kinds of networks as well. This is a network designed to recognize faces, to distinguish one face from another. And here, we're putting in a y that says, "me," my own face parameters. And when this thing solves for x, it generates this rather crazy, kind of cubist, surreal, psychedelic picture of me from multiple points of view at once. The reason it looks like multiple points of view at once is because that network is designed to get rid of the ambiguity of a face being in one pose or another pose, being looked at with one kind of lighting, another kind of lighting. So when you do this sort of reconstruction, if you don't use some sort of guide image or guide statistics, then you'll get a sort of confusion of different points of view, because it's ambiguous. This is what happens if Alex uses his own face as a guide image during that optimization process to reconstruct my own face. So you can see it's not perfect. There's still quite a lot of work to do on how we optimize that optimization process. But you start to get something more like a coherent face, rendered using my own face as a guide.
No s'ha de començar d'un llenç en blanc o d'un so en blanc. Quan resolem 'x', es pot començar amb una 'x', és a dir, amb una altra imatge. Com en aquesta petita demostració. Aquesta és una xarxa dissenyada per tal de categoritzar tota mena d'objectes: estructures fetes per l'home, animals... Comencem amb una senzilla fotografia de núvols i en optimitzar, la xarxa esbrina, en essència, què hi veu als núvols. Com a més temps passem observant-ho, més coses hi veurem, als núvols. També podem usar la xarxa de reconeixement facial per al·lucinar, i aconseguim coses bastant boges.
You don't have to start with a blank canvas or with white noise. When you're solving for x, you can begin with an x, that is itself already some other image. That's what this little demonstration is. This is a network that is designed to categorize all sorts of different objects -- man-made structures, animals ... Here we're starting with just a picture of clouds, and as we optimize, basically, this network is figuring out what it sees in the clouds. And the more time you spend looking at this, the more things you also will see in the clouds. You could also use the face network to hallucinate into this, and you get some pretty crazy stuff.
(Riures)
(Laughter)
En Mike també ha fet d'altres experiments. Ha agafat la imatge del núvols, al·lucina, fa zoom, al·lucina, fa zoom... D'aquesta manera, s'obté una mena d'estat de fuga dissociativa a la xarxa, una mena d'associació lliure, on la xarxa és menja la seva pròpia cua. Fent, així, de cada imatge, la base de: "Què crec que hi veig aquí? I ara què hi veig? I ara?..."
Or, Mike has done some other experiments in which he takes that cloud image, hallucinates, zooms, hallucinates, zooms hallucinates, zooms. And in this way, you can get a sort of fugue state of the network, I suppose, or a sort of free association, in which the network is eating its own tail. So every image is now the basis for, "What do I think I see next? What do I think I see next? What do I think I see next?"
La primera vegada que ho vaig ensenyar en públic va ser a un grup a una conferència a Seattle anomenat "Higher Education", tot just després de legalitzar la marihuana.
I showed this for the first time in public to a group at a lecture in Seattle called "Higher Education" -- this was right after marijuana was legalized.
(Riures)
(Laughter)
M'agradaria acabar ràpidament, dient que aquesta tecnologia no és només això. He ensenyat exemples visuals perquè són divertits, però no només es tracta de tecnologia visual. Un artista col·laborador, en Ross Goodwin, ha fet experiments fent fotografies amb una càmera i que un ordinador a la seva motxilla en faci un poema amb una xarxa neural; bastant-se en la imatge. Aquesta xarxa neural de poesia s'ha preparat amb un extens corpus de poesia del segle XX. Els poemes resultants són... Bé, no estan del tot malament.
So I'd like to finish up quickly by just noting that this technology is not constrained. I've shown you purely visual examples because they're really fun to look at. It's not a purely visual technology. Our artist collaborator, Ross Goodwin, has done experiments involving a camera that takes a picture, and then a computer in his backpack writes a poem using neural networks, based on the contents of the image. And that poetry neural network has been trained on a large corpus of 20th-century poetry. And the poetry is, you know, I think, kind of not bad, actually.
(Riures)
(Laughter)
En resum. Crec que en Miquel Àngel tenia raó. La percepció i la creativitat estan lligades molt íntimament. Això són xarxes neuronals preparades per tal de poder discriminar o reconèixer diferents coses del món; capaces de córrer en sentit invers per tal de poder generar. Una de les coses que em suggereix, és que no només en Miquel Àngel era capaç de veure l'escultura dins els blocs de marbre; sino que qualsevol criatura, qualsevol ésser, qualsevol marcià capaç de fer aquesta mena d'actes de percepció, també pot crear. Perquè s'utilitza exactament el mateix mecanisme en ambdós casos.
In closing, I think that per Michelangelo, I think he was right; perception and creativity are very intimately connected. What we've just seen are neural networks that are entirely trained to discriminate, or to recognize different things in the world, able to be run in reverse, to generate. One of the things that suggests to me is not only that Michelangelo really did see the sculpture in the blocks of stone, but that any creature, any being, any alien that is able to do perceptual acts of that sort is also able to create because it's exactly the same machinery that's used in both cases.
També considero que tant la percepció com la creativitat no són exclusivament humanes. Comencem a tenir models d'ordinador capaços de dur a terme aquestes tasques. Això no ens hauria de sorprendre, ja que el cervell és computacional.
Also, I think that perception and creativity are by no means uniquely human. We start to have computer models that can do exactly these sorts of things. And that ought to be unsurprising; the brain is computational.
Per acabar, la informàtica començà com a un exercici de disseny de màquines intel·ligents. Es va modelar molt en torn a la idea de com fer màquines intel·ligents. Finalment, ara comencem a aconseguir algunes de les promeses d'aquells primers pioners, d'en Turing, en Von Neumann, d'en McCulloch i en Pitts. Crec que la informàtica no és només comptabilitat, o jugar al "Candy Crush" i coses així. Vam començar seguint el model de les nostres ments. Ens dóna tant l'habilitat d'entendre'ns millor a nosaltres mateixos com de millora-la.
And finally, computing began as an exercise in designing intelligent machinery. It was very much modeled after the idea of how could we make machines intelligent. And we finally are starting to fulfill now some of the promises of those early pioneers, of Turing and von Neumann and McCulloch and Pitts. And I think that computing is not just about accounting or playing Candy Crush or something. From the beginning, we modeled them after our minds. And they give us both the ability to understand our own minds better and to extend them.
Moltes gràcies.
Thank you very much.
(Aplaudiments)
(Applause)