Let me show you something.
Să vă arăt ceva.
(Video) Girl: Okay, that's a cat sitting in a bed. The boy is petting the elephant. Those are people that are going on an airplane. That's a big airplane.
OK. Aia e o pisică stând în pat. Băiatul mângâie elefantul. Aceștia sunt oameni care intră într-un avion. E un avion mare.
Fei-Fei Li: This is a three-year-old child describing what she sees in a series of photos. She might still have a lot to learn about this world, but she's already an expert at one very important task: to make sense of what she sees. Our society is more technologically advanced than ever. We send people to the moon, we make phones that talk to us or customize radio stations that can play only music we like. Yet, our most advanced machines and computers still struggle at this task. So I'm here today to give you a progress report on the latest advances in our research in computer vision, one of the most frontier and potentially revolutionary technologies in computer science.
Acesta e o fetiţă de 3 ani care descrie ce vede în nişte poze. Poate că mai are multe de învățat despre lumea asta, dar e expertă într-o sarcină foarte importantă: să înțeleagă ceea ce vede. Societatea noastră e mai avansată tehnologic ca niciodată. Trimitem oameni pe lună, facem telefoane care ne vorbesc sau personalizăm posturi de radio care pun doar muzica preferată. Totuşi, cele mai avansate mașinării și computere încă se chinuie cu această sarcină. Sunt azi aici să vă fac un raport despre progresul recunoașterii computerizate a imaginilor, o cercetare revoluţionară de vârf din tehnologia şi ştiinţa calculatoarelor. Avem prototipuri de mașini care conduc singure,
Yes, we have prototyped cars that can drive by themselves, but without smart vision, they cannot really tell the difference between a crumpled paper bag on the road, which can be run over, and a rock that size, which should be avoided. We have made fabulous megapixel cameras, but we have not delivered sight to the blind. Drones can fly over massive land, but don't have enough vision technology to help us to track the changes of the rainforests. Security cameras are everywhere, but they do not alert us when a child is drowning in a swimming pool. Photos and videos are becoming an integral part of global life. They're being generated at a pace that's far beyond what any human, or teams of humans, could hope to view, and you and I are contributing to that at this TED. Yet our most advanced software is still struggling at understanding and managing this enormous content. So in other words, collectively as a society, we're very much blind, because our smartest machines are still blind.
dar fără vedere inteligentă nu deosebesc o pungă de hârtie mototolită pe stradă, peste care poate trece, și o piatră de aceaşi dimensiune, care ar trebui evitată. Am făcut camere megapixel fabuloase, dar n-am redat vederea orbilor. Dronele pot zbura peste suprafeţe întinse, dar n-au destulă tehnologie vizuală ca să ne ajute să urmărim schimbările pădurii tropicale. Camerele de securitate sunt peste tot, dar nu ne alertează când un copil se îneacă într-o piscină. Fotografiile și videoclipurile devin o parte integrală a vieții globale. Sunt generate cu o viteză mult peste ce speră să vadă un om sau un grup, iar noi contribuim cu acest TED. Cele mai avansate programe se străduiesc să le înțeleagă și să le administreze. Altfel spus, colectiv, ca societate, suntem orbi, pentru că cele mai inteligente dispozitive sunt încă oarbe.
"Why is this so hard?" you may ask. Cameras can take pictures like this one by converting lights into a two-dimensional array of numbers known as pixels, but these are just lifeless numbers. They do not carry meaning in themselves. Just like to hear is not the same as to listen, to take pictures is not the same as to see, and by seeing, we really mean understanding. In fact, it took Mother Nature 540 million years of hard work to do this task, and much of that effort went into developing the visual processing apparatus of our brains, not the eyes themselves. So vision begins with the eyes, but it truly takes place in the brain.
„De ce e atât de greu?” ați putea întreba. Camerele pot face poze ca aceasta convertind lumini în șiruri de numere bidimensionale – pixeli. Dar sunt doar numere fără viață. Nu au un înțeles în sine. Cum „a auzi” nu e la fel cu „a asculta”, „a face poze” nu e la fel cu „a vedea”, iar prin „a vedea” ne referim la „a înţelege”. Naturii i-au trebuit 540 mil. ani de muncă grea pentru asta, iar mare parte din efort a constat în dezvoltarea creierului pentru procesarea vederii, nu a ochlor. Vederea începe cu ochii, dar de fapt are loc în creier.
So for 15 years now, starting from my Ph.D. at Caltech and then leading Stanford's Vision Lab, I've been working with my mentors, collaborators and students to teach computers to see. Our research field is called computer vision and machine learning. It's part of the general field of artificial intelligence. So ultimately, we want to teach the machines to see just like we do: naming objects, identifying people, inferring 3D geometry of things, understanding relations, emotions, actions and intentions. You and I weave together entire stories of people, places and things the moment we lay our gaze on them.
De 15 ani, începând cu doctoratul la Caltech, iar apoi conducând Laboratorul Vizual din Stanford, am lucrat cu mentorii, colaboratorii și studenții mei să învățăm computerele să vadă. Ne ocupăm de recunoașterea imaginilor și învățarea automată. Face parte din aria generală a inteligenței artificiale. În final vrem să învățăm mașinăriile să vadă ca noi: să denumească obiecte, să identifice persoane, să deducă geometria 3D a lucrurilor, să înțeleagă relații, emoții, acțiuni și intenții. Noi toţi țesem povești întregi despre oameni, locuri și lucruri în clipa în care le vedem.
The first step towards this goal is to teach a computer to see objects, the building block of the visual world. In its simplest terms, imagine this teaching process as showing the computers some training images of a particular object, let's say cats, and designing a model that learns from these training images. How hard can this be? After all, a cat is just a collection of shapes and colors, and this is what we did in the early days of object modeling. We'd tell the computer algorithm in a mathematical language that a cat has a round face, a chubby body, two pointy ears, and a long tail, and that looked all fine. But what about this cat? (Laughter) It's all curled up. Now you have to add another shape and viewpoint to the object model. But what if cats are hidden? What about these silly cats? Now you get my point. Even something as simple as a household pet can present an infinite number of variations to the object model, and that's just one object.
Primul pas către acest țel e să învățăm computerele să vadă obiectele, pietrele de temelie ale lumii vizuale. În cel mai simplu mod, imaginați-vă acest proces de învățare ca arătându-le computerelor câteva imagini de antrenament ale unui obiect, să spunem pisici și creând un model care învață după aceste imagini. Cât de greu poate fi? Până la urmă, o pisică e doar o colecție de forme și culori, iar asta e ce am făcut la începutul modelării obiectelor. Îi spuneam computerului într-un limbaj matematic că o pisică are o față rotundă, un corp durduliu, două urechi ascuțite și o coadă lungă și totul arăta bine. Dar ce spuneți de pisica asta? (Râsete) E ghemuită toată. Trebuie adăugată încă o formă și punct de vedere modelului. Dar dacă pisicile sunt ascunse? Dar aceste pisici prostuțe? Acum mă înțelegeți. Chiar ceva simplu ca un animal de casă poate prezenta un număr infinit de variații ale modelului, iar acesta e doar un obiect.
So about eight years ago, a very simple and profound observation changed my thinking. No one tells a child how to see, especially in the early years. They learn this through real-world experiences and examples. If you consider a child's eyes as a pair of biological cameras, they take one picture about every 200 milliseconds, the average time an eye movement is made. So by age three, a child would have seen hundreds of millions of pictures of the real world. That's a lot of training examples. So instead of focusing solely on better and better algorithms, my insight was to give the algorithms the kind of training data that a child was given through experiences in both quantity and quality.
Acum aproximativ opt ani, o observație foarte simplă și profundă mi-a schimbat gândirea. Nimeni nu-i spune unui copil cum să vadă, mai ales la început. Învață asta prin experiențe și exemple din lumea reală. Dacă considerați ochii copilului ca o pereche de camere biologice, acestea fac o poză la fiecare 200 milisecunde, – durata medie a unei mișcări oculare. Până la 3 ani, un copil ar fi văzut sute de milioane de poze cu lumea reală. Astea sunt multe exemple de antrenament. Astfel în loc să ne axăm doar pe algoritmi din ce în ce mai buni, m-am gândit să ofer algoritmilor tipul de date primite de copil prin experiență, atât cantitativ cât și calitativ. Plecând de la asta știam că trebuie să construim o bază de date
Once we know this, we knew we needed to collect a data set that has far more images than we have ever had before, perhaps thousands of times more, and together with Professor Kai Li at Princeton University, we launched the ImageNet project in 2007. Luckily, we didn't have to mount a camera on our head and wait for many years. We went to the Internet, the biggest treasure trove of pictures that humans have ever created. We downloaded nearly a billion images and used crowdsourcing technology like the Amazon Mechanical Turk platform to help us to label these images. At its peak, ImageNet was one of the biggest employers of the Amazon Mechanical Turk workers: together, almost 50,000 workers from 167 countries around the world helped us to clean, sort and label nearly a billion candidate images. That was how much effort it took to capture even a fraction of the imagery a child's mind takes in in the early developmental years.
ce are mult mai multe imagini decât am avut înainte, probabil de mii de ori mai multe, iar împreună cu profesorul Kai Li de la Princeton University am lansat proiectul ImageNet în 2007. Din fericire, nu a trebuit să ne montăm o cameră pe cap și să așteptăm mulți ani. Am apelat la Internet, cel mai mare tezaur de poze creat vreodată de oameni. Am descărcat aproape un miliard de imagini și am folosit tehnologii ca platforma Amazon Mechanical Turk pentru a ne ajuta să etichetăm imaginile. La apogeu, ImageNet a fost unul dintre cei mai mari angajatori ai lucrătorilor Amazon Mechanical Turk: în total, aproape 50.000 de lucrători din 167 de țări din jurul lumii ne-au ajutat să curățăm, să triem și să etichetăm aproape un miliard de imagini inițiale. De atât de mult efort a fost nevoie pentru a captura doar o fracțiune din imaginile pe care mintea unui copil le face în primii ani ai dezvoltării.
In hindsight, this idea of using big data to train computer algorithms may seem obvious now, but back in 2007, it was not so obvious. We were fairly alone on this journey for quite a while. Some very friendly colleagues advised me to do something more useful for my tenure, and we were constantly struggling for research funding. Once, I even joked to my graduate students that I would just reopen my dry cleaner's shop to fund ImageNet. After all, that's how I funded my college years.
Privind în urmă, această idee de a folosi date mari pentru a antrena algoritmii computerelor poate părea evidentă acum, dar în 2007 nu era atât de evidentă. Eram destul de singuri în această călătorie pentru multă vreme. Câțiva colegi prietenoși m-au sfătuit să fac ceva mai folositor ca ocupație și ne chinuiam constant pentru fonduri. O dată, chiar am glumit cu studenții mei că aș redeschide spălătoria mea pentru a susține ImageNet. Până la urmă, așa mi-am finanțat anii de studenție.
So we carried on. In 2009, the ImageNet project delivered a database of 15 million images across 22,000 classes of objects and things organized by everyday English words. In both quantity and quality, this was an unprecedented scale. As an example, in the case of cats, we have more than 62,000 cats of all kinds of looks and poses and across all species of domestic and wild cats. We were thrilled to have put together ImageNet, and we wanted the whole research world to benefit from it, so in the TED fashion, we opened up the entire data set to the worldwide research community for free. (Applause)
Așa că am continuat. În 2009 proiectul ImageNet a furnizat o bază de date de 15 milioane de imagini din 22.000 de clase de obiecte și lucruri organizate după cuvinte englezești uzuale. Atât cantitativ, cât și calitativ, era la o scală fără precedent. Ca exemplu, în cazul pisicilor, avem mai mult de 62.000 de pisici de toate felurile și ipostazele, din toate speciile de pisici domestice și sălbatice. Eram încântați de crearea ImageNet și am vrut ca toată lumea să poată beneficia, astfel respectând tradiția TED, am deschis întreaga bază de date gratis către toată comunitatea de cercetători. (Aplauze)
Now that we have the data to nourish our computer brain, we're ready to come back to the algorithms themselves. As it turned out, the wealth of information provided by ImageNet was a perfect match to a particular class of machine learning algorithms called convolutional neural network, pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun back in the 1970s and '80s. Just like the brain consists of billions of highly connected neurons, a basic operating unit in a neural network is a neuron-like node. It takes input from other nodes and sends output to others. Moreover, these hundreds of thousands or even millions of nodes are organized in hierarchical layers, also similar to the brain. In a typical neural network we use to train our object recognition model, it has 24 million nodes, 140 million parameters, and 15 billion connections. That's an enormous model. Powered by the massive data from ImageNet and the modern CPUs and GPUs to train such a humongous model, the convolutional neural network blossomed in a way that no one expected. It became the winning architecture to generate exciting new results in object recognition. This is a computer telling us this picture contains a cat and where the cat is. Of course there are more things than cats, so here's a computer algorithm telling us the picture contains a boy and a teddy bear; a dog, a person, and a small kite in the background; or a picture of very busy things like a man, a skateboard, railings, a lampost, and so on. Sometimes, when the computer is not so confident about what it sees, we have taught it to be smart enough to give us a safe answer instead of committing too much, just like we would do, but other times our computer algorithm is remarkable at telling us what exactly the objects are, like the make, model, year of the cars.
Acum că avem datele pentru a hrăni creierul computerelor, suntem gata să revenim la algoritmi. Se pare că bogăția informațiilor furnizate de ImageNet se potrivea perfect cu o clasă specială de algoritmi de învățare automată numită rețea neuronală convolutivă, inițiată de Kunihiko Fukushima, Geoff Hinton și Yann LeCun în anii '70 și '80. La fel cum creierul constă în miliarde de neuroni interconectați, o unitate elementară operațională dintr-o rețea neuronală e un nod asemănător neuronului. Primește impulsuri de la unele noduri și trimite impulsuri altora. Mai mult, aceste sute de mii sau chiar milioane de noduri sunt organizate în straturi ierarhice, şi ele similare creierului. Într-o rețea neuronală tipică folosită la antrenarea recunoașterii obiectelor sunt 24 de milioane de noduri, 140 de milioane de parametri și 15 miliarde de conexiuni. E un model enorm. Alimentată de datele masive din ImageNet și de unitățile moderne de procesare pentru a antrena un asemenea model imens, rețeaua neuronală convolutivă a înflorit într-un mod neașteptat. A devenit arhitectura câștigătoare care a generat noi rezultate captivante în recunoașterea obiectelor. E un computer care ne spune că e poza unei pisici și unde e pisica. Sigur că nu există doar pisici, așa că iată un computer spunându-ne că poza conține un băiat și un urs de pluș, un cățel, o persoană și un mic zmeu în fundal; sau o poză foarte aglomerată precum un bărbat, un skateboard, balustrade, un felinar și tot așa. Uneori, când computerul nu este foarte sigur de ce vede, l-am învățat să fie destul de deștept încât să dea un răspuns sigur în loc să se chinuie prea mult, așa cum am face noi, dar uneori algoritmul e remarcabil, spunându-ne exact ce sunt obiectele, ca marca, modelul, anul de fabricație al mașinilor. Am aplicat acest algoritm pe milioane de imagini Google Street View
We applied this algorithm to millions of Google Street View images across hundreds of American cities, and we have learned something really interesting: first, it confirmed our common wisdom that car prices correlate very well with household incomes. But surprisingly, car prices also correlate well with crime rates in cities, or voting patterns by zip codes.
din sute de orașe americane și am aflat ceva foarte interesant. În primul rând, a confirmat cunoștințele generale că prețurile mașinilor sunt corelate cu venitul familiilor. Dar surprinzător, sunt corelate și cu rata criminalității în orașe sau tiparul voturilor pe coduri poștale.
So wait a minute. Is that it? Has the computer already matched or even surpassed human capabilities? Not so fast. So far, we have just taught the computer to see objects. This is like a small child learning to utter a few nouns. It's an incredible accomplishment, but it's only the first step. Soon, another developmental milestone will be hit, and children begin to communicate in sentences. So instead of saying this is a cat in the picture, you already heard the little girl telling us this is a cat lying on a bed.
Stai un pic. Asta-i tot? Computerul a egalat sau a întrecut abilităţile umane? Să nu ne grăbim.. Am învățat computerul să vadă obiecte, ca un copil care pronunță câteva cuvinte. E o realizare incredibilă, dar e doar primul pas. Curând, un alt prag va fi atins, iar copiii vor comunica în propoziții. Astfel în loc să spună că „asta e o pisică în poză”, deja ați auzit-o pe fetiță, spunându-ne că e „o pisică întinsă pe pat”. Ca să învățăm un computer să vadă o poză și să genereze propoziții,
So to teach a computer to see a picture and generate sentences, the marriage between big data and machine learning algorithm has to take another step. Now, the computer has to learn from both pictures as well as natural language sentences generated by humans. Just like the brain integrates vision and language, we developed a model that connects parts of visual things like visual snippets with words and phrases in sentences.
mariajul dintre colecțiile mari de date și algoritmii de învățare automată trebuie să facă un nou pas. Computerul trebuie să învețe din imagini dar și din propozițile rostite de oameni. La fel cum creierul integrează viziunea și limbajul, am dezvoltat un model ce conectează părți vizuale, ca fragmente vizuale, cu cuvinte și propoziții în fraze. Cam acum 4 luni am pus totul cap-la-cap,
About four months ago, we finally tied all this together and produced one of the first computer vision models that is capable of generating a human-like sentence when it sees a picture for the first time. Now, I'm ready to show you what the computer says when it sees the picture that the little girl saw at the beginning of this talk.
și am creat unul dintre primele computere ce recunosc imaginile şi e capabil să genereze propoziții similare celor umane când vede o poză pentru prima dată. Veţi vedea ce spune computerul despre poza pe care a văzut-o fetița la început.
(Video) Computer: A man is standing next to an elephant. A large airplane sitting on top of an airport runway.
„Un bărbat stă lângă un elefant.” „Un avion mare stă pe pista unui aeroport.”
FFL: Of course, we're still working hard to improve our algorithms, and it still has a lot to learn. (Applause)
Bineînțeles, încă lucrăm din greu să îmbunătățim algoritmii și are încă multe de învățat. (Aplauze)
And the computer still makes mistakes.
Iar computerul încă face greșeli.
(Video) Computer: A cat lying on a bed in a blanket.
„O pisică întinsă pe pat într-o pătură.”
FFL: So of course, when it sees too many cats, it thinks everything might look like a cat.
Când vede prea multe pisici, crede că totul arată ca o pisică.
(Video) Computer: A young boy is holding a baseball bat. (Laughter)
„Un băiat ținând o bâtă de baseball.” (Râsete)
FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.
Dacă n-a văzut o periuță de dinți, o confundă cu o bâtă de baseball.
(Video) Computer: A man riding a horse down a street next to a building. (Laughter)
„Un bărbat călărește un cal pe o stradă lângă o clădire.” (Râsete)
FFL: We haven't taught Art 101 to the computers.
Nu le-am predat arta computerelor.
(Video) Computer: A zebra standing in a field of grass.
„O zebră stând într-un câmp cu iarbă.”
FFL: And it hasn't learned to appreciate the stunning beauty of nature like you and I do.
N-a învățat să aprecieze frumusețea naturii ca şi noi. A fost o călătorie lungă.
So it has been a long journey. To get from age zero to three was hard. The real challenge is to go from three to 13 and far beyond. Let me remind you with this picture of the boy and the cake again. So far, we have taught the computer to see objects or even tell us a simple story when seeing a picture.
Să ajungem cu vârsta de la 0 la 3 ani a fost greu. Adevărata provocare e să trecem de la 3 la 13 și mai departe. Să vă reamintesc poza asta cu băiatul și tortul. Până acum am învățat computerul să vadă obiecte sau chiar să ne spună o poveste simplă când vede poza. „O persoană stând la masă cu un tort.”
(Video) Computer: A person sitting at a table with a cake.
Dar e mult mai mult în această poză decât o persoană și un tort.
FFL: But there's so much more to this picture than just a person and a cake. What the computer doesn't see is that this is a special Italian cake that's only served during Easter time. The boy is wearing his favorite t-shirt given to him as a gift by his father after a trip to Sydney, and you and I can all tell how happy he is and what's exactly on his mind at that moment.
Computerul nu vede că acesta e un tort italian special servit doar în preajma Paștelui. Băiatul poartă tricoul său preferat dăruit de tatăl său, după o excursie în Sydney, iar noi putem vedea cât de fericit e și ce are de gând.
This is my son Leo. On my quest for visual intelligence, I think of Leo constantly and the future world he will live in. When machines can see, doctors and nurses will have extra pairs of tireless eyes to help them to diagnose and take care of patients. Cars will run smarter and safer on the road. Robots, not just humans, will help us to brave the disaster zones to save the trapped and wounded. We will discover new species, better materials, and explore unseen frontiers with the help of the machines.
Acesta e fiul meu Leo. În cercetarea inteligenței vizuale, mă gândesc constant la Leo și la lumea în care va trăi. Când mașinăriile pot vedea, doctorii și asistentele vor avea alte perechi de ochi neobosiți să-i ajute să diagnosticheze și să aibă grijă de pacienți. Mașinile vor merge mai inteligent și mai sigur pe drum. Roboții, nu doar oamenii, ne vor ajuta în zonele de dezastru pentru a-i salva pe captivi și răniți. Vom descoperi noi specii, materiale mai bune și vom explora frontiere nevăzute cu ajutorul mașinăriilor.
Little by little, we're giving sight to the machines. First, we teach them to see. Then, they help us to see better. For the first time, human eyes won't be the only ones pondering and exploring our world. We will not only use the machines for their intelligence, we will also collaborate with them in ways that we cannot even imagine.
Încet-încet, facem mașinăriile să vadă. Întâi le învățăm pe ele să vadă. Apoi ne vor ajuta să vedem noi mai bine. Pentru prima dată, nu doar ochii umani vor analiza şi explora lumea. Vom folosi mașinăriile pentru inteligența lor şi vom colabora cu ele în moduri în care nici nu ne imaginăm. Asta e misiunea mea: să ofer computerelor inteligența vizuală
This is my quest: to give computers visual intelligence and to create a better future for Leo and for the world.
și să creez un viitor mai bun pentru Leo și pentru lume. Mulțumesc.
Thank you.
(Aplauze)
(Applause)