Fei-Fei Li: How we're teaching computers to understand pictures

Let me show you something.

Më lejoni t'ju tregoj dicka.

(Video) Girl: Okay, that's a cat sitting in a bed. The boy is petting the elephant. Those are people that are going on an airplane. That's a big airplane.

(Video) Vajza: Kjo është një mace e ulur në krevat. Djali po përkëdhel elefantin. Janë njerëz që po shkojnë drejt një aeroplani. Eshtë një aeroplan i madh.

Fei-Fei Li: This is a three-year-old child describing what she sees in a series of photos. She might still have a lot to learn about this world, but she's already an expert at one very important task: to make sense of what she sees. Our society is more technologically advanced than ever. We send people to the moon, we make phones that talk to us or customize radio stations that can play only music we like. Yet, our most advanced machines and computers still struggle at this task. So I'm here today to give you a progress report on the latest advances in our research in computer vision, one of the most frontier and potentially revolutionary technologies in computer science.

Fei-Fei Li: Ky është një fëmijë tre-vjeçar duke përshkruar atë që sheh në një seri fotosh. Ajo mund të ketë ende shumë për të mësuar rreth botës, por ajo është tashmë mjeshtre në një detyrë shumë të rëndësishme: të kuptojë se çfarë po sheh. Shoqëria jonë është më shumë se kurrë e avancuar teknologjikisht. Ne dërgojmë njerëz në hënë, i bëjmë telefonat të komunikojnë me ne apo i përshtasim stacionet e radios të luajnë muzikën që na pëlqen. Prapë, makinat dhe kompjuterët tanë më të avancuar e kanë të vështirë këtë punë. Jam sot këtu t'ju jap një raport të ecurisë mbi zhvillimet më të fundit në kërkimet tona në vizionin kompjuterik, një nga teknologjitë më të reja dhe potencialisht revolucionare në shkencat kompjuterike.

Yes, we have prototyped cars that can drive by themselves, but without smart vision, they cannot really tell the difference between a crumpled paper bag on the road, which can be run over, and a rock that size, which should be avoided. We have made fabulous megapixel cameras, but we have not delivered sight to the blind. Drones can fly over massive land, but don't have enough vision technology to help us to track the changes of the rainforests. Security cameras are everywhere, but they do not alert us when a child is drowning in a swimming pool. Photos and videos are becoming an integral part of global life. They're being generated at a pace that's far beyond what any human, or teams of humans, could hope to view, and you and I are contributing to that at this TED. Yet our most advanced software is still struggling at understanding and managing this enormous content. So in other words, collectively as a society, we're very much blind, because our smartest machines are still blind.

Po, kemi krijuar prototipe të makinave që vetë-drejtohen por pa një vizion inteligjent, ato nuk mund ta gjejnë ndryshimin midis një qese letre të zhubrosur në rrugë, mbi të cilën mund të kalosh, dhe një guri po të të njejtave përmasa, i cili duhet shmangur. Ne kemi krijuar kamera me rezolucion të lartë, por nuk i kemi dhënë shikim të verbërve. Avionët e telekomanduar fluturojnë gjatë dhe mbi hapsira masive toke, por teknologjia vizive nuk është e mjaftueshme për të monitoruar ndryshimet e pyjeve tropikale. Kamerat e sigurisë janë kudo, por nuk na lajmërojnë kur një fëmijë është duke u mbytur në pishinë. Fotot dhe videot po bëhen një pjesë e pandashme e jetës globale. Ata po gjenerohen me një ritëm aq të shpejtë, sa është e pamundur që një individ, apo një grup individësh t'i shohë të gjitha, dhe unë bashkë me ju po kontribojmë për këtë qëllim në TED. Megjithatë, programet tona më të avancuara e kanë të vështirë ta kuptojnë dhe menaxhojnë këtë sasi kaq të madhe informacioni. Pra, me fjalë të tjera, bashkarisht si shoqëri, ne jemi disi të verbër, pasi makinat tona më inteligjente janë akoma të verbra.

"Why is this so hard?" you may ask. Cameras can take pictures like this one by converting lights into a two-dimensional array of numbers known as pixels, but these are just lifeless numbers. They do not carry meaning in themselves. Just like to hear is not the same as to listen, to take pictures is not the same as to see, and by seeing, we really mean understanding. In fact, it took Mother Nature 540 million years of hard work to do this task, and much of that effort went into developing the visual processing apparatus of our brains, not the eyes themselves. So vision begins with the eyes, but it truly takes place in the brain.

"Pse është kaq e vështirë?" do të pyesnit ju. Kamerat mund të kapin foto si kjo këtu duke i shndërruar dritat në një matricë numrash të njohura si piksela, por këto janë thjesht numra pa jetë. Nuk mbartin ndonjë kuptim në vetvete. Njësoj si të dëgjuarit nuk është njësoj si ta kuptosh atë që dëgjon, ashtu dhe të kapësh foto nuk është njësoj si të shohësh, dhe me shikimin, ne nënkuptojmë dhe të kuptuarin e asaj që shohim. Në fakt, Nënës Natyrë iu deshën 540 milionë vjet për ta bërë këtë gjë, dhe pjesa më e madhe e mundit shkoi për zhvillimin e aparatit të përpunimit vizual në trurin tonë, e jo vetëm për sytë. Pra shikimi fillon me sytë, por në të vërtetë zhvillohet në tru.

So for 15 years now, starting from my Ph.D. at Caltech and then leading Stanford's Vision Lab, I've been working with my mentors, collaborators and students to teach computers to see. Our research field is called computer vision and machine learning. It's part of the general field of artificial intelligence. So ultimately, we want to teach the machines to see just like we do: naming objects, identifying people, inferring 3D geometry of things, understanding relations, emotions, actions and intentions. You and I weave together entire stories of people, places and things the moment we lay our gaze on them.

Kështu për 15 vjet, duke filluar me doktoraturën në Caltech dhe më pas në krye të Vision Lab në Stanford, kam punuar me mentorët, bashkëpunuesit dhe studentët e mi për t'i mësuar kompjuterat të shohin. Fusha jonë kërkimore quhet computer vision dhe machine learning. Është pjesë e fushës së përgjithshme të inteligjencës artificiale. Përfundimisht, ne duam t'i bëjmë kompjuterat të shohin ashtu si vetë ne: të emërtojnë objekte, të identifikojnë njerëz, t'i shohin gjërat me 3 dimensione, të kuptojnë marrdhëniet, emocionet, veprimet dhe qëllimet. Ne thurim së bashku histori të tëra mbi njerëz, vende dhe sende momentin e parë kur i hedhim një vështrim.

The first step towards this goal is to teach a computer to see objects, the building block of the visual world. In its simplest terms, imagine this teaching process as showing the computers some training images of a particular object, let's say cats, and designing a model that learns from these training images. How hard can this be? After all, a cat is just a collection of shapes and colors, and this is what we did in the early days of object modeling. We'd tell the computer algorithm in a mathematical language that a cat has a round face, a chubby body, two pointy ears, and a long tail, and that looked all fine. But what about this cat? (Laughter) It's all curled up. Now you have to add another shape and viewpoint to the object model. But what if cats are hidden? What about these silly cats? Now you get my point. Even something as simple as a household pet can present an infinite number of variations to the object model, and that's just one object.

Hapi i parë drejt këtij qëllimi është t'i mësojmë kompjuterat të shohin objekte, baza për ndërtimin e botës vizuale. Në kushtet më të thjeshta, imagjinojeni këtë proces si t'i tregosh kompjuterave disa imazhe të një objekti të caktuar për shembull, imazhe te maceve, dhe të ndërtosh një model që trajnohet dhe mëson nga këto imazhe. Sa e vështirë mund të jetë? Në fund të fundit, një mace është thjesht një grumbull formash dhe ngjyrash, dhe me këtë mendim ecëm në ditët e hershme të modelimit të objekteve. Ne do të përdornim matematikën për t'i treguar algoritmit kompjuterik se një mace ka fytyrë të rrumbullakët, një trup topolak, dy veshë me majë, dhe një bisht të gjatë, dhe çdo gjë dukej mirë. Po a do të funksiononte me këtë mace? (Të qeshura) Është komplet e ngatërruar. Në këtë rast duhet t'i shtojmë një formë dhe këndvështrim tjetër modelit të objektit. Po nëqoftëse macet janë të fshehura? Po këto mace qesharake? (Të qeshura) Tani besoj se e kuptoni ku e kam fjalën. Edhe diçka kaq e thjeshtë sa një kafshë shtëpiake përfaqësohet nga variacione të panumërta për të krijuar modelin e objektit, dhe ky është vetëm një rast.

So about eight years ago, a very simple and profound observation changed my thinking. No one tells a child how to see, especially in the early years. They learn this through real-world experiences and examples. If you consider a child's eyes as a pair of biological cameras, they take one picture about every 200 milliseconds, the average time an eye movement is made. So by age three, a child would have seen hundreds of millions of pictures of the real world. That's a lot of training examples. So instead of focusing solely on better and better algorithms, my insight was to give the algorithms the kind of training data that a child was given through experiences in both quantity and quality.

Pra rreth tetë vjet më parë, një vrojtim mjaft i thjeshtë dhe i thellë ndryshoi mënyrën time të të menduarit. Një fëmije askush nuk i mëson si të shohë, veçanërisht në vitet e para të jetës. Ato mësojnë përmes eksperiencave dhe shembujve. Nëse i mendojmë sytë e një fëmije si aparate fotografike biologjike, ato kapin një foto çdo 200 millisekonda, që është shpejtësia mesatare e lëvizjes së syrit. Kështu deri në moshën tre-vjeçare, një fëmijë ka parë qindra miliona foto të botës reale. Këto janë shumë shembuj trajnues. Pra, në vënd që të fokusohemi vetëm te përmirësimi i algoritmave, ideja ime ishte t'i ushqenim dhe trajnonim algoritmat me atë tip të dhënash që një fëmijë merr përmes eksperiences në cilësi dhe sasi.

Once we know this, we knew we needed to collect a data set that has far more images than we have ever had before, perhaps thousands of times more, and together with Professor Kai Li at Princeton University, we launched the ImageNet project in 2007. Luckily, we didn't have to mount a camera on our head and wait for many years. We went to the Internet, the biggest treasure trove of pictures that humans have ever created. We downloaded nearly a billion images and used crowdsourcing technology like the Amazon Mechanical Turk platform to help us to label these images. At its peak, ImageNet was one of the biggest employers of the Amazon Mechanical Turk workers: together, almost 50,000 workers from 167 countries around the world helped us to clean, sort and label nearly a billion candidate images. That was how much effort it took to capture even a fraction of the imagery a child's mind takes in in the early developmental years.

Me këtë ide, e dinim se na duhej të mblidhnim një grup të dhënash që përmban shumë më tepër imazhe seç mund të kemi patur ndonjëherë, ndoshta njëmijë herë më shumë, dhe së bashku me Profesorin Kai Li të Universitetit Princeton, ne nisëm projektin ImageNet në 2007. Për fat të mirë, nuk na u desh të montonim një aparat fotografik në kokë dhe të prisnim për shumë vite. Ne iu drejtuam internetit, thesari më i madh i fotove që njerëzit kanë krijuar ndonjëherë. Shkarkuam rreth një bilion imazhe dhe përdorëm crowdsourcing, teknologjinë e kontributit të përbashkët online si platformën Amazon Mechanical Turk, për të na ndihmuar në etiketimin e imazheve. Në majat e veta, ImageNet ishte një nga punëdhënësit më të mëdhenj të punonjësve të Amazon Mechanical Turk: së bashku, gati 50,000 punonjës nga 167 shtete nga e gjithë bota na ndihmuan të përzgjidhnim, të klasifikonim dhe të etiketonim rreth nje bilion imazhe potenciale. Kjo ishte puna që u desh për kapjen e çdo fraksioni të shëmbëlltyrës që mendja e një fëmije regjistron në vitet e para të zhvillimit

In hindsight, this idea of using big data to train computer algorithms may seem obvious now, but back in 2007, it was not so obvious. We were fairly alone on this journey for quite a while. Some very friendly colleagues advised me to do something more useful for my tenure, and we were constantly struggling for research funding. Once, I even joked to my graduate students that I would just reopen my dry cleaner's shop to fund ImageNet. After all, that's how I funded my college years.

Në retrospektivë, ideja e përdorimit të "big data" për trajnimin e algoritmave kompjuterikë mund të duket e qartë tani, por vite më parë, në 2007, nuk ishte kaq e qartë. Ne ishim vërtet vetëm në këtë rrugëtim për mjaft kohë. Disa kolegë të mitë, miqësisht më këshilluan të bëja diçka më të vlefshme, dhe vazhdimisht luftonim për financimin e kërkimeve. Njëherë madje, unë bëra shaka me studentët e diplomuar se do të hapja sërish dyqanin tim të pastrimit kimik për të financuar ImageNet. Në fund të fundit, ashtu arrita të financoj dhe studimet e mia.

So we carried on. In 2009, the ImageNet project delivered a database of 15 million images across 22,000 classes of objects and things organized by everyday English words. In both quantity and quality, this was an unprecedented scale. As an example, in the case of cats, we have more than 62,000 cats of all kinds of looks and poses and across all species of domestic and wild cats. We were thrilled to have put together ImageNet, and we wanted the whole research world to benefit from it, so in the TED fashion, we opened up the entire data set to the worldwide research community for free. (Applause)

Pra ne vazhduam. Në 2009-n, projekti ImageNet paraqiti një databazë me 15 milion imazhe të klasifikuara në 22,000 klasa objektesh dhe gjërash të organizuara sipas fjalëve të përdorura në Anglishten e përditshme. Si në cilësi, ashtu dhe në sasi, kjo ishte një arritje e paparë. Si shembull, në rastin e maceve, kemi më shumë se 62,000 mace të të gjitha pamjeve, pozicioneve dhe llojeve të maceve shtëpiake apo të egra. Ne ishim të ngazëllyer nga puna e bërë me ImageNet, dhe donim që e gjithë bota kërkimore të përfitonte nga rezultatet, kështu në një mënyrë të ngjashme me TED, ne ia ofruam të dhënat falas komunitetit kërkimor në të gjithë botën. (Duartrokitje)

Now that we have the data to nourish our computer brain, we're ready to come back to the algorithms themselves. As it turned out, the wealth of information provided by ImageNet was a perfect match to a particular class of machine learning algorithms called convolutional neural network, pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun back in the 1970s and '80s. Just like the brain consists of billions of highly connected neurons, a basic operating unit in a neural network is a neuron-like node. It takes input from other nodes and sends output to others. Moreover, these hundreds of thousands or even millions of nodes are organized in hierarchical layers, also similar to the brain. In a typical neural network we use to train our object recognition model, it has 24 million nodes, 140 million parameters, and 15 billion connections. That's an enormous model. Powered by the massive data from ImageNet and the modern CPUs and GPUs to train such a humongous model, the convolutional neural network blossomed in a way that no one expected. It became the winning architecture to generate exciting new results in object recognition. This is a computer telling us this picture contains a cat and where the cat is. Of course there are more things than cats, so here's a computer algorithm telling us the picture contains a boy and a teddy bear; a dog, a person, and a small kite in the background; or a picture of very busy things like a man, a skateboard, railings, a lampost, and so on. Sometimes, when the computer is not so confident about what it sees, we have taught it to be smart enough to give us a safe answer instead of committing too much, just like we would do, but other times our computer algorithm is remarkable at telling us what exactly the objects are, like the make, model, year of the cars.

Tani që i kemi të dhënat për të ushqyer trurin e kompjuterit, jemi gati t'i rikthehemi algoritmeve. Rezultoi se, pasuria informative e ofruar nga ImageNet përkonte në mënyrë të përkryer me një kategori të veçantë algoritmesh të machine learning, që quhen convolutional neural network, të aplikuar fillimisht nga Kunihiko Fukushima, Geoff Hinton, dhe Yann LeCun ne vitet '70 dhe '80. Ashtu si truri që përbëhet nga miliarda neurone të lidhura ngushtë, njësia baze operative e një rrjeti neuronesh (neural network) është një nyje e ngjashme me neuronin. Ajo merr të dhëna nga nyjet e tjera dhe i dërgon rezultatin e përpunimit të tjerave. Për më tepër, këto qindra mijra madje edhe miliona nyje janë të organizuara në shtresa hierarkike, gjithashtu të ngjashme me trurin. Në një rrjet tipik neuronesh për të trajnuar modelin për njohjen e objekteve, ndodhen 24 milion nyje, 140 milion parametra, dhe 15 miliardë lidhje. Ky është një model gjigand. Falë të dhënave masive ofruar nga ImageNet dhe CPU-të dhe GPU-të moderne për trajnimin e nje modeli kaq të madh, rrjeti konvolucional i neuroneve (convolutional neural network) lulëzoi në një mënyrë që askush se priste. U kthye në një arkitekturë fitimtare për gjenerimin e rezultateve të reja në identifikimin e objekteve. Ky është një kompjuter duke na treguar se ky imazh përmban një mace dhe vendin ku macja ndodhet. Sigurisht ekzistojnë dhe gjëra të tjera përvec maceve, pra ja një algoritëm komjuterik duke na treguar se imazhi përmban nje djalë dhe një arush teddy; një qen, një person, dhe një balonë të vogël në sfond; apo një imazh shumë i ngarkuar me objekte si një burrë, një skateboard, kangjella, e kështu me rradhë. Ndonjëherë, kur kompjuteri nuk është mjaft i sigurt për atë që sheh, ne e kemi mësuar të tregohet i zgjuar e të na jap nje përgjigje të vagët por më të sigurt, në vend që t'ia fusë kot sic bëjmë ne, por në raste të tjera, algoritmi ynë është i jashtëzakonshëm kur na tregon saktësisht se me cilin objekt kemi të bëjmë, si përbërjen, modelin, vitin e prodhimit të makinave.

We applied this algorithm to millions of Google Street View images across hundreds of American cities, and we have learned something really interesting: first, it confirmed our common wisdom that car prices correlate very well with household incomes. But surprisingly, car prices also correlate well with crime rates in cities, or voting patterns by zip codes.

Ne e aplikuam këtë algoritëm në miliona imazhe të Google Street View të qindra qyteteve amerikane, dhe mësuam dicka shumë interesante: së pari, konfirmoi atë qe na thotë dhe logjika cmimet e makinave janë në përpjestim të drejtë me të ardhurat familjare. Por per cudi, ato lidhen dhe me shkallën e krimit në qytete, apo mënyrën e votimit sipas kodeve postare.

So wait a minute. Is that it? Has the computer already matched or even surpassed human capabilities? Not so fast. So far, we have just taught the computer to see objects. This is like a small child learning to utter a few nouns. It's an incredible accomplishment, but it's only the first step. Soon, another developmental milestone will be hit, and children begin to communicate in sentences. So instead of saying this is a cat in the picture, you already heard the little girl telling us this is a cat lying on a bed.

Prit një minutë. Kaq ishte? Arriti kompjuteri tashmë në të njejtin nivel madje dhe më lart se njeriu? Jo kaq shpejt. Deri tani, i kemi mësuar kompjuterit të shohë objekte. Si të jetë një fëmijë i vogël duke mësuar ca emra. është një arritje e pabesueshme, por është vetëm hapi i parë. Së shpejti do të hidhet një hap tjetër i madh zhvillimi, dhe fëmijët do të fillojnë të flasin me fjali. Kështu në vënd që të thonë se këtu në foto është një mace, ju e dëgjuat tashmë vajzën e vogël duke na treguar se macja është shtrirë në krevat.

So to teach a computer to see a picture and generate sentences, the marriage between big data and machine learning algorithm has to take another step. Now, the computer has to learn from both pictures as well as natural language sentences generated by humans. Just like the brain integrates vision and language, we developed a model that connects parts of visual things like visual snippets with words and phrases in sentences.

Pra, për t'i mësuar kompjuterit të shohë një foto dhe të gjenerojë fjali, bashkimi i ngushtë mes të dhënave dhe algoritmit duhet të hedhë një hap tjetër. Tani, kompjuteri duhet të mësojë edhe nga imazhet edhe nga gjuha natyrore e folur nga njerëzit. Ashtu sic truri integron shikimin me gjuhën, ne zhvilluam një model që lidh pjesë vizuale të objekteve si copëza vizuale me fjalë dhe shprehje në fjali.

About four months ago, we finally tied all this together and produced one of the first computer vision models that is capable of generating a human-like sentence when it sees a picture for the first time. Now, I'm ready to show you what the computer says when it sees the picture that the little girl saw at the beginning of this talk.

Rreth katër muaj më parë, më në fund i bashkuam të gjitha dhe prodhuam një nga modelet e para të vizionit kompjuterik që bën të mundur gjenerimin e fjalive të ngjashme me ato që thonë njerëzit kur shohin një foto për herë të parë. Tani, jam gati t'ju tregoj se cfare thotë kompjuteri kur sheh të njëjtën foto që vajza e vogël po shihte në fillim të kësaj bisede.

(Video) Computer: A man is standing next to an elephant. A large airplane sitting on top of an airport runway.

(Video) Kompjuteri: Një njeri po qëndron pranë një elefanti. Një avjon i madh duke qëndruar në një pistë aeroporti.

FFL: Of course, we're still working hard to improve our algorithms, and it still has a lot to learn. (Applause)

FFL: Patjeter, ne po punojmë ende fort për përmirësimin e algoritmave tanë, dhe kemi ende shumë për t'i mësuar. (Duartrokitje)

And the computer still makes mistakes.

Dhe kompjuteri prapë bën gabime.

(Video) Computer: A cat lying on a bed in a blanket.

(Video) Kompjuteri: Një mace e shtrirë në një krevat në një batanije.

FFL: So of course, when it sees too many cats, it thinks everything might look like a cat.

FFL: Sigurisht, kur sheh kaq shumë mace, mendon pastaj që cdo gjë mund të duket si mace.

(Video) Computer: A young boy is holding a baseball bat. (Laughter)

(Video) Kompjuteri: Një djalë i vogël duke mbajtur një shkop bejzbolli. (Të qeshura)

FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.

FFL: Nëse s'ka parë kurrë furcë dhëmbësh, e ngatërron atë me një shkop bejzbolli

(Video) Computer: A man riding a horse down a street next to a building. (Laughter)

(Video) Kompjuteri: Një burrë hipur mbi kalë në një rrugë pranë një ndërtese. (Të qeshura)

FFL: We haven't taught Art 101 to the computers.

FFL: Ende nuk i kemi mësuar art kompjuterave.

(Video) Computer: A zebra standing in a field of grass.

(Video) Kompjuteri: Një zebra duke qëndruar në një fushë me bar

FFL: And it hasn't learned to appreciate the stunning beauty of nature like you and I do.

FFL: Dhe ende nuk ka mësuar të çmojë bukurinë mahnitëse të natyrës ashtu siç bëjmë ne.

So it has been a long journey. To get from age zero to three was hard. The real challenge is to go from three to 13 and far beyond. Let me remind you with this picture of the boy and the cake again. So far, we have taught the computer to see objects or even tell us a simple story when seeing a picture.

Pra ka qenë një udhëtim i gjatë. Ishte mjaft vështirë të shkonim nga mosha zero në tre. Sfida e vërtetë është të shkojmë nga tre në 13 e më tej. Më lini t'ju risjell këtë foto të djalit me tortën. Deri tani, ne i kemi mësuar kompjuterave të shohin sende madje dhe të na tregojnë histori të thjeshta duke parë një foto.

(Video) Computer: A person sitting at a table with a cake.

(Video) Kompjuteri: Nje person i ulur pranë tavolinës me një tortë.

FFL: But there's so much more to this picture than just a person and a cake. What the computer doesn't see is that this is a special Italian cake that's only served during Easter time. The boy is wearing his favorite t-shirt given to him as a gift by his father after a trip to Sydney, and you and I can all tell how happy he is and what's exactly on his mind at that moment.

FFL: Por ka shumë më tepër në këtë foto sesa thjesht një person dhe një tortë. Kompjuteri nuk mund të shohë se kjo është një tortë e vecantë italiane që shërbehet vetëm në kohën e Pashkëve. Djali ka veshur bluzën e tij të preferuar të cilën ia ka dhuruar i ati, pas një udhëtimi ne Sidney, dhe ne mund ta shohim se sa i lumtur është ai dhe cfarë i kalon nëpër mend në ato momente.

This is my son Leo. On my quest for visual intelligence, I think of Leo constantly and the future world he will live in. When machines can see, doctors and nurses will have extra pairs of tireless eyes to help them to diagnose and take care of patients. Cars will run smarter and safer on the road. Robots, not just humans, will help us to brave the disaster zones to save the trapped and wounded. We will discover new species, better materials, and explore unseen frontiers with the help of the machines.

Ky është im bir, Leo. Në kërkimin tim për inteligjencë vizuale, mendoj për Leon vazhdimisht dhe për botën e së ardhmes ku ai do të jetojë. Kur një makineri do të mund të shohë, doktorët dhe infermjerët do të kenë një palë sy të palodhur shtesë për t'i ndihmuar të përcaktojnë diagnoza dhe të kujdesen për pacientët. Makinat do të vozitin në mënyrë më inteligjente dhe më të sigurtë Robotët, jo vetëm njerëzit, do të na ndihmojnë të deportojmë në zonat e fatkeqësive, të shpëtojmë të plagosurit Ne do të zbulojmë specie të reja, materiale më të mira, dhe do të eksplorojmë kufij të padukshëm me ndihmën e kompjuterave

Little by little, we're giving sight to the machines. First, we teach them to see. Then, they help us to see better. For the first time, human eyes won't be the only ones pondering and exploring our world. We will not only use the machines for their intelligence, we will also collaborate with them in ways that we cannot even imagine.

Dalë ngadalë, po i japim kompjuterit aftësinë për të parë. Në fillim i mësojmë të shohin. Më pas, ata na ndihmojnë ne të shohim më mirë. Për herë të parë, sytë njerëzorë, nuk do të jenë të vetmit që do të shohin dhe eksplorojnë botën. Nuk do t'i përdorim kompjuterat vetëm për inteligjencën, por do të bashkëpunojmë me to në mënyra që as nuk mund t'i imagjinojmë.

This is my quest: to give computers visual intelligence and to create a better future for Leo and for the world.

Ky është qëllimi im: t'i japim kompjuterave inteligjencë vizuale dhe të krijojmë një të ardhme më të mirë për Leon dhe botën.

Thank you.

Faleminderit.

(Applause)

(Duartrokitje)