Let me show you something.
Vou mostrar-vos uma coisa.
(Video) Girl: Okay, that's a cat sitting in a bed. The boy is petting the elephant. Those are people that are going on an airplane. That's a big airplane.
(Vídeo) Menina: Isto é um gato sentado numa cama. O rapaz está a fazer festas ao elefante. Isso são pessoas a ir para um avião. É um grande avião.
Fei-Fei Li: This is a three-year-old child describing what she sees in a series of photos. She might still have a lot to learn about this world, but she's already an expert at one very important task: to make sense of what she sees. Our society is more technologically advanced than ever. We send people to the moon, we make phones that talk to us or customize radio stations that can play only music we like. Yet, our most advanced machines and computers still struggle at this task. So I'm here today to give you a progress report on the latest advances in our research in computer vision, one of the most frontier and potentially revolutionary technologies in computer science.
Fei-Fei Li: Esta é uma criança de 3 anos a descrever o que vê num conjunto de fotografias. Ela poderá ter ainda muito para aprender neste mundo, mas já é especialista numa tarefa muito importante: dar sentido ao que vê. A nossa sociedade está mais avançada do que nunca. Enviamos pessoas para a lua, fazemos telefones que falam connosco ou personalizamos estações de rádio que apenas tocam música de que gostamos. No entanto, as nossas máquinas e computadores mais avançados ainda têm dificuldade em realizar esta tarefa. Por isso estou aqui hoje, para vos dar um relato sobre os últimos avanços do nosso trabalho em visão computacional, uma das tecnologias mais inovadoras e potencialmente mais revolucionárias da ciência informática.
Yes, we have prototyped cars that can drive by themselves, but without smart vision, they cannot really tell the difference between a crumpled paper bag on the road, which can be run over, and a rock that size, which should be avoided. We have made fabulous megapixel cameras, but we have not delivered sight to the blind. Drones can fly over massive land, but don't have enough vision technology to help us to track the changes of the rainforests. Security cameras are everywhere, but they do not alert us when a child is drowning in a swimming pool. Photos and videos are becoming an integral part of global life. They're being generated at a pace that's far beyond what any human, or teams of humans, could hope to view, and you and I are contributing to that at this TED. Yet our most advanced software is still struggling at understanding and managing this enormous content. So in other words, collectively as a society, we're very much blind, because our smartest machines are still blind.
É verdade que já temos protótipos de carros que conduzem sozinhos, mas sem visão inteligente, eles não conseguem distinguir entre um saco de papel amarrotado, que o carro pode atropelar, e uma pedra do mesmo tamanho, que deve ser evitada. Criámos fabulosas câmaras de megapixéis, mas não conseguimos devolver a visão a pessoas cegas. Os drones conseguem voar sobre uma área extensa de terra, mas não têm a tecnologia de visualização necessária para detetar alterações nas florestas tropicais Temos câmaras de segurança por todo o lado, mas elas não nos alertam quando uma criança se está a afogar numa piscina. As fotografias e os vídeos estão a tornar-se parte integrante da vida em todo o mundo. São gerados a um ritmo muito mais rápido do que qualquer ser humano, ou equipas de seres humanos poderiam esperar ver. Nós estamos neste momento a contribuir para este fenómeno, com este evento TED. No entanto, até o software mais avançado tem ainda dificuldades em compreender e gerir uma quantidade de dados tão grande. Por outras palavras, enquanto sociedade, nós somos bastante cegos, porque as nossas máquinas mais inteligentes ainda são cegas.
"Why is this so hard?" you may ask. Cameras can take pictures like this one by converting lights into a two-dimensional array of numbers known as pixels, but these are just lifeless numbers. They do not carry meaning in themselves. Just like to hear is not the same as to listen, to take pictures is not the same as to see, and by seeing, we really mean understanding. In fact, it took Mother Nature 540 million years of hard work to do this task, and much of that effort went into developing the visual processing apparatus of our brains, not the eyes themselves. So vision begins with the eyes, but it truly takes place in the brain.
"Porque é isto tão difícil?" poderão perguntar. As câmaras fotográficas tiram fotografias como esta, convertendo luzes numa tabela com números, conhecidos como pixéis, mas são apenas números sem vida. Por si só não têm significado. Pela mesma razão que ouvir não é o mesmo que escutar, tirar fotografias não é o mesmo que ver, e por ver entenda-se compreender. Na verdade, a Mãe Natureza precisou de 540 milhões de anos de trabalho duro para realizar esta tarefa. Muito desse esforço foi para o desenvolvimento do mecanismo de processamento visual do cérebro, e não para os olhos. Portanto, a visão começa nos olhos, mas onde realmente acontece é no cérebro.
So for 15 years now, starting from my Ph.D. at Caltech and then leading Stanford's Vision Lab, I've been working with my mentors, collaborators and students to teach computers to see. Our research field is called computer vision and machine learning. It's part of the general field of artificial intelligence. So ultimately, we want to teach the machines to see just like we do: naming objects, identifying people, inferring 3D geometry of things, understanding relations, emotions, actions and intentions. You and I weave together entire stories of people, places and things the moment we lay our gaze on them.
Há já 15 anos, desde o meu doutoramento em Caltech, e depois como diretora do laboratório Stanford's Vision, tenho trabalhado com os meus mentores, colaboradores e estudantes para ensinar os computadores a ver. A nossa área de investigação chama-se visão computacional e aprendizagem automática. Faz parte do campo mais geral da inteligência artificial. Em ultima análise, queremos ensinar as máquinas a ver, tal como nós vemos: nomear objetos, identificar pessoas, inferir a geometria 3D das coisas, entender relações, emoções, ações e intenções. Todos imaginamos e criamos histórias sobre pessoas, lugares e objetos mal lhes deitamos a vista em cima.
The first step towards this goal is to teach a computer to see objects, the building block of the visual world. In its simplest terms, imagine this teaching process as showing the computers some training images of a particular object, let's say cats, and designing a model that learns from these training images. How hard can this be? After all, a cat is just a collection of shapes and colors, and this is what we did in the early days of object modeling. We'd tell the computer algorithm in a mathematical language that a cat has a round face, a chubby body, two pointy ears, and a long tail, and that looked all fine. But what about this cat? (Laughter) It's all curled up. Now you have to add another shape and viewpoint to the object model. But what if cats are hidden? What about these silly cats? Now you get my point. Even something as simple as a household pet can present an infinite number of variations to the object model, and that's just one object.
O primeiro passo para este objetivo é ensinar um computador a ver objetos, os blocos de construção do mundo visual. Na sua forma mais simples, imaginem este processo de ensinar os computadores como o ato de lhes mostrar imagens de um dado objeto para treino, por exemplo gatos, e conceber um modelo que aprende a partir dessas imagens para treino. Quão difícil será fazer isto? Afinal de contas, um gato não é mais que um conjunto de formas e cores, e foi o que fizemos nos primeiros tempos da modelação de objetos. Dizíamos ao algoritmo do computador, em linguagem matemática, que um gato tem uma face redonda, um corpo volumoso, duas orelhas pontiagudas, uma cauda comprida, e esse modelo parecia bem assim. Mas o que acontece com este gato? (Risos) Está todo enrolado. Agora vamos ter de adicionar outra forma e perspetiva ao modelo. E se os gatos estiverem escondidos? E quanto a estes gatos patetas? Agora compreendem o meu problema. Até mesmo algo tão simples quanto um animal doméstico pode ter um número infinito de variações relativamente ao modelo e estamos a falar de um único objeto.
So about eight years ago, a very simple and profound observation changed my thinking. No one tells a child how to see, especially in the early years. They learn this through real-world experiences and examples. If you consider a child's eyes as a pair of biological cameras, they take one picture about every 200 milliseconds, the average time an eye movement is made. So by age three, a child would have seen hundreds of millions of pictures of the real world. That's a lot of training examples. So instead of focusing solely on better and better algorithms, my insight was to give the algorithms the kind of training data that a child was given through experiences in both quantity and quality.
Então, há cerca de oito anos, uma observação muito simples e profunda mudou a minha forma de pensar. Ninguém diz a uma criança como se vê, especialmente nos primeiros anos de vida. As crianças aprendem isso através de experiências e exemplos da vida real. Se considerarmos os olhos de uma criança como duas máquinas fotográficas biológicas, elas tiram uma fotografia a cada 200 millisegundos aproximadamente, o tempo médio que demora um movimento ocular. Assim, aos três anos, uma criança terá visto centenas de milhões de imagens do mundo real. São imensos exemplos para treino. Deste modo, em vez de me focar apenas em algoritmos cada vez melhores, a minha ideia foi treinar os algoritmos com o mesmo tipo de dados que uma criança recebe através das suas experiências, tanto em quantidade como qualidade.
Once we know this, we knew we needed to collect a data set that has far more images than we have ever had before, perhaps thousands of times more, and together with Professor Kai Li at Princeton University, we launched the ImageNet project in 2007. Luckily, we didn't have to mount a camera on our head and wait for many years. We went to the Internet, the biggest treasure trove of pictures that humans have ever created. We downloaded nearly a billion images and used crowdsourcing technology like the Amazon Mechanical Turk platform to help us to label these images. At its peak, ImageNet was one of the biggest employers of the Amazon Mechanical Turk workers: together, almost 50,000 workers from 167 countries around the world helped us to clean, sort and label nearly a billion candidate images. That was how much effort it took to capture even a fraction of the imagery a child's mind takes in in the early developmental years.
Depois de percebermos isto, sabíamos que teríamos de reunir um conjunto de dados com muito mais imagens do que alguma vez tínhamos tido, talvez mesmo milhares de vezes mais. Juntamente com o Professor Kai Li na Universidade de Princeton, iniciámos o projeto ImageNet, em 2007. Felizmente, não precisámos de montar uma câmara na cabeça e esperar vários anos. Recorremos à Internet, o maior tesouro de imagens que o Homem alguma vez criou. Descarregámos cerca de mil milhões de imagens e utilizámos tecnologias de contribuição voluntária, como a plataforma Amazon Mechanical Turk, para nos ajudar a rotular essas imagens. No seu auge, o ImageNet era um dos maiores empregadores da Amazon Mechanical Turk. No total, quase 50 mil trabalhadores de 167 países de todo o mundo ajudaram-nos a limpar, ordenar e rotular cerca de mil milhões de imagens candidatas. Foi quanto custou captar uma fração de todas as imagens que uma criança vê nos seus primeiros anos de desenvolvimento.
In hindsight, this idea of using big data to train computer algorithms may seem obvious now, but back in 2007, it was not so obvious. We were fairly alone on this journey for quite a while. Some very friendly colleagues advised me to do something more useful for my tenure, and we were constantly struggling for research funding. Once, I even joked to my graduate students that I would just reopen my dry cleaner's shop to fund ImageNet. After all, that's how I funded my college years.
Em retrospetiva, esta ideia de usar grandes volumes de dados para treinar algoritmos em computadores pode hoje parecer óbvia, mas em 2007 não era assim tão óbvia. Estivemos sozinhos neste percurso durante algum tempo. Alguns colegas amáveis aconselharam-me a fazer algo mais útil no meu mandato, e estávamos constantemente a lutar por financiamento para a investigação. Uma vez até disse, a brincar, aos meus alunos que ia reabrir a minha loja de limpeza a seco, para financiar o ImageNet. Afinal de contas, foi assim que eu financiei
So we carried on. In 2009, the ImageNet project delivered a database of 15 million images across 22,000 classes of objects and things organized by everyday English words. In both quantity and quality, this was an unprecedented scale. As an example, in the case of cats, we have more than 62,000 cats of all kinds of looks and poses and across all species of domestic and wild cats. We were thrilled to have put together ImageNet, and we wanted the whole research world to benefit from it, so in the TED fashion, we opened up the entire data set to the worldwide research community for free. (Applause)
os meus estudos na universidade. E assim continuámos o trabalho. Em 2009, o ImageNet disponibilizou uma base de dado com 15 milhões de imagens ao longo de 22 mil classes de objetos e coisas, organizados por palavras inglesas de uso comum. Tanto em quantidade como em qualidade, tratou-se de uma escala sem precedentes. Como exemplo disto temos, no caso dos gatos, mais de 62 mil gatos de todos os tipos e em variadas poses, assim como todas as espécies de gatos domésticos e selvagens. Estávamos muito entusiasmados por termos construído o ImageNet e queríamos que toda a pesquisa mundial pudesse beneficiar dele, por isso, à boa maneira do TED, disponibilizámos toda a base de dados para a comunidade de pesquisa mundial, gratuitamente. (Aplausos)
Now that we have the data to nourish our computer brain, we're ready to come back to the algorithms themselves. As it turned out, the wealth of information provided by ImageNet was a perfect match to a particular class of machine learning algorithms called convolutional neural network, pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun back in the 1970s and '80s. Just like the brain consists of billions of highly connected neurons, a basic operating unit in a neural network is a neuron-like node. It takes input from other nodes and sends output to others. Moreover, these hundreds of thousands or even millions of nodes are organized in hierarchical layers, also similar to the brain. In a typical neural network we use to train our object recognition model, it has 24 million nodes, 140 million parameters, and 15 billion connections. That's an enormous model. Powered by the massive data from ImageNet and the modern CPUs and GPUs to train such a humongous model, the convolutional neural network blossomed in a way that no one expected. It became the winning architecture to generate exciting new results in object recognition. This is a computer telling us this picture contains a cat and where the cat is. Of course there are more things than cats, so here's a computer algorithm telling us the picture contains a boy and a teddy bear; a dog, a person, and a small kite in the background; or a picture of very busy things like a man, a skateboard, railings, a lampost, and so on. Sometimes, when the computer is not so confident about what it sees, we have taught it to be smart enough to give us a safe answer instead of committing too much, just like we would do, but other times our computer algorithm is remarkable at telling us what exactly the objects are, like the make, model, year of the cars.
Agora que já temos os dados para alimentar o cérebro do nosso computador, estamos prontos para voltar a trabalhar nos algoritmos. Como se veio a perceber, a riqueza de informações fornecidas pelo ImageNet era perfeita para uma classe particular de algoritmos de aprendizagem automática designada por "rede neural convoluta", lançada por Kunihiko Fukushima, Geoff Hinton e Yann LeCun, nos anos 70 e 80. À semelhança do cérebro, formado por milhares de milhões de neurónios altamente ligados, uma operação unitária básica numa rede neural é idêntica a um nodo de neurónios. Esse nodo recebe e envia informações de outros nodos e para outros nodos. Além disso, essas centenas de milhares ou mesmo milhões de nodos estão organizados em camadas hierárquicas, à semelhança do que se passa no cérebro. Numa rede neural típica que usamos, para treinar o modelo de reconhecimento de objetos existem 24 milhões de nodos, 140 milhões de parâmetros e 15 mil milhões de ligações. É um modelo enorme. Abastecido pelos imensos dados do ImageNet dos CPUs e GPUs modernos para treinar um modelo tão pesado quanto este, a rede neural convoluta floresceu de um modo que ninguém esperava. Tornou-se na arquitetura vencedora para a geração de resultados sensacionais no reconhecimento de objetos. Aqui temos um computador a dizer-nos que esta imagem tem um gato e a localização do gato na imagem. É claro que há mais coisas além de gatos, e assim temos aqui um algoritmo de computador a dizer-nos que a imagem contém um rapaz e um ursinho de peluche, um cão, uma pessoa e um pequeno papagaio ao fundo, ou uma imagem com muitos elementos, tais como um homem, um "skate", grades, um poste de iluminação, etc. Por vezes, quando o computador não está seguro do que vê, ensinámo-lo a ser suficientemente inteligente para nos dar uma resposta segura em vez de se comprometer demasiado, tal como nós faríamos. Mas outras vezes o nosso algoritmo é brilhante a dizer exatamente quais são os objetos na imagem, como a marca, o modelo e o ano de fabrico dos carros.
We applied this algorithm to millions of Google Street View images across hundreds of American cities, and we have learned something really interesting: first, it confirmed our common wisdom that car prices correlate very well with household incomes. But surprisingly, car prices also correlate well with crime rates in cities, or voting patterns by zip codes.
Aplicámos este algoritmo a milhões de imagens do Google Street View a centenas de cidades norte-americanas e aprendemos algo muito interessante: primeiro, confirmou a sabedoria comum que diz que os preços dos carros estão fortemente correlacionados com os rendimentos familiares. Mas, surpreendentemente, os preços dos carros também estão correlacionados com as taxas de criminalidade em cidades, ou padrões de votação por código postal.
So wait a minute. Is that it? Has the computer already matched or even surpassed human capabilities? Not so fast. So far, we have just taught the computer to see objects. This is like a small child learning to utter a few nouns. It's an incredible accomplishment, but it's only the first step. Soon, another developmental milestone will be hit, and children begin to communicate in sentences. So instead of saying this is a cat in the picture, you already heard the little girl telling us this is a cat lying on a bed.
Mas esperem. É mesmo assim? O computador já conseguiu mesmo igualar ou até ultrapassar as capacidades humanas? Vamos com calma. Até agora, apenas ensinámos o computador a ver objetos. Isto é o equivalente a uma criança que aprende a pronunciar alguns nomes. É um feito incrível, mas é apenas o primeiro passo. As crianças atingem rapidamente um novo marco no seu desenvolvimento, começando a comunicar com frases. Ou seja, em vez de dizer que há um gato na imagem, já ouvimos a menina dizer-nos que é um gato deitado numa cama.
So to teach a computer to see a picture and generate sentences, the marriage between big data and machine learning algorithm has to take another step. Now, the computer has to learn from both pictures as well as natural language sentences generated by humans. Just like the brain integrates vision and language, we developed a model that connects parts of visual things like visual snippets with words and phrases in sentences.
Para ensinar um computador a gerar frases a partir de uma imagem, é agora preciso que o casamento entre o volume de dados e a aprendizagem automática dê mais um passo. Agora, o computador terá que aprender, não só a partir de imagens, como também frases naturais da linguagem geradas pelos seres humanos. Tal como o cérebro integra a visão e a linguagem, nós desenvolvemos um modelo que relaciona partes de coisas visuais, tais como fragmentos visuais, com palavras e expressões em frases.
About four months ago, we finally tied all this together and produced one of the first computer vision models that is capable of generating a human-like sentence when it sees a picture for the first time. Now, I'm ready to show you what the computer says when it sees the picture that the little girl saw at the beginning of this talk.
Há cerca de 4 meses, conseguimos finalmente conjugar tudo isto e produzir um dos primeiros modelos de visão computacional capaz de gerar uma frase semelhante à gerada por um ser humano, quando vê uma imagem pela primeira vez. Agora, estou pronta para vos mostrar o que o computador diz quando vê a imagem que a menina viu no início desta palestra.
(Video) Computer: A man is standing next to an elephant. A large airplane sitting on top of an airport runway.
(Vídeo) Computador: Um homem está ao pé de um elefante. Um avião de grande porte poisado na pista de um aeroporto.
FFL: Of course, we're still working hard to improve our algorithms, and it still has a lot to learn. (Applause)
FFL: Claro que ainda estamos a trabalhar arduamente para melhorar os algoritmos, e o computador ainda tem muito que aprender. (Aplausos)
And the computer still makes mistakes.
O computador ainda faz erros.
(Video) Computer: A cat lying on a bed in a blanket.
(Vídeo) Computador: Um gato deitado numa cama num cobertor.
FFL: So of course, when it sees too many cats, it thinks everything might look like a cat.
FFL: Claro que, depois de ver muitos gatos, ele pensa que tudo é um gato.
(Video) Computer: A young boy is holding a baseball bat. (Laughter)
(Video) Computador: Um menino segura um taco de basebol. (Risos)
FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.
FFL: Ou, se o computador nunca viu uma escova de dentes,
(Video) Computer: A man riding a horse down a street next to a building. (Laughter)
confunde-a com um taco de basebol. (Vídeo) Computador: Um homem a cavalo desce uma rua ao pé de um edifício.
FFL: We haven't taught Art 101 to the computers.
(Risos)
FFL: Não ensinámos aos computadores a disciplina de Introdução à Arte.
(Video) Computer: A zebra standing in a field of grass.
(Vídeo) Computador: Uma zebra num relvado.
FFL: And it hasn't learned to appreciate the stunning beauty of nature like you and I do.
FFL: Também não aprenderam ainda a apreciar o esplendor da natureza, como vocês e eu fazemos.
So it has been a long journey. To get from age zero to three was hard. The real challenge is to go from three to 13 and far beyond. Let me remind you with this picture of the boy and the cake again. So far, we have taught the computer to see objects or even tell us a simple story when seeing a picture.
Portanto, tem sido um longo percurso. Ir dos zero aos três anos foi difícil. O verdadeiro desafio será ir dos três anos aos treze e para além disso. Vou mostrar-vos novamente esta imagem do rapaz e do bolo. Até agora, ensinámos o computador a ver objetos ou mesmo a contar-nos uma pequena história quando vê uma imagem.
(Video) Computer: A person sitting at a table with a cake.
(Vídeo) Computador: Uma pessoa sentada à mesa com um bolo.
FFL: But there's so much more to this picture than just a person and a cake. What the computer doesn't see is that this is a special Italian cake that's only served during Easter time. The boy is wearing his favorite t-shirt given to him as a gift by his father after a trip to Sydney, and you and I can all tell how happy he is and what's exactly on his mind at that moment.
FFL: Mas há muito mais nesta imagem do que somente uma pessoa e um bolo. O que o computador não consegue ver é que se trata de um bolo italiano especial que só se serve durante a Páscoa. O rapaz está a usar a sua T-shirt preferida que o pai lhe ofereceu após uma viagem a Sydney. Tanto eu como vocês conseguimos ver como o rapaz está feliz e o que se passa exatamente na sua mente nesse momento.
This is my son Leo. On my quest for visual intelligence, I think of Leo constantly and the future world he will live in. When machines can see, doctors and nurses will have extra pairs of tireless eyes to help them to diagnose and take care of patients. Cars will run smarter and safer on the road. Robots, not just humans, will help us to brave the disaster zones to save the trapped and wounded. We will discover new species, better materials, and explore unseen frontiers with the help of the machines.
Este é o meu filho Leo. Na minha busca pela inteligência visual, penso frequentemente no Leo e no mundo em que ele viverá no futuro. Quando as máquinas conseguirem ver, médicos e enfermeiros irão ter um par adicional de olhos incansáveis para os ajudar a diagnosticar e cuidar dos seus doentes. Os automóveis irão andar na estrada de modo mais inteligente e seguro. Os robôs, não apenas os seres humanos, irão ajudar-nos a enfrentar zonas de catástrofe, salvando feridos e encarcerados. Iremos descobrir novas espécies, melhores materiais, e explorar limites nunca antes vistos com a ajuda de máquinas.
Little by little, we're giving sight to the machines. First, we teach them to see. Then, they help us to see better. For the first time, human eyes won't be the only ones pondering and exploring our world. We will not only use the machines for their intelligence, we will also collaborate with them in ways that we cannot even imagine.
Pouco a pouco, estamos a dar às máquinas a capacidade de ver. Primeiro, ensinamo-las a ver. Depois, elas ajudam-nos a ver melhor. Pela primeira vez, os olhos humanos não estarão sozinhos na exploração e compreensão do nosso mundo. Iremos usar máquinas não somente pela sua inteligência, mas também para colaborar com elas de formas que ainda não conseguimos imaginar.
This is my quest: to give computers visual intelligence and to create a better future for Leo and for the world.
Esta é a minha missão: dar inteligência visual aos computadores e criar um futuro melhor para o Leo e para o mundo.
Thank you.
Obrigada.
(Applause)
(Aplausos)