Jeremy Howard: The wonderful and terrifying implications of computers that can learn

It used to be that if you wanted to get a computer to do something new, you would have to program it. Now, programming, for those of you here that haven't done it yourself, requires laying out in excruciating detail every single step that you want the computer to do in order to achieve your goal. Now, if you want to do something that you don't know how to do yourself, then this is going to be a great challenge.

Det brukade vara så att om du ville få en dator att göra något nytt så behövde du programmera den. Programmering, för dem av er som inte har gjort det själva, kräver att man på ett olidligt detaljerat sätt anger varenda steg man vill att datorn ska ta för att uppnå önskat mål. Men, om du vill göra något som du inte vet själv hur man gör,

So this was the challenge faced by this man, Arthur Samuel. In 1956, he wanted to get this computer to be able to beat him at checkers. How can you write a program, lay out in excruciating detail, how to be better than you at checkers? So he came up with an idea: he had the computer play against itself thousands of times and learn how to play checkers. And indeed it worked, and in fact, by 1962, this computer had beaten the Connecticut state champion.

då blir det här en enorm utmaning. Så det här var den utmaning som denne man, Arthur Samuel, ställdes inför. 1956 ville han få sin dator till att slå honom i spelet Dam. Hur kan du skriva ett program, och ange på ett olidligt detaljerat sätt, hur det ska slå dig i Dam? Så han kom på en idé: han lät datorn spela mot sig själv tusentals gånger och lära sig att spela Dam. Och det fungerade faktiskt, och vid 1962 hade datorn slagit Connecticuts statsmästare.

So Arthur Samuel was the father of machine learning, and I have a great debt to him, because I am a machine learning practitioner. I was the president of Kaggle, a community of over 200,000 machine learning practictioners. Kaggle puts up competitions to try and get them to solve previously unsolved problems, and it's been successful hundreds of times. So from this vantage point, I was able to find out a lot about what machine learning can do in the past, can do today, and what it could do in the future. Perhaps the first big success of machine learning commercially was Google. Google showed that it is possible to find information by using a computer algorithm, and this algorithm is based on machine learning. Since that time, there have been many commercial successes of machine learning. Companies like Amazon and Netflix use machine learning to suggest products that you might like to buy, movies that you might like to watch. Sometimes, it's almost creepy. Companies like LinkedIn and Facebook sometimes will tell you about who your friends might be and you have no idea how it did it, and this is because it's using the power of machine learning. These are algorithms that have learned how to do this from data rather than being programmed by hand.

Så Arthur Samuels var maskininlärningens fader, och jag är skyldig honom så mycket, för att jag är verksam inom maskininlärning. Jag var ordförande i Kaggle, en gemenskap på över 200 000 verksamma inom maskininlärning. Kaggle anordnar tävlingar för att försöka åstadkomma lösningar på olösta problem, och det har varit framgångsrikt vid hundratals tillfällen. Så från den synvinkeln kunde jag få veta väldigt mycket om vad maskininlärning kan göra i det förflutna, kan göra idag, och vad den kan tänkas göra i framtiden. Maskininlärningens första stora framgång var kanske Google. Google visade att det är möjligt att få fram information genom att använda en datoralgoritm, en datoralgoritm som bygger på maskininlärning. Sen dess har maskininlärning rönt många kommersiella framgångar. Företag som Amazon och Netflix använder maskininlärning för att föreslå produkter som du kan tänkas vilja köpa, filmer som du kan tänkas vilja se. Ibland är det nästan lite läskigt. Företag som LinkedIn och Facebook kan ibland berätta för dig vilka dina vänner kan tänkas vara och du kan inte föreställa dig hur det gick till och det beror på att de använder maskininlärningens kraft. Det här är algoritmer som har lärt sig att göra detta utifrån data snarare än att ha blivit programmerade till det.

This is also how IBM was successful in getting Watson to beat the two world champions at "Jeopardy," answering incredibly subtle and complex questions like this one. ["The ancient 'Lion of Nimrud' went missing from this city's national museum in 2003 (along with a lot of other stuff)"] This is also why we are now able to see the first self-driving cars. If you want to be able to tell the difference between, say, a tree and a pedestrian, well, that's pretty important. We don't know how to write those programs by hand, but with machine learning, this is now possible. And in fact, this car has driven over a million miles without any accidents on regular roads.

Det här också hemligheten bakom IBM:s framgångar med att få Watson att slå de två världsmästarna i Jeopardy, genom att besvara otroligt subtila och komplexa frågor som den här. [Det antika "Lion of Nimrud" försvann från denna stads ...] Det här är också anledningen till att vi nu ser självkörande bilar. Om du vill kunna skilja på till exempel ett träd och en fotgängare så är det ganska viktigt. Vi vet inte hur vi skulle kunna programmera något sånt, men med maskininlärning är det här nu möjligt. Och den här bilen har faktiskt kört över 1,5 miljoner mil, utan olyckor, på vanliga vägar.

So we now know that computers can learn, and computers can learn to do things that we actually sometimes don't know how to do ourselves, or maybe can do them better than us. One of the most amazing examples I've seen of machine learning happened on a project that I ran at Kaggle where a team run by a guy called Geoffrey Hinton from the University of Toronto won a competition for automatic drug discovery. Now, what was extraordinary here is not just that they beat all of the algorithms developed by Merck or the international academic community, but nobody on the team had any background in chemistry or biology or life sciences, and they did it in two weeks. How did they do this? They used an extraordinary algorithm called deep learning. So important was this that in fact the success was covered in The New York Times in a front page article a few weeks later. This is Geoffrey Hinton here on the left-hand side. Deep learning is an algorithm inspired by how the human brain works, and as a result it's an algorithm which has no theoretical limitations on what it can do. The more data you give it and the more computation time you give it, the better it gets.

Så nu vet vi att datorer kan lära sig, och datorer kan lära sig att göra saker som vi ibland faktiskt själva inte vet hur man gör, eller så kan de göra något bättre än vi. Ett av det mer häpnadsväckande exemplen av maskininlärning som jag har sett tog plats i ett projekt som jag körde på Kaggle där ett lag som leddes av en kille som heter Geoffrey Hinton från University of Toronto vann en tävling i automatisk medicinforskning. Men vad som var exceptionellt var inte bara att de slog alla Mercks algoritmer och hela den internationella akademiska gemenskapen, utan att ingen i laget hade någon bakgrund i kemi, biologi eller livsvetenskap och de klarade det på två veckor. Hur gjorde de detta? De använde en enastående algoritm som kallas djupinlärning. Det här var så viktigt att det till och med rapporterades på framsidan till New York Times några veckor senare. Här är Geoffrey Hinton till vänster. Djupinlärningsalgoritmen är inspirerad av hur hjärnan fungerar och som en effekt av det så har den inga teoretiska begränsningar i vad den kan åstadkomma. Ju mer data och beräkningstid du ger den, desto bättre blir den.

The New York Times also showed in this article another extraordinary result of deep learning which I'm going to show you now. It shows that computers can listen and understand.

New York Times visade i sin artikel också på en annan exceptionell effekt av djupinlärning som jag ska visa er nu. Den visar att datorer kan lyssna och förstå.

(Video) Richard Rashid: Now, the last step that I want to be able to take in this process is to actually speak to you in Chinese. Now the key thing there is, we've been able to take a large amount of information from many Chinese speakers and produce a text-to-speech system that takes Chinese text and converts it into Chinese language, and then we've taken an hour or so of my own voice and we've used that to modulate the standard text-to-speech system so that it would sound like me. Again, the result's not perfect. There are in fact quite a few errors. (In Chinese) (Applause) There's much work to be done in this area. (In Chinese) (Applause)

(Video) Richard Rashid: Det sista steget som jag vill kunna ta i den här processen är att kunna tala till er på kinesiska. Nyckeln här är att vi har kunnat ta en stor mängd information från många som talar kinesiska och producera ett "text till tal"-system som tar kinesisk text och konverterar den till kinesiskt språk. Sen har vi tagit en timme eller så av min egen röst och vi har använt den till att modulera vårt grundläggande "text till tal"-system så att det låter som jag. Återigen, resultatet är inte perfekt. Det finns fortfarande några fel. (Kinesiska) (Applåder) Det finns mycket att göra på det här området. (Kinesiska) (Applåder)

Jeremy Howard: Well, that was at a machine learning conference in China. It's not often, actually, at academic conferences that you do hear spontaneous applause, although of course sometimes at TEDx conferences, feel free. Everything you saw there was happening with deep learning. (Applause) Thank you. The transcription in English was deep learning. The translation to Chinese and the text in the top right, deep learning, and the construction of the voice was deep learning as well.

Jeremy Howard: Det där var på en maskininlärningskonferens i Kina. Det är faktiskt inte ofta på akademiska konferenser att man hör spontana applåder, fast på TEDx-konferenser är det förstås välkommet. Allt ni såg där hände med hjälp av maskininlärning. (Applåder) Tack. Avskriften till engelska var djupinlärning. Översättningen till kinesiska och texten i övre högra hörnet vad djupinlärning och skapandet av rösten var också djupinlärning.

So deep learning is this extraordinary thing. It's a single algorithm that can seem to do almost anything, and I discovered that a year earlier, it had also learned to see. In this obscure competition from Germany called the German Traffic Sign Recognition Benchmark, deep learning had learned to recognize traffic signs like this one. Not only could it recognize the traffic signs better than any other algorithm, the leaderboard actually showed it was better than people, about twice as good as people. So by 2011, we had the first example of computers that can see better than people. Since that time, a lot has happened. In 2012, Google announced that they had a deep learning algorithm watch YouTube videos and crunched the data on 16,000 computers for a month, and the computer independently learned about concepts such as people and cats just by watching the videos. This is much like the way that humans learn. Humans don't learn by being told what they see, but by learning for themselves what these things are. Also in 2012, Geoffrey Hinton, who we saw earlier, won the very popular ImageNet competition, looking to try to figure out from one and a half million images what they're pictures of. As of 2014, we're now down to a six percent error rate in image recognition. This is better than people, again.

Så djupinlärning är en exceptionell sak. Det är en enda algoritm som ser ut att kunna göra nästan vad som helst, och jag upptäckte att ett år tidigare hade den också lärt sig att se. I en obskyr tävling från Tyskland som hette German Traffic Sign Recognition Benchmark, hade djupinlärning lärt sig att känna igen trafikskyltar som den här. Den kunde inte bara känna igen trafikskyltarna bättre än alla andra algoritmer, utan resultattavlan visade att den faktiskt var bättre än människor ungefär dubbelt så bra som människor. Vid 2011 hade vi det första exemplet på en dator som kan se bättre än människor. Sen dess har det hänt många saker. 2012 meddelade Google att de hade låtit en djupinlärningsalgoritm titta på YouTube-klipp och beräknade datan på 16 000 datorer i en månad. Och datorn lärde sig, helt av sig själv, om koncept som människor och katter bara genom att titta på klippen. Det här är väldigt likt den mänskliga lärprocessen. Människor lär sig inte genom att någon berättar vad de ser, utan de lär sig själva vad de här sakerna är. 2012 vann George Hinton, som vi såg tidigare, också den väldigt populära ImageNet-tävlingen, när han försökte lista ut, på basis av 1,5 miljoner bilder, vad bilderna innehöll. Nu 2014, är vi nere på en sexprocentig felmarginal för bildigenkänning. Detta är, återigen, bättre än människor.

So machines really are doing an extraordinarily good job of this, and it is now being used in industry. For example, Google announced last year that they had mapped every single location in France in two hours, and the way they did it was that they fed street view images into a deep learning algorithm to recognize and read street numbers. Imagine how long it would have taken before: dozens of people, many years. This is also happening in China. Baidu is kind of the Chinese Google, I guess, and what you see here in the top left is an example of a picture that I uploaded to Baidu's deep learning system, and underneath you can see that the system has understood what that picture is and found similar images. The similar images actually have similar backgrounds, similar directions of the faces, even some with their tongue out. This is not clearly looking at the text of a web page. All I uploaded was an image. So we now have computers which really understand what they see and can therefore search databases of hundreds of millions of images in real time.

Så maskiner gör verkligen ett exceptionellt bra jobb här och används nu inom industrin. Till exempel meddelade Google förra året att de hade mappat varenda plats i Frankrike på två timmar. Och de gjorde detta genom att föda bilder av gatuvyer in i en djupinlärningsalgoritm för att den skulle känna igen och läsa gatunummer. Föreställ er hur lång tid detta skulle ha tagit: dussintals med människor, många år. Det här händer också i Kina. Baidu kan väl kanske sägas vara ett kinesiskt Google och vad ni ser här uppe till vänster är ett exempel på en bild som jag laddade upp i Baidus djupinlärningssystem, och nedanför kan ni se att systemet har förstått vad bilden innehåller och hittat liknande bilder. De liknande bilderna har faktiskt liknande bakgrunder, liknande ansiktsvinklar, till och med några med utstickande tungor. Det här handlar inte om att titta på text på en webbsida. Allt jag laddade upp var en bild. Så, nu har vi datorer som faktiskt förstår vad de ser och därmed kan söka igenom databaser med hundra miljontals bilder i realtid.

So what does it mean now that computers can see? Well, it's not just that computers can see. In fact, deep learning has done more than that. Complex, nuanced sentences like this one are now understandable with deep learning algorithms. As you can see here, this Stanford-based system showing the red dot at the top has figured out that this sentence is expressing negative sentiment. Deep learning now in fact is near human performance at understanding what sentences are about and what it is saying about those things. Also, deep learning has been used to read Chinese, again at about native Chinese speaker level. This algorithm developed out of Switzerland by people, none of whom speak or understand any Chinese. As I say, using deep learning is about the best system in the world for this, even compared to native human understanding.

Så vad betyder det nu att datorer kan se? Det betyder inte bara att datorer kan se. Djupinlärning har faktiskt gjort mer än så. Komplexa, nyanserade meningar som den här kan nu förstås med djupinlärningsalgoritmer. Som ni kan se här, så har det här Stanford-baserade systemet med den röda pricken i toppen räknat ut att den här meningen uttrycker negativa känslor. Djupinlärning är faktiskt nära den mänskliga prestationsförmågan när det gäller att förstå vad meningar handlar om och vad de säger om det. Djupinlärning har också använts till att läsa kinesiska, på, återigen, nästan modersmålsnivå. Den här algoritmen har utvecklats i Schweitz av människor som varken talar eller förstår kinesiska. Jag brukar säga att, att använda djupinlärning är nära nog det bästa systemet i världen för detta även jämfört med mänsklig modersmålsförståelse.

This is a system that we put together at my company which shows putting all this stuff together. These are pictures which have no text attached, and as I'm typing in here sentences, in real time it's understanding these pictures and figuring out what they're about and finding pictures that are similar to the text that I'm writing. So you can see, it's actually understanding my sentences and actually understanding these pictures. I know that you've seen something like this on Google, where you can type in things and it will show you pictures, but actually what it's doing is it's searching the webpage for the text. This is very different from actually understanding the images. This is something that computers have only been able to do for the first time in the last few months.

Det här ett system som vi satte ihop på mitt företag som visar hur allt det här sätts ihop. De här bilderna har ingen vidhängd text, och medan jag skriver in meningar här så förstår den de här bilderna i realtid och listar ut vad de handlar om och hittar bilder som liknar den text som jag skriver in. Så ni kan se att den faktiskt förstår mina meningar och faktiskt förstår de här bilderna. Jag vet att ni har sett liknande saker på Google, där du kan skriva in saker och den visar dig bilder, men vad den faktiskt gör är att den söker av webbsidan efter text. Det är en stor skillnad mot att förstå bilderna. Det här är något som datorer har kunnat göra för första gången för bara några månader sen.

So we can see now that computers can not only see but they can also read, and, of course, we've shown that they can understand what they hear. Perhaps not surprising now that I'm going to tell you they can write. Here is some text that I generated using a deep learning algorithm yesterday. And here is some text that an algorithm out of Stanford generated. Each of these sentences was generated by a deep learning algorithm to describe each of those pictures. This algorithm before has never seen a man in a black shirt playing a guitar. It's seen a man before, it's seen black before, it's seen a guitar before, but it has independently generated this novel description of this picture. We're still not quite at human performance here, but we're close. In tests, humans prefer the computer-generated caption one out of four times. Now this system is now only two weeks old, so probably within the next year, the computer algorithm will be well past human performance at the rate things are going. So computers can also write.

Så nu kan vi se att datorer inte bara kan se, de kan också läsa, och så har vi också visat att de kan förstå vad de hör. Kanske är det inte överraskande att jag nu berättar för er att de kan skriva. Här är lite text som jag genererade igår med hjälp av en djupinlärningsalgoritm. Och här är lite text som en algoritm från Stanford har genererat. Var och en av dessa meningar har genererats av en djupinlärningsalgoritm för att förklara varje bild. Den här algoritmen har aldrig förut sett en man i svart tröja som spelar gitarr. Den har sett en man förut, den har sett svart förut, den har sett en gitarr förut, men den har helt fristående genererat den här nya beskrivningen av bilden. Vi är ännu inte riktigt framme vid mänsklig prestationsförmåga här, men vi är nära. Tester har visat att människor föredrar den datorgenererade förklaringen en av fyra gånger. Det här systemet är nu bara två veckor gammalt, så det är sannolikt att datoralgoritmen kommer att slå mänsklig prestationsförmåga inom ett år om det fortsätter i samma takt.

So we put all this together and it leads to very exciting opportunities. For example, in medicine, a team in Boston announced that they had discovered dozens of new clinically relevant features of tumors which help doctors make a prognosis of a cancer. Very similarly, in Stanford, a group there announced that, looking at tissues under magnification, they've developed a machine learning-based system which in fact is better than human pathologists at predicting survival rates for cancer sufferers. In both of these cases, not only were the predictions more accurate, but they generated new insightful science. In the radiology case, they were new clinical indicators that humans can understand. In this pathology case, the computer system actually discovered that the cells around the cancer are as important as the cancer cells themselves in making a diagnosis. This is the opposite of what pathologists had been taught for decades. In each of those two cases, they were systems developed by a combination of medical experts and machine learning experts, but as of last year, we're now beyond that too. This is an example of identifying cancerous areas of human tissue under a microscope. The system being shown here can identify those areas more accurately, or about as accurately, as human pathologists, but was built entirely with deep learning using no medical expertise by people who have no background in the field. Similarly, here, this neuron segmentation. We can now segment neurons about as accurately as humans can, but this system was developed with deep learning using people with no previous background in medicine.

Så, datorer kan skriva också. När vi slår samman allt det här så ser vi väldigt spännande möjligheter. Till exempel inom läkekonsten, ett team i Boston meddelade att de hade upptäckt dussintals nya kliniskt relevanta kännetecken på tumörer, som hjälper läkare att göra cancerprognoser. Också liknande, meddelade en grupp i Stanford att de, genom att titta på vävnad under förstoring, hade utvecklat ett maskininlärningsbaserat system som faktiskt är bättre än mänskliga patologer på att förutse överlevnadssiffror för cancersjuka. I båda dessa fall visade sig förutsägelserna inte bara vara mer rättvisande utan de genererade också ny insiktsfull kunskap. I röntgenfallet var det nya kliniska indikatorer som människor kan förstå. I patologifallet upptäckte systemet att cellerna runt cancern är lika viktiga som cancercellerna själva för att ställa diagnos. Det här var motsatsen till vad patologer hade fått lära sig i årtionden. I båda dessa fall var systemen utvecklade av en kombination av medicinska experter och maskininlärningsexperter, men sedan ett år tillbaka har vi tagit oss förbi det också. Det här är ett exempel på hur man identifierar cancerområden i mänsklig vävnad under ett mikroskåp. Systemet som visas här kan identifiera de områdena med större exakthet, eller ungefär lika exakt, som mänskliga patologer, fast det enbart bygger på djupinlärning helt utan medicinsk expertis och har byggts av människor som inte har någon erfarenhet på området. På liknande vis, här, det här med segmentering av neuroner. Vi kan nu segmentera neuroner ungefär lika exakt som människor kan, men det här systemet utvecklades med hjälp av djupinlärning av människor utan erfarenhet av läkekonst.

So myself, as somebody with no previous background in medicine, I seem to be entirely well qualified to start a new medical company, which I did. I was kind of terrified of doing it, but the theory seemed to suggest that it ought to be possible to do very useful medicine using just these data analytic techniques. And thankfully, the feedback has been fantastic, not just from the media but from the medical community, who have been very supportive. The theory is that we can take the middle part of the medical process and turn that into data analysis as much as possible, leaving doctors to do what they're best at. I want to give you an example. It now takes us about 15 minutes to generate a new medical diagnostic test and I'll show you that in real time now, but I've compressed it down to three minutes by cutting some pieces out. Rather than showing you creating a medical diagnostic test, I'm going to show you a diagnostic test of car images, because that's something we can all understand.

Så jag själv, som någon som inte har någon erfarenhet av läkekonst, tycks vara helt kvalificerad för att starta ett nytt medicinskt företag, vilket jag gjorde. Jag var en aning livrädd för att göra det, men teoretiskt sett borde det vara möjligt att praktisera nyttig läkekonst bara på basis av dessa dataanalystekniker. Och som tur är har återkopplingen varit fantastisk, inte bara från media utan också från läkarkåren, som har varit väldigt stöttande. Teorin innebär att vi kan ta mittendelen av den medicinska processen och göra om den till dataanalys så långt det är möjligt, och på så sätt frigöra läkarna till att göra det de är bäst på. Jag vill ge er ett exempel. Det tar oss nu ungefär 15 minuter att ta fram ett nytt medicinskt diagnostiskt test och jag ska visa er det i realtid nu, men jag har komprimerat det till tre minuter genom att skära bort en del. Snarare än att visa er hur man skapar ett medicinskt diagnostiskt test, så vill jag visa er ett diagnostiskt test på bilbilder,

So here we're starting with about 1.5 million car images, and I want to create something that can split them into the angle of the photo that's being taken. So these images are entirely unlabeled, so I have to start from scratch. With our deep learning algorithm, it can automatically identify areas of structure in these images. So the nice thing is that the human and the computer can now work together. So the human, as you can see here, is telling the computer about areas of interest which it wants the computer then to try and use to improve its algorithm. Now, these deep learning systems actually are in 16,000-dimensional space, so you can see here the computer rotating this through that space, trying to find new areas of structure. And when it does so successfully, the human who is driving it can then point out the areas that are interesting. So here, the computer has successfully found areas, for example, angles. So as we go through this process, we're gradually telling the computer more and more about the kinds of structures we're looking for. You can imagine in a diagnostic test this would be a pathologist identifying areas of pathosis, for example, or a radiologist indicating potentially troublesome nodules. And sometimes it can be difficult for the algorithm. In this case, it got kind of confused. The fronts and the backs of the cars are all mixed up. So here we have to be a bit more careful, manually selecting these fronts as opposed to the backs, then telling the computer that this is a type of group that we're interested in.

eftersom det är något som vi alla kan förstå. Så vi börjar med ungefär 1,5 miljoner bilbilder, och jag vill skapa något som kan sortera dem beroende på vilken vinkel bilden är tagen ur. De här bilderna har inga etiketter, så jag måste börja från början. Med vår djupinlärningsalgoritm kan den automatiskt identifiera områden med struktur i bilderna. Det fina är att nu kan människan och datorn samarbeta. Människan, som ni ser här, talar om för datorn vilka områden som är intressanta, den information som hon vill att datorn använder för att förbättra algoritmen. De här djupinlärningssystemen existerar faktiskt i en 16000-dimensionell rymd, så ni kan här se hur datorn roterar genom den rymden och letar efter nya strukturella områden. Och när den hittar ett sånt så kan människan som styr den påpeka att dessa områden är intressanta. Så här har datorn lyckats hitta områden, till exempel vinklar. Så medan vi går igenom den här processen, så berättar vi gradvis mer och mer för datorn om vilka strukturer vi letar efter. I ett diagnostiskt test skulle det här motsvara en patolog som identifierar sjuka områden eller en radiolog som identifierar potentiellt farliga knutor. Och ibland kan det vara svårt för algoritmen. I det här fallet blev den något förvirrad. Fronten och bakänden på bilarna är helt ihopblandade. Så här behöver vi vara lite mer försiktiga, och manuellt välja ut fronterna men inte bakändarna, och sen berätta för datorn att detta är en sorts grupp som vi är intresserade av.

So we do that for a while, we skip over a little bit, and then we train the machine learning algorithm based on these couple of hundred things, and we hope that it's gotten a lot better. You can see, it's now started to fade some of these pictures out, showing us that it already is recognizing how to understand some of these itself. We can then use this concept of similar images, and using similar images, you can now see, the computer at this point is able to entirely find just the fronts of cars. So at this point, the human can tell the computer, okay, yes, you've done a good job of that.

Så vi gör det en stund, vi hoppar över en liten bit, och sen tränar vi maskininlärningsalgoritmen baserat på ett par hundra saker och så hoppas vi att den har blivit mycket bättre. Ni kan se att den nu har börjat tona ut vissa av de här bilderna och visar oss därmed att den redan vet hur den själv ska förstå vissa av dem. Sen kan vi använda det här konceptet av liknande bilder och med hjälp av liknande bilder kan ni nu se att datorn vid det här laget kan hitta enbart bilder med bilfronter. Så, vid det här laget kan människan berätta för datorn att, "Okej, bra - du har gjort ett bra jobb med det."

Sometimes, of course, even at this point it's still difficult to separate out groups. In this case, even after we let the computer try to rotate this for a while, we still find that the left sides and the right sides pictures are all mixed up together. So we can again give the computer some hints, and we say, okay, try and find a projection that separates out the left sides and the right sides as much as possible using this deep learning algorithm. And giving it that hint -- ah, okay, it's been successful. It's managed to find a way of thinking about these objects that's separated out these together.

Ibland är det förstås även vid det här laget svårt att skilja ut grupper. I det här fallet, trots att vi har låtit datorn försöka rotera det här en stund, så ser vi att bilder av vänster och höger sida har blandats ihop. Så vi kan ge datorn några tips, som "Okej, försök hitta en projektion som skiljer ut vänstersidorna och högersidorna så gott det går med hjälp av en djupinlärningsalgoritm." Och med det tipset - ah, så lyckas den. Den har hittat ett sätt att tänka kring de här objekten som har skiljt ut dessa tillsammans.

So you get the idea here. This is a case not where the human is being replaced by a computer, but where they're working together. What we're doing here is we're replacing something that used to take a team of five or six people about seven years and replacing it with something that takes 15 minutes for one person acting alone.

Så ni förstår tanken här. Det här är ett fall som inte handlar om att människan ersätts av datorn, utan om att de arbetar tillsammans. Vad vi gör är att vi ersätter någonting som brukade ta ett helt team på fem eller sex personer ungefär sju år och ersätter det med någonting som tar 15 minuter för en person på egen hand.

So this process takes about four or five iterations. You can see we now have 62 percent of our 1.5 million images classified correctly. And at this point, we can start to quite quickly grab whole big sections, check through them to make sure that there's no mistakes. Where there are mistakes, we can let the computer know about them. And using this kind of process for each of the different groups, we are now up to an 80 percent success rate in classifying the 1.5 million images. And at this point, it's just a case of finding the small number that aren't classified correctly, and trying to understand why. And using that approach, by 15 minutes we get to 97 percent classification rates.

Så den här processen kräver ungefär fyra eller fem upprepningar. Ni kan se att vi nu har 62 procent av våra 1,5 miljoner bilder korrekt klassificerade. Och vid det här laget, kan vi börja att ganska snabbt ta tag i en hela stora sektioner och kolla igenom för att säkerställa att det inte finns några misstag. Där vi hittar misstag kan vi uppmärksamma datorn på dem. Genom att använda den här sortens process för alla olika grupper, är vi nu uppe i 80 procent framgångsrikt klassificerade bilder. Och vid det här laget är det bara en fråga om att hitta de få bilder som inte har klassificerats korrekt, och försöka förstå varför. Och på det sättet är vi efter 15 minuter uppe i 97 procent klassificerade bilder.

So this kind of technique could allow us to fix a major problem, which is that there's a lack of medical expertise in the world. The World Economic Forum says that there's between a 10x and a 20x shortage of physicians in the developing world, and it would take about 300 years to train enough people to fix that problem. So imagine if we can help enhance their efficiency using these deep learning approaches?

Det här är en teknik som skulle kunna bistå med att överbrygga det stora problem som utgörs av begränsad tillgång till medicinsk expertis i världen. Världsekonomiskt forum menar att det råder en mellan 10x och 20x brist på läkare i utvecklingsländer och att det skulle ta ungefär 300 år att lära upp tillräckligt många människor för att lösa det. Så föreställ er om vi kan hjälpa till att öka effektiviteten

So I'm very excited about the opportunities. I'm also concerned about the problems. The problem here is that every area in blue on this map is somewhere where services are over 80 percent of employment. What are services? These are services. These are also the exact things that computers have just learned how to do. So 80 percent of the world's employment in the developed world is stuff that computers have just learned how to do. What does that mean? Well, it'll be fine. They'll be replaced by other jobs. For example, there will be more jobs for data scientists. Well, not really. It doesn't take data scientists very long to build these things. For example, these four algorithms were all built by the same guy. So if you think, oh, it's all happened before, we've seen the results in the past of when new things come along and they get replaced by new jobs, what are these new jobs going to be? It's very hard for us to estimate this, because human performance grows at this gradual rate, but we now have a system, deep learning, that we know actually grows in capability exponentially. And we're here. So currently, we see the things around us and we say, "Oh, computers are still pretty dumb." Right? But in five years' time, computers will be off this chart. So we need to be starting to think about this capability right now.

med hjälp av djupinlärning. Så, de här möjligheterna gör mig väldigt ivrig. Jag är också bekymrad över problemen. Problemet är att i alla blå områden på den här kartan består jobben till 80 procent av tjänster. Vad är tjänster? Det här är tjänster. Det här är också precis vad datorerna har lärt sig att göra. Så 80 procent av jobben i den utvecklade världen utför sånt som datorer precis har lärt sig att göra. Vad betyder det här? Nå, det blir fint. Nya jobb kommer att ersätta dem. Till exempel blir det fler jobb för forskare inom data. Eller, inte riktigt. Det tar inte en forskare särskilt lång tid att bygga en sån här. De här fyra algoritmerna, till exempel, har alla byggts av samma kille. Så, om ni tänker att, "Åh, det här har hänt förr, vi har sett det här hända när nya saker har uppfunnits och de har ersatts av nya jobb, vilka kommer de nya jobben att vara?" Det är väldigt svårt att räkna ut, eftersom mänsklig prestationsförmåga utvecklas gradvis, emedan vi nu har ett system, djupinlärning, som vi vet faktiskt utvecklas exponentiellt. Och vi är här. Så nu ser vi saker omkring oss och och vi tänker "Åh, datorer är rätt korkade." Eller hur? Men om fem år kommer datorerna att ha lämnat oss långt bakom sig. Så vi behöver börja tänka på den här förmågan redan nu.

We have seen this once before, of course. In the Industrial Revolution, we saw a step change in capability thanks to engines. The thing is, though, that after a while, things flattened out. There was social disruption, but once engines were used to generate power in all the situations, things really settled down. The Machine Learning Revolution is going to be very different from the Industrial Revolution, because the Machine Learning Revolution, it never settles down. The better computers get at intellectual activities, the more they can build better computers to be better at intellectual capabilities, so this is going to be a kind of change that the world has actually never experienced before, so your previous understanding of what's possible is different.

Vi har sett det en gång tidigare förstås. I den industriella revolutionen såg vi en stegvis förändring i prestanda tack vare motorer. Saken är den, att efter en stund flackade kurvan ut. Det orsakade social förändring, men så snart motorerna användes för att generera kraft i alla situationer så lugnade det ner sig. Maskininlärningsrevolutionen kommer skilja sig mycket från den industriella revolutionen, därför att maskininlärningsrevolutionen aldrig kommer att lugna ner sig. Ju bättre datorer blir på intellektuella aktiviteter desto bättre kan de bygga bättre datorer som har större intellektuella förmågor, så det här kommer att bli en förändring som världen aldrig förr har upplevt, så er tidigare uppfattning om vad som är möjligt förändras.

This is already impacting us. In the last 25 years, as capital productivity has increased, labor productivity has been flat, in fact even a little bit down.

Det här påverkar oss redan. Under de senaste 25 åren har kapitalproduktiviteten ökat, arbetsproduktivitet är oförändrad, faktiskt en aning minskande.

So I want us to start having this discussion now. I know that when I often tell people about this situation, people can be quite dismissive. Well, computers can't really think, they don't emote, they don't understand poetry, we don't really understand how they work. So what? Computers right now can do the things that humans spend most of their time being paid to do, so now's the time to start thinking about how we're going to adjust our social structures and economic structures to be aware of this new reality. Thank you. (Applause)

Så jag vill att vi börjar diskutera det här nu. Jag vet att ganska ofta när jag berättar om det här, kan folk vara ganska avfärdande. Datorer kan inte tänka på riktigt, de har inga känslor, de förstår inte poesi, vi förstår inte riktigt hur de fungerar. Så vadå? Just nu kan datorer göra det som människor ägnar det mesta av sin tid åt att göra för att få betalt, så det är hög tid att börja tänka på hur vi ska anpassa våra sociala och ekonomiska strukturer för att klara av den nya verkligheten. Tack. (Applåder)

The New York Times also showed in this article another extraordinary result of deep learning which I'm going to show you now. It shows that computers can listen and understand.

New York Times visade i sin artikel också på en annan exceptionell effekt av djupinlärning som jag ska visa er nu. Den visar att datorer kan lyssna och förstå.

This is already impacting us. In the last 25 years, as capital productivity has increased, labor productivity has been flat, in fact even a little bit down.

Det här påverkar oss redan. Under de senaste 25 åren har kapitalproduktiviteten ökat, arbetsproduktivitet är oförändrad, faktiskt en aning minskande.