Ήταν σύνηθες, αν θέλατε ένας υπολογιστής να κάνει κάτι νέο, έπρεπε να τον προγραμματίσετε. Ο προγραμματισμός βέβαια, για όσους δεν έχετε ασχοληθεί, απαιτεί να καταχωρήσεις με εξωφρενική λεπτομέρεια κάθε ξεχωριστό βήμα που θέλετε να κάνει ο υπολογιστής για να πετύχετε το σκοπό σας. Και αν θέλετε να κάνετε κάτι που δεν ξέρετε να το κάνετε ο ίδιος, αυτό είναι σοβαρό πρόβλημα.
It used to be that if you wanted to get a computer to do something new, you would have to program it. Now, programming, for those of you here that haven't done it yourself, requires laying out in excruciating detail every single step that you want the computer to do in order to achieve your goal. Now, if you want to do something that you don't know how to do yourself, then this is going to be a great challenge.
Αυτό ήταν το πρόβλημα του Άρθουρ Σάμιουελ. Το 1956 ήθελε να κάνει αυτό τον υπολογιστή να μπορεί να τον νικάει στη ντάμα. Πώς μπορείς να γράψεις πρόγραμμα, να καταχωρήσεις με πλήρη λεπτομέρεια, πώς να γίνει καλύτερος από σένα στη ντάμα; Έτσι είχε μια ιδέα: έβαλε τον υπολογιστή να παίξει ενάντια στον εαυτό του χιλιάδες φορές και να μάθει να παίζει ντάμα. Πραγματικά είχε αποτέλεσμα και έως το 1962 ο υπολογιστής είχε νικήσει τον πρωταθλητή της πολιτείας Κονέκτικατ.
So this was the challenge faced by this man, Arthur Samuel. In 1956, he wanted to get this computer to be able to beat him at checkers. How can you write a program, lay out in excruciating detail, how to be better than you at checkers? So he came up with an idea: he had the computer play against itself thousands of times and learn how to play checkers. And indeed it worked, and in fact, by 1962, this computer had beaten the Connecticut state champion.
Έτσι ο Άρθουρ Σάμιουελ ήταν ο πατέρας της μηχανικής μάθησης, και του χρωστάω πολλά, επειδή ασχολούμαι με την εφαρμογή της μηχανικής μάθησης. Ήμουν πρόεδρος της Kaggle, μια κοινότητα άνω των 200.000 ατόμων που ασχολούνται με τη μηχανική μάθηση. Η Kaggle οργανώνει διαγωνισμούς για τη λύση άλυτων προβλημάτων, και σημείωσε επιτυχίες εκατοντάδες φορές. Από αυτή την πλεονεκτική θέση μπόρεσα να ανακαλύψω πολλά σχετικά με το τι έκανε η μηχανική μάθηση στο παρελθόν, τι μπορεί να κάνει σήμερα, και τι θα μπορεί να κάνει στο μέλλον. Ίσως η πρώτη εμπορικά μεγάλη επιτυχία της μηχανικής μάθησης ήταν η Google. Η Google απέδειξε ότι ήταν δυνατόν να βρεθούν πληροφορίες με ένα αλγόριθμο υπολογιστή, και αυτός ο αλγόριθμος βασίζεται στη μηχανική μάθηση. Από τότε έχουν υπάρξει πολλές εμπορικές επιτυχίες της μηχανικής μάθησης. Εταιρείες όπως η Amazon και η Netflix χρησιμοποιούν τη μηχανική μάθηση για να προτείνουν προϊόντα ν' αγοράσετε, ταινίες που θα θέλατε να δείτε. Μερικές φορές γίνεται ανατριχιαστικό. Εταιρείες όπως η LinkedIn και το Facebook μερικές φορές σας λένε ποιοι μπορεί να είναι φίλοι σας και δεν έχετε ιδέα πώς τα κατάφεραν, και το κάνουν με τη δύναμη της μηχανικής μάθησης. Αυτοί είναι αλγόριθμοι που έμαθαν να το κάνουν από τα δεδομένα παρά από προγραμματισμό με το χέρι.
So Arthur Samuel was the father of machine learning, and I have a great debt to him, because I am a machine learning practitioner. I was the president of Kaggle, a community of over 200,000 machine learning practictioners. Kaggle puts up competitions to try and get them to solve previously unsolved problems, and it's been successful hundreds of times. So from this vantage point, I was able to find out a lot about what machine learning can do in the past, can do today, and what it could do in the future. Perhaps the first big success of machine learning commercially was Google. Google showed that it is possible to find information by using a computer algorithm, and this algorithm is based on machine learning. Since that time, there have been many commercial successes of machine learning. Companies like Amazon and Netflix use machine learning to suggest products that you might like to buy, movies that you might like to watch. Sometimes, it's almost creepy. Companies like LinkedIn and Facebook sometimes will tell you about who your friends might be and you have no idea how it did it, and this is because it's using the power of machine learning. These are algorithms that have learned how to do this from data rather than being programmed by hand.
Έτσι κατάφερε και η IBM να νικήσει o Γουότσον τους δύο παγκόσμιους πρωταθλητές του «Jeopardy» απαντώντας απίστευτα πονηρές και περίπλοκες ερωτήσεις όπως αυτή. [«Το "Λιοντάρι του Νεμρώδ" εξαφανίστηκε από το μουσείο αυτής της πόλης το 2003»] Γι' αυτό έχουμε πλέον τα πρώτα αυτοκίνητα που οδηγούν μόνα τους. Αν θέλεις να μπορείς να δεις τη διαφορά, ας πούμε, ανάμεσα σε ένα δένδρο και έναν πεζό, αυτό είναι πολύ σημαντικό. Δεν ξέρουμε να γράφουμε τέτοια προγράμματα με το χέρι, αλλά με τη μηχανική μάθηση αυτό είναι πλέον δυνατόν. Αυτό το αυτοκίνητο έχει οδηγήσει πάνω από 1.600.000 χιλιόμετρα σε κανονικό δρόμο χωρίς καθόλου ατυχήματα.
This is also how IBM was successful in getting Watson to beat the two world champions at "Jeopardy," answering incredibly subtle and complex questions like this one. ["The ancient 'Lion of Nimrud' went missing from this city's national museum in 2003 (along with a lot of other stuff)"] This is also why we are now able to see the first self-driving cars. If you want to be able to tell the difference between, say, a tree and a pedestrian, well, that's pretty important. We don't know how to write those programs by hand, but with machine learning, this is now possible. And in fact, this car has driven over a million miles without any accidents on regular roads.
Έτσι ξέρουμε ότι οι υπολογιστές μπορούν να μαθαίνουν, και μπορούν να μάθουν να κάνουν πράγματα που μερικές φορές ούτε κι εμείς ξέρουμε να κάνουμε, ή μπορούν να τα κάνουν καλύτερα από εμάς. Ένα εκπληκτικό παράδειγμα της μηχανικής μάθησης που έχω δει έγινε σε ένα πρόγραμμα που έκανα στην Kaggle, όπου μια ομάδα υπό κάποιον ονόματι Τζέφρι Χίντον από το Πανεπιστήμιο του Τορόντο, κέρδισε έναν διαγωνισμό για αυτόματη ανακάλυψη φαρμάκου. Αυτό όμως που είναι αξιοσημείωτο δεν είναι ότι νίκησαν όλους τους αλγόριθμους της Μέρκ ή της διεθνούς ακαδημαϊκής κοινότητας, αλλά ότι κανείς στην ομάδα δεν είχε γνώσεις χημείας, βιολογίας ή ιατρικής, και τα κατάφεραν μέσα σε δύο εβδομάδες. Πώς τα κατάφεραν; Χρησιμοποίησαν έναν ασυνήθιστο αλγόριθμο που λέγεται βαθιά μάθηση. Ήταν τόσο σημαντικό που η επιτυχία καλύφθηκε σε πρωτοσέλιδο των Τάιμς της Νέας Υόρκης μερικές εβδομάδες μετά. Ο Τζέφρι Χίντον είναι εδώ αριστερά. Η βαθιά μάθηση είναι ένας αλγόριθμος εμπνευσμένος από το ανθρώπινο μυαλό, συνεπώς είναι ένας αλγόριθμος που θεωρητικά δεν έχει όρια στο τι μπορεί να κάνει. Όσο περισσότερα δεδομένα και χρόνο υπολογισμού του δίνεις, τόσο καλύτερος γίνεται.
So we now know that computers can learn, and computers can learn to do things that we actually sometimes don't know how to do ourselves, or maybe can do them better than us. One of the most amazing examples I've seen of machine learning happened on a project that I ran at Kaggle where a team run by a guy called Geoffrey Hinton from the University of Toronto won a competition for automatic drug discovery. Now, what was extraordinary here is not just that they beat all of the algorithms developed by Merck or the international academic community, but nobody on the team had any background in chemistry or biology or life sciences, and they did it in two weeks. How did they do this? They used an extraordinary algorithm called deep learning. So important was this that in fact the success was covered in The New York Times in a front page article a few weeks later. This is Geoffrey Hinton here on the left-hand side. Deep learning is an algorithm inspired by how the human brain works, and as a result it's an algorithm which has no theoretical limitations on what it can do. The more data you give it and the more computation time you give it, the better it gets.
Οι Τάιμς της Νέας Υόρκης έδειξαν επίσης στο άρθρο άλλο ένα ασυνήθιστο αποτέλεσμα της βαθιάς μάθησης που θα σας δείξω τώρα. Δείχνει ότι οι υπολογιστές μπορούν να ακούν και να καταλαβαίνουν.
The New York Times also showed in this article another extraordinary result of deep learning which I'm going to show you now. It shows that computers can listen and understand.
(Βίντεο) Ρίτσαρντ Ράσιντ: Τώρα το τελευταίο βήμα που θέλω να κάνω σε αυτή τη διαδικασία είναι να σας μιλήσω κανονικά στα Κινέζικα. Το μυστικό εδώ είναι ότι, μπορέσαμε να πάρουμε μεγάλη ποσότητα πληροφοριών από ομιλητές της Κινεζικής και να φτιάξουμε ένα σύστημα μετατροπής κειμένου σε ομιλία που μετατρέπει Κινέζικο λόγο από γραπτό σε προφορικό, και μετά χρειαστήκαμε καμιά ώρα με τη δική μου φωνή για να μπορέσουμε να ρυθμίσουμε το βασικό σύστημα μετατροπής λόγου ώστε να ακούγεται σαν εμένα. Και πάλι το αποτέλεσμα δεν ήταν τέλειο. Υπήρχαν μερικά λαθάκια. (Στα Κινέζικα) (Χειροκρότημα) Χρειάζεται να γίνουν πολλά σε αυτό τον τομέα. (Στα Κινέζικα) (Χειροκρότημα)
(Video) Richard Rashid: Now, the last step that I want to be able to take in this process is to actually speak to you in Chinese. Now the key thing there is, we've been able to take a large amount of information from many Chinese speakers and produce a text-to-speech system that takes Chinese text and converts it into Chinese language, and then we've taken an hour or so of my own voice and we've used that to modulate the standard text-to-speech system so that it would sound like me. Again, the result's not perfect. There are in fact quite a few errors. (In Chinese) (Applause) There's much work to be done in this area. (In Chinese) (Applause)
Τζέρεμι Χάουαρντ: Αυτό ήταν σε συνέδριο μηχανικής μάθησης στην Κίνα. Δεν συμβαίνει συχνά σε ακαδημαϊκά συνέδρια να έχεις τόσο αυθόρμητες επευφημίες, αλλά μιας και είμαστε σε συνάντηση TED, μην περιορίζεστε. Όλα όσα είδατε εκεί συνέβησαν με τη βαθιά μάθηση. (Χειροκρότημα) Ευχαριστώ. Η μεταγραφή στα Αγγλικά έγινε από τη βαθιά μάθηση. Η μετάφραση στα Κινέζικα, το κείμενο πάνω δεξιά, και η σύνθεση της φωνής έγιναν από τη βαθιά μάθηση επίσης.
Jeremy Howard: Well, that was at a machine learning conference in China. It's not often, actually, at academic conferences that you do hear spontaneous applause, although of course sometimes at TEDx conferences, feel free. Everything you saw there was happening with deep learning. (Applause) Thank you. The transcription in English was deep learning. The translation to Chinese and the text in the top right, deep learning, and the construction of the voice was deep learning as well.
Η βαθιά μάθηση είναι κάτι ξεχωριστό. Είναι ένας αλγόριθμος που μοιάζει να μπορεί να κάνει τα πάντα, και ανακάλυψα ότι πριν ένα χρόνο είχε επίσης μάθει να βλέπει. Σε έναν δυσνόητο διαγωνισμό στη Γερμανία σχετικά με την αναγνώριση οδικής σήμανσης, η βαθιά μάθηση έμαθε να αναγνωρίζει οδικά σήματα όπως αυτό. Όχι μόνο αναγνώριζε τα οδικά σήματα καλύτερα από κάθε άλλο αλγόριθμο, στον πίνακα αποτελεσμάτων σημείωσε βαθμολογία δύο φορές καλύτερη από τους ανθρώπους. Έτσι έως το 2011, είχαμε το πρώτο παράδειγμα υπολογιστή που μπορεί να δει καλύτερα από άνθρωπο. Από τότε έγιναν πολλά. Το 2012 η Google ανακοίνωσε ότι ο αλγόριθμος βαθιά μάθηση έβλεπε βίντεο του YouTube και διάβαζε δεδομένα από 16.000 υπολογιστές για ένα μήνα, και ο υπολογιστής έμαθε από μόνος του έννοιες όπως «άνθρωπος και «γάτα», απλώς βλέποντας τα βίντεο. Μοιάζει πολύ με τον τρόπο που μαθαίνουν οι άνθρωποι. Δεν μαθαίνουμε όταν κάποιος μας λέει τι να δούμε, αλλά μαθαίνοντας από μόνοι μας τι είναι αυτά τα πράγματα. Επίσης το 2012 ο Τζέφρι Χίντον που είδαμε νωρίτερα κέρδισε στον δημοφιλή διαγωνισμό ImageNet, προσπαθώντας να βρει μέσα από 1,5 εκατομμύριο εικόνες τι απεικονίζουν. Από το 2014 έχουμε πέσει στο 6% ποσοστό σφάλματος στην αναγνώριση εικόνας. Και πάλι καλύτερα από τον άνθρωπο.
So deep learning is this extraordinary thing. It's a single algorithm that can seem to do almost anything, and I discovered that a year earlier, it had also learned to see. In this obscure competition from Germany called the German Traffic Sign Recognition Benchmark, deep learning had learned to recognize traffic signs like this one. Not only could it recognize the traffic signs better than any other algorithm, the leaderboard actually showed it was better than people, about twice as good as people. So by 2011, we had the first example of computers that can see better than people. Since that time, a lot has happened. In 2012, Google announced that they had a deep learning algorithm watch YouTube videos and crunched the data on 16,000 computers for a month, and the computer independently learned about concepts such as people and cats just by watching the videos. This is much like the way that humans learn. Humans don't learn by being told what they see, but by learning for themselves what these things are. Also in 2012, Geoffrey Hinton, who we saw earlier, won the very popular ImageNet competition, looking to try to figure out from one and a half million images what they're pictures of. As of 2014, we're now down to a six percent error rate in image recognition. This is better than people, again.
Οι μηχανές τα καταφέρνουν πολύ καλά σε αυτό τον τομέα, και πλέον χρησιμοποιείται στη βιομηχανία. Για παράδειγμα, η Google ανακοίνωσε πέρυσι ότι χαρτογράφησαν ολόκληρη τη Γαλλία μέσα σε δύο ώρες, και το έκαναν εισάγοντας φωτογραφίες από την τεχνολογία Street View σε έναν αλγόριθμο βαθιάς μάθησης ώστε να αναγνωρίζει την αρίθμηση των οδών. Φανταστείτε πόσο θα έπαιρνε παλιότερα: πλήθος ανθρώπων, πολλά χρόνια. Συμβαίνει επίσης στην Κίνα. Η Baidu είναι θα λέγαμε η αντίστοιχη Google της Κίνας και εδώ πάνω αριστερά βλέπετε ένα παράδειγμα από μια φωτογραφία που μεταφόρτωσα στο σύστημα βαθιάς μάθησης της Baidu, και από κάτω βλέπετε ότι το σύστημα αναγνώρισε τη φωτογραφία και βρήκε και παρόμοιες. Οι παρόμοιες εικόνες έχουν παρόμοιο φόντο, παρόμοιο προσανατολισμό των προσώπων, μερικές ακόμα και με τη γλώσσα έξω. Αυτό σαφώς δεν είναι σαν να βλέπεις κείμενο σε ιστοσελίδα. Μόνο μια φωτογραφία ανέβασα. Έχουμε λοιπόν υπολογιστές που πράγματι καταλαβαίνουν τι βλέπουν και γι' αυτό μπορούν να ερευνήσουν βάσεις δεδομένων εκατοντάδων εκατομμυρίων εικόνων σε πραγματικό χρόνο.
So machines really are doing an extraordinarily good job of this, and it is now being used in industry. For example, Google announced last year that they had mapped every single location in France in two hours, and the way they did it was that they fed street view images into a deep learning algorithm to recognize and read street numbers. Imagine how long it would have taken before: dozens of people, many years. This is also happening in China. Baidu is kind of the Chinese Google, I guess, and what you see here in the top left is an example of a picture that I uploaded to Baidu's deep learning system, and underneath you can see that the system has understood what that picture is and found similar images. The similar images actually have similar backgrounds, similar directions of the faces, even some with their tongue out. This is not clearly looking at the text of a web page. All I uploaded was an image. So we now have computers which really understand what they see and can therefore search databases of hundreds of millions of images in real time.
Τι σημασία έχει ότι οι υπολογιστές μπορούν να βλέπουν; Λοιπόν, δεν είναι μόνο αυτό. Η βαθιά μάθηση έκανε περισσότερα. Περίπλοκες προτάσεις με λεπτές έννοιες, όπως αυτή εδώ, μπορούν πλέον να κατανοηθούν από τον αλγόριθμο. Όπως βλέπετε εδώ, το σύστημα του Στάνφορντ στην κόκκινη κουκκίδα στην κορυφή κατάλαβε ότι αυτή η πρόταση εκφράζει αρνητικό συναίσθημα. Η βαθιά μάθηση όντως πλησιάζει την ανθρώπινη επίδοση στο να καταλαβαίνουν το κεντρικό θέμα και το γενικό περιεχόμενο μιας πρότασης. Η βαθιά μάθηση χρησιμοποιήθηκε επίσης για την ανάγνωση Κινέζικων και πάλι στο επίπεδο του Κινέζου φυσικού ομιλητή. Αυτός ο αλγόριθμος εξελίχθηκε από ομάδα Ελβετών, κανείς εκ των οποίων δεν μιλούσε ή καταλάβαινε Κινέζικα. Όπως είπα, η χρήση της βαθιάς μάθησης είναι το καλύτερο σύστημα στον κόσμο γι' αυτό, συγκρινόμενο ακόμα και με την ανθρώπινη κατανόηση.
So what does it mean now that computers can see? Well, it's not just that computers can see. In fact, deep learning has done more than that. Complex, nuanced sentences like this one are now understandable with deep learning algorithms. As you can see here, this Stanford-based system showing the red dot at the top has figured out that this sentence is expressing negative sentiment. Deep learning now in fact is near human performance at understanding what sentences are about and what it is saying about those things. Also, deep learning has been used to read Chinese, again at about native Chinese speaker level. This algorithm developed out of Switzerland by people, none of whom speak or understand any Chinese. As I say, using deep learning is about the best system in the world for this, even compared to native human understanding.
Είναι ένα σύστημα που φτιάχνουμε στην εταιρεία μου που δείχνει πώς συντίθενται όλα τα μέρη. Αυτές είναι εικόνες χωρίς κείμενο, και καθώς πληκτρολογώ κείμενο, σε πραγματικό χρόνο κατανοεί αυτές τις εικόνες, αντιλαμβάνεται το θέμα τους, και βρίσκει παρόμοιες φωτογραφίες με το κείμενο που γράφω. Άρα ουσιαστικά καταλαβαίνει τις προτάσεις μου και καταλαβαίνει αυτές τις εικόνες. Ξέρω ότι έχετε δει κάτι τέτοιο στη Google, όπου πληκτρολογείτε κάτι και σας δείχνει εικόνες, αλλά στην πραγματικότητα ψάχνει στην ιστοσελίδα για κείμενο. Αυτό είναι πολύ διαφορετικό από το να κατανοείς τις εικόνες. Αυτό το κατάφεραν οι υπολογιστές για πρώτη φορά πριν λίγους μήνες.
This is a system that we put together at my company which shows putting all this stuff together. These are pictures which have no text attached, and as I'm typing in here sentences, in real time it's understanding these pictures and figuring out what they're about and finding pictures that are similar to the text that I'm writing. So you can see, it's actually understanding my sentences and actually understanding these pictures. I know that you've seen something like this on Google, where you can type in things and it will show you pictures, but actually what it's doing is it's searching the webpage for the text. This is very different from actually understanding the images. This is something that computers have only been able to do for the first time in the last few months.
Έτσι οι υπολογιστές, όχι μόνο βλέπουν, αλλά μπορούν και να διαβάσουν, και φυσικά δείξαμε ότι καταλαβαίνουν ό,τι ακούνε. Ίσως δεν σας εκπλήξει να σας πω ότι μπορούν να γράφουν. Εδώ είναι κείμενο που παρήγαγα χθες με έναν αλγόριθμο βαθιάς μάθησης. Και αυτό είναι κείμενο που παρήγαγε ένας αλγόριθμος του Στάνφορντ. Κάθε πρόταση δημιουργήθηκε από έναν αλγόριθμο βαθιάς μάθησης για να περιγράψει καθεμιά από τις εικόνες. Ο αλγόριθμος δεν είχε ξαναδεί άνθρωπο με μαύρο πουκάμισο να παίζει κιθάρα. Είχε ξαναδεί άνθρωπο, είχε ξαναδεί μαύρο, είχε ξαναδεί κιθάρα, αλλά από μόνος του έφτιαξε αυτή τη νέα περιγραφή για την εικόνα. Εδώ δεν φτάσαμε την ανθρώπινη απόδοση αλλά πλησιάζουμε. Στις δοκιμές, οι άνθρωποι προτιμούν τις ετικέτες που φτιάχτηκαν από υπολογιστή μία στις τέσσερις φορές. Αυτό το σύστημα είναι μόνο δύο εβδομάδων, άρα μάλλον εντός του επόμενου έτους, ο αλγόριθμος θα έχει ξεπεράσει την ανθρώπινη επίδοση με τους τρέχοντες ρυθμούς. Άρα οι υπολογιστές μπορούν και να γράφουν.
So we can see now that computers can not only see but they can also read, and, of course, we've shown that they can understand what they hear. Perhaps not surprising now that I'm going to tell you they can write. Here is some text that I generated using a deep learning algorithm yesterday. And here is some text that an algorithm out of Stanford generated. Each of these sentences was generated by a deep learning algorithm to describe each of those pictures. This algorithm before has never seen a man in a black shirt playing a guitar. It's seen a man before, it's seen black before, it's seen a guitar before, but it has independently generated this novel description of this picture. We're still not quite at human performance here, but we're close. In tests, humans prefer the computer-generated caption one out of four times. Now this system is now only two weeks old, so probably within the next year, the computer algorithm will be well past human performance at the rate things are going. So computers can also write.
Βάζοντάς τα όλα μαζί οδεύουμε σε εκπληκτικές δυνατότητες. Για παράδειγμα, στην ιατρική, μια ομάδα στη Βοστόνη ανακοίνωσε ότι ανακάλυψαν μεγάλο αριθμό νέων κλινικά σχετικών χαρακτηριστικών όγκων που θα βοηθήσει τους γιατρούς στην πρόγνωση του καρκίνου. Παρομοίως στο Στάνφορντ, μια ομάδα ανακοίνωσε ότι, εξετάζοντας ιστούς σε μεγέθυνση, εξέλιξαν ένα σύστημα μηχανικής μάθησης που είναι όντως καλύτερο από τους ανθρώπους παθολόγους στην πρόβλεψη των ποσοστών επιβίωσης των πασχόντων από καρκίνο. Και στις δύο περιπτώσεις, όχι μόνο έκαναν ακριβέστερη πρόβλεψη, αλλά παρήγαγαν πιο διορατική γνώση. Στην περίπτωση της ακτινολογίας, υπήρξαν νέες κλινικές ενδείξεις που οι άνθρωποι θα καταλάβουν. Σε αυτή την παθολογική περίπτωση, το σύστημα στον υπολογιστή ανακάλυψε ότι τα κύτταρα γύρω από τον όγκο είναι το ίδιο σημαντικά όσο τα καρκινικά κύτταρα για τη διάγνωση. Αυτό είναι αντίθετο από όσα διδάσκονταν οι παθολόγοι για δεκαετίες. Σε καθεμιά από τις δύο περιπτώσεις, ήταν συστήματα που αναπτύχθηκαν από συνδυασμό ειδικών στην ιατρική και ειδικών στη μηχανική μάθηση, αλλά από πέρυσι, το έχουμε ξεπεράσει και αυτό. Εδώ έχουμε παράδειγμα εντοπισμού καρκινικής περιοχής σε ανθρώπινο ιστό κάτω από το μικροσκόπιο. Το σύστημα μπορεί να εντοπίσει αυτές τις περιοχές ακριβέστερα, ή περίπου με την ίδια ακρίβεια όσο οι παθολόγοι, αλλά έγινε εξολοκλήρου με τη βαθιά μάθηση, χωρίς ιατρική τεχνογνωσία, από ανθρώπους χωρίς προϋπηρεσία στον χώρο αυτό. Παρόμοια εδώ, αυτή η κατάτμηση νευρώνα. Μπορούμε πλέον να κατατμήσουμε νευρώνες με την ίδια ακρίβεια όπως οι άνθρωποι, αλλά με σύστημα που αναπτύχθηκε με τη βαθιά μάθηση και ανθρώπους που δεν είχαν καμία σχέση με την ιατρική.
So we put all this together and it leads to very exciting opportunities. For example, in medicine, a team in Boston announced that they had discovered dozens of new clinically relevant features of tumors which help doctors make a prognosis of a cancer. Very similarly, in Stanford, a group there announced that, looking at tissues under magnification, they've developed a machine learning-based system which in fact is better than human pathologists at predicting survival rates for cancer sufferers. In both of these cases, not only were the predictions more accurate, but they generated new insightful science. In the radiology case, they were new clinical indicators that humans can understand. In this pathology case, the computer system actually discovered that the cells around the cancer are as important as the cancer cells themselves in making a diagnosis. This is the opposite of what pathologists had been taught for decades. In each of those two cases, they were systems developed by a combination of medical experts and machine learning experts, but as of last year, we're now beyond that too. This is an example of identifying cancerous areas of human tissue under a microscope. The system being shown here can identify those areas more accurately, or about as accurately, as human pathologists, but was built entirely with deep learning using no medical expertise by people who have no background in the field. Similarly, here, this neuron segmentation. We can now segment neurons about as accurately as humans can, but this system was developed with deep learning using people with no previous background in medicine.
Συνεπώς εγώ ο ίδιος, πλήρως άσχετος με την ιατρική, φαίνεται να έχω όλα τα προσόντα να φτιάξω μια ιατροφαρμακευτική εταιρεία, πράγμα που έκανα. Αρχικά φοβόμουν να το κάνω, αλλά θεωρητικά φαινόταν εφικτό να φτιάξω χρήσιμα φάρμακα χρησιμοποιώντας μόνο τεχνικές ανάλυσης δεδομένων. Ευτυχώς τα σχόλια ήταν άκρως ενθαρρυντικά. όχι μόνο από τα μέσα αλλά και από την ιατρική κοινότητα, που με στήριξε πολύ. Θεωρητικά μπορούμε να πάρουμε την μέση φάση της ιατρικής διαδικασίας και να αναλύσουμε τα δεδομένα της στο μέγιστο δυνατό βαθμό, αφήνοντας τους γιατρούς να κάνουν αυτό που ξέρουν καλύτερα. Θα σας δώσω ένα παράδειγμα. Τώρα μας παίρνει 15 λεπτά να βγάλουμε ένα νέο διαγνωστικό τεστ και θα το δείτε σε πραγματικό χρόνο, αλλά το συμπίεσα σε τρία λεπτά παραλείποντας κάποια κομμάτια. Αντί για τη δημιουργία ενός ιατρικού διαγνωστικού τεστ, θα σας δείξω ένα διαγνωστικό τεστ από εικόνες αυτοκινήτων, επειδή είναι κάτι που όλοι καταλαβαίνουμε.
So myself, as somebody with no previous background in medicine, I seem to be entirely well qualified to start a new medical company, which I did. I was kind of terrified of doing it, but the theory seemed to suggest that it ought to be possible to do very useful medicine using just these data analytic techniques. And thankfully, the feedback has been fantastic, not just from the media but from the medical community, who have been very supportive. The theory is that we can take the middle part of the medical process and turn that into data analysis as much as possible, leaving doctors to do what they're best at. I want to give you an example. It now takes us about 15 minutes to generate a new medical diagnostic test and I'll show you that in real time now, but I've compressed it down to three minutes by cutting some pieces out. Rather than showing you creating a medical diagnostic test, I'm going to show you a diagnostic test of car images, because that's something we can all understand.
Ξεκινάμε με περίπου 1,5 εκατομμύριο εικόνες αυτοκινήτων και θέλω να φτιάξω κάτι που θα τις χωρίσει ανάλογα με τη γωνία λήψης της φωτογραφίας. Οι εικόνες δεν έχουν καθόλου κείμενο, έτσι αρχίζω από το μηδέν. Με τον αλγόριθμο βαθιάς γνώσης μπορεί αυτόματα να εντοπίσει περιοχές δομής μέσα στις εικόνες. Είναι καλό που άνθρωπος και υπολογιστής μπορούν να συνεργαστούν. Ο άνθρωπος που βλέπετε εδώ λέει στον υπολογιστή για τις περιοχές ενδιαφέροντος που θέλει να χρησιμοποιήσει ο υπολογιστής για να βελτιώσει τον αλγόριθμό του. Τα συστήματα αυτά είναι σε διάστημα 16.000 διαστάσεων, έτσι βλέπετε τον υπολογιστή να το περιστρέφει σε αυτό το διάστημα, προσπαθώντας να βρει νέες περιοχές δομής. Και όταν το κάνει με επιτυχία, τότε ο ανθρώπινος χειριστής μπορεί να δείξει τις περιοχές ενδιαφέροντος. Εδώ ο υπολογιστής βρήκε επιτυχώς περιοχές, για παράδειγμα, κάποιες γωνίες. Κατά τη διάρκεια της διαδικασίας, σταδιακά λέμε στον υπολογιστή όλο και περισσότερα για το είδος των δομών που ψάχνουμε. Φανταστείτε ότι στο διαγνωστικό τεστ θα είναι ο παθολόγος που δείχνει τις επικίνδυνες περιοχές, ή ο ακτινολόγος να δείχνει τους εν δυνάμει ανησυχητικούς όζους. Μερικές φορές ο αλγόριθμος δυσκολεύεται. Εδώ έχει μπερδευτεί λίγο. Τα μπρος και πίσω μέρη των αυτοκινήτων έχουν μπλεχτεί. Τότε πρέπει να προσέξουμε λίγο περισσότερο επιλέγοντας χειροκίνητα αυτά τα μπρος από εκείνα τα πίσω μέρη, και μετά λέγοντας στον υπολογιστή ότι αυτά είναι ένα είδος ομάδας που μας ενδιαφέρει.
So here we're starting with about 1.5 million car images, and I want to create something that can split them into the angle of the photo that's being taken. So these images are entirely unlabeled, so I have to start from scratch. With our deep learning algorithm, it can automatically identify areas of structure in these images. So the nice thing is that the human and the computer can now work together. So the human, as you can see here, is telling the computer about areas of interest which it wants the computer then to try and use to improve its algorithm. Now, these deep learning systems actually are in 16,000-dimensional space, so you can see here the computer rotating this through that space, trying to find new areas of structure. And when it does so successfully, the human who is driving it can then point out the areas that are interesting. So here, the computer has successfully found areas, for example, angles. So as we go through this process, we're gradually telling the computer more and more about the kinds of structures we're looking for. You can imagine in a diagnostic test this would be a pathologist identifying areas of pathosis, for example, or a radiologist indicating potentially troublesome nodules. And sometimes it can be difficult for the algorithm. In this case, it got kind of confused. The fronts and the backs of the cars are all mixed up. So here we have to be a bit more careful, manually selecting these fronts as opposed to the backs, then telling the computer that this is a type of group that we're interested in.
Το κάνουμε για λίγο, παραλείπουμε λίγο εδώ, και μετά εκπαιδεύουμε τον αλγόριθμο βαθιά μάθηση με βάση αυτά τα διακόσια περίπου πράγματα, και ελπίζουμε ότι βελτιώθηκε. Μπορείτε να δείτε ότι θολώνει κάποια μέρη των εικόνων, δείχνοντάς μας ότι ήδη καταλαβαίνει πώς να αναγνωρίζει κάποια μέρη μόνος του. Μπορούμε να χρησιμοποιήσουμε το σχέδιο με τις παρόμοιες εικόνες, και έτσι εδώ μπορείτε να δείτε ο υπολογιστής τώρα μπορεί ολοκληρωτικά να βρίσκει μόνο τα μπροστινά μέρη. Σε αυτό το σημείο ο άνθρωπος μπορεί να λέει στον υπολογιστή, εντάξει, μια χαρά τα πας.
So we do that for a while, we skip over a little bit, and then we train the machine learning algorithm based on these couple of hundred things, and we hope that it's gotten a lot better. You can see, it's now started to fade some of these pictures out, showing us that it already is recognizing how to understand some of these itself. We can then use this concept of similar images, and using similar images, you can now see, the computer at this point is able to entirely find just the fronts of cars. So at this point, the human can tell the computer, okay, yes, you've done a good job of that.
Φυσικά κάποιες φορές, ακόμα και σε αυτό το σημείο είναι ακόμα δύσκολο να διακρίνει τις ομάδες. Εδώ, ακόμη και αφού ο υπολογιστής το έχει περιστρέψει κάμποσο, ακόμα οι εικόνες αριστερής και δεξιάς πλευράς είναι ανάμικτες. Έτσι δίνουμε στον υπολογιστή κάποιες οδηγίες, και του λέμε να βρει μια προβολή που να διαχωρίζει κατά το δυνατόν τις δεξιές από τις αριστερές πλευρές χρησιμοποιώντας τον αλγόριθμο βαθιάς γνώσης. Με αυτή την οδηγία -- ωραία, είχε αποτέλεσμα. Κατάφερε να βρει τρόπο σκέψης σχετικά με αυτά τα αντικείμενα ώστε να τα διαχωρίσει.
Sometimes, of course, even at this point it's still difficult to separate out groups. In this case, even after we let the computer try to rotate this for a while, we still find that the left sides and the right sides pictures are all mixed up together. So we can again give the computer some hints, and we say, okay, try and find a projection that separates out the left sides and the right sides as much as possible using this deep learning algorithm. And giving it that hint -- ah, okay, it's been successful. It's managed to find a way of thinking about these objects that's separated out these together.
Καταλαβαίνετε λοιπόν πώς γίνεται. Αυτή δεν είναι περίπτωση που ο υπολογιστής αντικαθιστά τον άνθρωπο, αλλά όπου συνεργάζονται. Εδώ αντικαθιστούμε κάτι που χρειαζόταν μια ομάδα πέντε ή έξι ατόμων για σχεδόν επτά χρόνια, και το αντικαθιστούμε με κάτι που χρειάζεται 15 λεπτά για ένα άτομο που δουλεύει μόνο του.
So you get the idea here. This is a case not where the human is being replaced by a computer, but where they're working together. What we're doing here is we're replacing something that used to take a team of five or six people about seven years and replacing it with something that takes 15 minutes for one person acting alone.
Έτσι η διαδικασία αφαιρεί τέσσερις ή πέντε επαναληπτικές φάσεις. Βλέπετε ότι τώρα έχουμε 62% από 1,5 εκατομμύριο εικόνες ορθά ταξινομημένες. Και σε αυτό το σημείο, μπορούμε αρκετά γρήγορα να μαρκάρουμε μεγάλα τμήματα, να τα τσεκάρουμε ώστε να μην έχουν λάθη. Όπου υπάρχουν σφάλματα, ενημερώνουμε τον υπολογιστή. Και με αυτή τη διαδικασία για κάθε ομάδα, έχουμε φτάσει σε ένα ποσοστό επιτυχίας 80% στην ταξινόμηση 1,5 εκατομμυρίου εικόνων. Είμαστε στη φάση όπου παίρνουμε τις λίγες εικόνες που δεν ταξινομήθηκαν σωστά και προσπαθούμε να βρούμε τον λόγο. Με αυτή την προσέγγιση, σε 15 λεπτά φτάνουμε το 97% στον ρυθμό ταξινόμησης.
So this process takes about four or five iterations. You can see we now have 62 percent of our 1.5 million images classified correctly. And at this point, we can start to quite quickly grab whole big sections, check through them to make sure that there's no mistakes. Where there are mistakes, we can let the computer know about them. And using this kind of process for each of the different groups, we are now up to an 80 percent success rate in classifying the 1.5 million images. And at this point, it's just a case of finding the small number that aren't classified correctly, and trying to understand why. And using that approach, by 15 minutes we get to 97 percent classification rates.
Αυτή η τεχνική θα βοηθήσει να διορθώσουμε ένα σοβαρό πρόβλημα, την ανεπάρκεια ειδικών στην ιατρική σε όλο τον κόσμο. Το Παγκόσμιο Οικονομικό Φόρουμ λέει ότι υπάρχει δεκαπλάσιο με εικοσαπλάσιο έλλειμμα ιατρών στον αναπτυσσόμενο κόσμο, και θα χρειαστούν 300 χρόνια για να εκπαιδευθούν αρκετοί άνθρωποι ώστε να λυθεί το πρόβλημα. Φαντάζεστε να μπορούσαμε να ενισχύσουμε την απόδοσή τους με την προσέγγιση της βαθιάς μάθησης;
So this kind of technique could allow us to fix a major problem, which is that there's a lack of medical expertise in the world. The World Economic Forum says that there's between a 10x and a 20x shortage of physicians in the developing world, and it would take about 300 years to train enough people to fix that problem. So imagine if we can help enhance their efficiency using these deep learning approaches?
Είμαι ενθουσιασμένος με αυτές τις προοπτικές. Ανησυχώ επίσης και για τα προβλήματα. Το πρόβλημα εδώ είναι ότι κάθε μπλε περιοχή στο χάρτη είναι μέρος όπου οι υπηρεσίες είναι πάνω από το 80% της απασχόλησης. Ποιες είναι οι υπηρεσίες; Αυτές είναι οι υπηρεσίες. Είναι αυτά ακριβώς τα πράγματα που ο υπολογιστής μόλις έμαθε να κάνει. Έτσι το 80% της παγκόσμιας απασχόλησης στον αναπτυσσόμενο κόσμο είναι πράγματα που οι υπολογιστές μόλις έμαθαν να κάνουν. Τι σημαίνει αυτό; Κάτι θα γίνει. Θα αντικατασταθούν από άλλες δουλειές. Θα γίνουν περισσότερες θέσεις για επιστήμονες δεδομένων. Όχι ακριβώς. Δεν χρειάζονται πολύ χρόνο να φτιάξουν κάτι τέτοιο. Αυτούς τους τέσσερις αλγόριθμους τους έφτιαξε το ίδιο άτομο. Αν σκεφτείτε, εντάξει, το έχουμε ξαναδεί το έργο, είδαμε τα αποτελέσματα στο παρελθόν όταν προέκυψαν νέες ανάγκες και αντικαταστάθηκαν από νέα επαγγέλματα, ποια θα είναι τα νέα επαγγέλματα; Είναι πολύ δύσκολο να το εκτιμήσουμε γιατί η ανθρώπινη απόδοση αυξάνεται με σταδιακό ρυθμό, αλλά τώρα έχουμε το σύστημα βαθιάς μάθησης που αυξάνει την ικανότητά του με ρυθμούς γεωμετρικής προόδου. Και είμαστε εδώ. Προς το παρόν, κοιτάμε γύρω μας και σκεφτόμαστε «Οι υπολογιστές είναι χαζά μηχανήματα». Σωστά; Σε πέντε χρόνια όμως, οι υπολογιστές θα έχουν φύγει από τα όρια του πίνακα. Θα πρέπει να αρχίσουμε να σκεφτόμαστε αυτή την ικανότητα άμεσα.
So I'm very excited about the opportunities. I'm also concerned about the problems. The problem here is that every area in blue on this map is somewhere where services are over 80 percent of employment. What are services? These are services. These are also the exact things that computers have just learned how to do. So 80 percent of the world's employment in the developed world is stuff that computers have just learned how to do. What does that mean? Well, it'll be fine. They'll be replaced by other jobs. For example, there will be more jobs for data scientists. Well, not really. It doesn't take data scientists very long to build these things. For example, these four algorithms were all built by the same guy. So if you think, oh, it's all happened before, we've seen the results in the past of when new things come along and they get replaced by new jobs, what are these new jobs going to be? It's very hard for us to estimate this, because human performance grows at this gradual rate, but we now have a system, deep learning, that we know actually grows in capability exponentially. And we're here. So currently, we see the things around us and we say, "Oh, computers are still pretty dumb." Right? But in five years' time, computers will be off this chart. So we need to be starting to think about this capability right now.
Το έχουμε δει ακόμη μια φορά στο παρελθόν. Στη Βιομηχανική Επανάσταση είδαμε μια αλλαγή ρυθμού στην ικανότητα χάρις στις μηχανές. Το θέμα είναι βέβαια, ότι μετά από λίγο τα πράγματα ισοπεδώθηκαν. Υπήρξε κοινωνική διάσπαση, αλλά εφόσον οι μηχανές χρησιμοποιήθηκαν για την παραγωγή ενέργειας παντού τα πράγματα έφτασαν σε μια σταθερότητα. Η Επανάσταση Μηχανικής Μάθησης θα διαφέρει πολύ από τη Βιομηχανική Επανάσταση επειδή η Μηχανική Μάθηση ποτέ δεν φτάνει σε στάδιο σταθερότητας. Όσο οι υπολογιστές βελτιώνονται σε διανοητικές ικανότητες, θα φτιάξουν καλύτερους υπολογιστές που θα βελτιωθούν διανοητικά περισσότερο, έτσι θα είναι ένα είδος αλλαγής που ο κόσμος δεν έχει ξαναζήσει, έτσι η προηγούμενη αντίληψή σας για το τι είναι δυνατόν είναι διαφορετική.
We have seen this once before, of course. In the Industrial Revolution, we saw a step change in capability thanks to engines. The thing is, though, that after a while, things flattened out. There was social disruption, but once engines were used to generate power in all the situations, things really settled down. The Machine Learning Revolution is going to be very different from the Industrial Revolution, because the Machine Learning Revolution, it never settles down. The better computers get at intellectual activities, the more they can build better computers to be better at intellectual capabilities, so this is going to be a kind of change that the world has actually never experienced before, so your previous understanding of what's possible is different.
Ήδη μας επηρεάζει. Τα τελευταία 25 χρόνια, καθώς αυξανόταν η παραγωγικότητα κεφαλαίου, η παραγωγικότητα εργασίας έμενε σταθερή, ίσως και να μειωνόταν ελάχιστα.
This is already impacting us. In the last 25 years, as capital productivity has increased, labor productivity has been flat, in fact even a little bit down.
Ας ξαναρχίσουμε αυτή τη συζήτηση τώρα. Ξέρω ότι όταν κάνω συζήτηση σχετικά με αυτή την κατάσταση, οι άνθρωποι γίνονται απαξιωτικοί. Οι υπολογιστές δεν μπορούν να σκεφτούν, δεν νιώθουν, δεν καταλαβαίνουν την ποίηση, εμείς δεν καταλαβαίνουμε πραγματικά πώς αυτοί λειτουργούν. Και λοιπόν; Οι υπολογιστές τώρα μπορούν να κάνουν όσα οι άνθρωποι πληρώνονται για να κάνουν έτσι είναι καιρός να σκεφτούμε πώς θα αναπροσαρμόσουμε τις κοινωνικές και οικονομικές δομές σε αυτή τη νέα πραγματικότητα. Ευχαριστώ. (Χειροκρότημα)
So I want us to start having this discussion now. I know that when I often tell people about this situation, people can be quite dismissive. Well, computers can't really think, they don't emote, they don't understand poetry, we don't really understand how they work. So what? Computers right now can do the things that humans spend most of their time being paid to do, so now's the time to start thinking about how we're going to adjust our social structures and economic structures to be aware of this new reality. Thank you. (Applause)