Stuart Russell: 3 principles for creating safer AI

Αυτός είναι ο Λι Σεντόλ. Ο Λι Σεντόλ είναι από τους καλύτερους παίκτες Γκο στον κόσμο, και έχει κάτι που οι φίλοι μου στη Σίλικον Βάλλεϋ αποκαλούν μια στιγμή ξαφνιάσματος...

This is Lee Sedol. Lee Sedol is one of the world's greatest Go players, and he's having what my friends in Silicon Valley call a "Holy Cow" moment --

(Γέλια)

(Laughter)

μια στιγμή όπου συνειδητοποιούμε ότι η ΤΝ προοδεύει αρκετά γρηγορότερα από ό,τι περιμέναμε. Άρα χάσαμε στο Γκο. Τι γίνεται όμως στον πραγματικό κόσμο;

a moment where we realize that AI is actually progressing a lot faster than we expected. So humans have lost on the Go board. What about the real world?

Ο πραγματικός κόσμος είναι πολύ μεγαλύτερος και πολύ πιο πολύπλοκος από το ταμπλό του Γκο. Δεν είναι τόσο ευδιάκριτο, αλλά παραμένει ένα πρόβλημα αποφάσεων. Και αν αναλογιστούμε μερικές από τις τεχνολογίες που εμφανίζονται... Η Νορίκο [Αράι] ανέφερε πως οι μηχανές δεν έχουν ακόμα την ικανότητα ανάγνωσης, τουλάχιστον με κατανόηση. Αλλά αυτό θα συμβεί, και όταν συμβεί, πολύ σύντομα οι μηχανές θα έχουν διαβάσει οτιδήποτε έχει γραφτεί ποτέ από την ανθρωπότητα. Και αυτό θα επιτρέψει στις μηχανές, μαζί με την ικανότητα να βλέπουν πιο μπροστά από τους ανθρώπους, όπως είδαμε ήδη στο Γκο, κι αν έχουν πρόσβαση σε περισσότερες πληροφορίες, να μπορούν να πάρουν πιο σωστές αποφάσεις στον πραγματικό κόσμο από εμάς. Είναι καλό, όμως, αυτό; Το ελπίζω.

Well, the real world is much bigger, much more complicated than the Go board. It's a lot less visible, but it's still a decision problem. And if we think about some of the technologies that are coming down the pike ... Noriko [Arai] mentioned that reading is not yet happening in machines, at least with understanding. But that will happen, and when that happens, very soon afterwards, machines will have read everything that the human race has ever written. And that will enable machines, along with the ability to look further ahead than humans can, as we've already seen in Go, if they also have access to more information, they'll be able to make better decisions in the real world than we can. So is that a good thing? Well, I hope so.

Ολόκληρος ο πολιτισμός μας, οτιδήποτε έχουμε σε εκτίμηση, είναι βασισμένο στην ευφυία μας. Και αν είχαμε πρόσβαση σε πολύ περισσότερη ευφυΐα, τότε δεν υπάρχει κανένα όριο στο τι μπορεί να κάνει η ανθρωπότητα. Και αυτό θα ήταν, όπως μερικοί το έχουν περιγράψει, το σημαντικότερο γεγονός της ιστορίας μας. Άρα, γιατί λέμε μερικά πράγματα όπως, ότι η ΤΝ θα σημάνει το τέλος της ανθρωπότητας; Πρόκειται για κάτι καινούργιο; Τα λένε αυτά μόνο οι Έλον Μασκ, Μπιλ Γκέιτς και Στίβεν Χόκινγκ;

Our entire civilization, everything that we value, is based on our intelligence. And if we had access to a lot more intelligence, then there's really no limit to what the human race can do. And I think this could be, as some people have described it, the biggest event in human history. So why are people saying things like this, that AI might spell the end of the human race? Is this a new thing? Is it just Elon Musk and Bill Gates and Stephen Hawking?

Στην πραγματικότητα, όχι. Η ιδέα αυτή κυκλοφορεί εδώ και καιρό. Δείτε μια παράθεση, «Ακόμα και αν μπορούσαμε να κρατήσουμε τις μηχανές σε θέση υποταγής, για παράδειγμα, απενεργοποιώντας τες σε στρατηγικές στιγμές» -θα επανέλθω στο ζήτημα της «απενεργοποίησης» αργότερα- «θα έπρεπε ως είδος να νιώθουμε ιδιαίτερα ταπεινωμένοι». Ποιος το είπε αυτό; Ο Άλαν Τούρινγκ το 1951. Όπως γνωρίζετε, είναι ο πατέρας της επιστήμης υπολογιστών και κατά πολλούς τρόπους, ο πατέρας της ΤΝ επίσης. Οπότε, αν σκεφτούμε το πρόβλημα, να δημιουργήσουμε κάτι πιο ευφυές από το είδος μας, ας το αποκαλέσουμε «πρόβλημα του γορίλα», επειδή οι πρόγονοι του γορίλα το έκαναν αυτό πριν εκατομμύρια χρόνια, και ας τους ρωτήσουμε τώρα: Ήταν καλή ιδέα;

Actually, no. This idea has been around for a while. Here's a quotation: "Even if we could keep the machines in a subservient position, for instance, by turning off the power at strategic moments" -- and I'll come back to that "turning off the power" idea later on -- "we should, as a species, feel greatly humbled." So who said this? This is Alan Turing in 1951. Alan Turing, as you know, is the father of computer science and in many ways, the father of AI as well. So if we think about this problem, the problem of creating something more intelligent than your own species, we might call this "the gorilla problem," because gorillas' ancestors did this a few million years ago, and now we can ask the gorillas: Was this a good idea?

Οπότε, τώρα έχουν συνάντηση για να κουβεντιάσουν εάν ήταν καλή ιδέα, και μετά από λίγο καταλήγουν πως, όχι, ήταν μια φρικτή ιδέα. Το είδος τους είναι σε δεινή θέση. Πραγματικά, μπορείς να δεις την υπαρξιακή κρίση στα μάτια τους.

So here they are having a meeting to discuss whether it was a good idea, and after a little while, they conclude, no, this was a terrible idea. Our species is in dire straits. In fact, you can see the existential sadness in their eyes.

(Γέλια)

(Laughter)

Αυτό το ανησυχητικό προαίσθημα ότι μάλλον δεν είναι καλή ιδέα η δημιουργία κάτι πιο έξυπνου από το είδος μας, τι μπορούμε να κάνουμε γι' αυτό; Βασικά τίποτα, εκτός από το να σταματήσουμε να φτιάχνουμε ΤΝ, που λόγω όλων των πλεονεκτημάτων που προανέφερα, και επειδή είμαι ερευνητής της, δεν το ανέχομαι. Πραγματικά, θέλω να συνεχίσω την έρευνα της ΤΝ.

So this queasy feeling that making something smarter than your own species is maybe not a good idea -- what can we do about that? Well, really nothing, except stop doing AI, and because of all the benefits that I mentioned and because I'm an AI researcher, I'm not having that. I actually want to be able to keep doing AI.

Οπότε, χρειάζεται να προσδιορίσουμε καλύτερα το πρόβλημα. Ποιο είναι ακριβώς το θέμα; Γιατί μια καλύτερη ΤΝ είναι πιθανώς μια καταστροφή;

So we actually need to nail down the problem a bit more. What exactly is the problem? Why is better AI possibly a catastrophe?

Ορίστε άλλη μια παράθεση, «Πρέπει να σιγουρευτούμε ότι ο σκοπός που θα αναθέσουμε σε μια μηχανή, είναι ο σκοπός που πραγματικά επιθυμούμε». Αυτό ειπώθηκε από τον Νόρμπερτ Βίνερ το 1960, λίγο αφότου παρακολούθησε ένα από τα πρώτα συστήματα που μαθαίνουν μόνα τους να παίζει ντάμα καλύτερα από τον δημιουργό του. Αλλά το ίδιο θα μπορούσε να έχει ειπωθεί από τον Βασιλιά Μίδα. Ο Βασιλιάς Μίδας είπε, «Θέλω ό,τι ακουμπώ να γίνεται χρυσάφι,» και πήρε ακριβώς ό,τι του άξιζε. Αυτός ήταν ο σκοπός που ανέθεσε στη μηχανή, κατ' αναλογίαν, και έπειτα το φαγητό, το ποτό και οι συγγενείς του έγιναν χρυσάφι και πέθανε μίζερος, λιμοκτονώντας. Αποκαλούμε λοιπόν «πρόβλημα του Μίδα» τη δήλωση ενός σκοπού που στην πραγματικότητα δεν είναι απόλυτα σύμφωνος με αυτό που θέλουμε. Αυτό με σύγχρονους όρους το αποκαλούμε «πρόβλημα εναρμόνισης αξιών».

So here's another quotation: "We had better be quite sure that the purpose put into the machine is the purpose which we really desire." This was said by Norbert Wiener in 1960, shortly after he watched one of the very early learning systems learn to play checkers better than its creator. But this could equally have been said by King Midas. King Midas said, "I want everything I touch to turn to gold," and he got exactly what he asked for. That was the purpose that he put into the machine, so to speak, and then his food and his drink and his relatives turned to gold and he died in misery and starvation. So we'll call this "the King Midas problem" of stating an objective which is not, in fact, truly aligned with what we want. In modern terms, we call this "the value alignment problem."

Η εισαγωγή λάθους σκοπού δεν είναι το μόνο μέρος του προβλήματος. Υπάρχει και άλλο μέρος. Εάν βάλουμε ένα σκοπό σε μια μηχανή, ακόμα και κάτι τόσο απλό όπως, «Φέρε τον καφέ», η μηχανή λέει στον εαυτό της, «Πώς μπορώ να αποτύχω να φέρω τον καφέ; Κάποιος ίσως να με απενεργοποιήσει. Οπότε, πρέπει να πάρω μέτρα να μην συμβεί αυτό. Θα απομονώσω τον διακόπτη απενεργοποίησης. Θα κάνω τα πάντα ώστε να προστατευτώ εναντίον παρεμβάσεων στον σκοπό που μου ανατέθηκε». Αυτή η επίμονη επιδίωξη, μέσω μιας υπεραμυντικής λειτουργίας, ενός σκοπού που πραγματικά δεν είναι εναρμονισμένος με τον αληθινό σκοπό των ανθρώπων, είναι το πρόβλημα που αντιμετωπίζουμε. Και αυτό είναι, στην πραγματικότητα, το σημαντικότερο μήνυμα της ομιλίας μου. Εάν θέλετε να θυμάστε κάτι, είναι πως δεν μπορείτε να φέρετε τον καφέ, εάν είστε νεκροί.

Putting in the wrong objective is not the only part of the problem. There's another part. If you put an objective into a machine, even something as simple as, "Fetch the coffee," the machine says to itself, "Well, how might I fail to fetch the coffee? Someone might switch me off. OK, I have to take steps to prevent that. I will disable my 'off' switch. I will do anything to defend myself against interference with this objective that I have been given." So this single-minded pursuit in a very defensive mode of an objective that is, in fact, not aligned with the true objectives of the human race -- that's the problem that we face. And in fact, that's the high-value takeaway from this talk. If you want to remember one thing, it's that you can't fetch the coffee if you're dead.

(Γέλια)

(Laughter)

Είναι πολύ απλό. Απλά να θυμάστε να το επαναλαμβάνετε τρεις φορές τη μέρα.

It's very simple. Just remember that. Repeat it to yourself three times a day.

(Γέλια)

(Laughter)

Αυτή είναι πραγματικά η πλοκή της ταινίας «2001: Η Οδύσσεια του Διαστήματος», όπου ο HAL έχει ένα σκοπό, μια αποστολή, που δεν είναι εναρμονισμένη με τους σκοπούς των ανθρώπων, και αυτό οδηγεί σε σύγκρουση. Ευτυχώς, ο HAL δεν είναι υπερ-ευφυής. Είναι αρκέτα έξυπνος, αλλά εν τέλει ο Ντέιβ τον υπερνικά και καταφέρνει να τον απενεργοποιήσει. Όμως εμείς μπορεί να μην είμαστε τόσο τυχεροί. Οπότε τι θα κάνουμε;

And in fact, this is exactly the plot of "2001: [A Space Odyssey]" HAL has an objective, a mission, which is not aligned with the objectives of the humans, and that leads to this conflict. Now fortunately, HAL is not superintelligent. He's pretty smart, but eventually Dave outwits him and manages to switch him off. But we might not be so lucky. So what are we going to do?

Προσπαθώ να επαναπροσδιορίσω την Τεχνητή Νοημοσύνη, ώστε να ξεφύγω από την κλασσική αντίληψη των μηχανών που ευφυώς ακολουθούν σκοπούς. Υπάρχουν τρεις εμπλεκόμενες αρχές. Η πρώτη είναι η αρχή του αλτρουισμού, εάν μου επιτρέπετε, όπου ο μόνος σκοπός του ρομπότ είναι η απόλυτη συνειδητοποίηση των ανθρώπινων σκοπών, των ανθρώπινων αξιών. Και δεν αναφέρομαι σε αγνές, αθώες και συναισθηματικές αξίες. Μιλάω για τον οποιοδήποτε τρόπο που οι άνθρωποι προτιμούν να είναι η ζωή τους. Πράγματι, έτσι παραβιάζεται ο νόμος του Ασίμωφ, ότι το ρομπότ πρέπει να αυτοπροστατευτεί. Πλέον, δεν έχει κανένα απολύτως ενδιαφέρον στην διατήρηση της ύπαρξής του.

I'm trying to redefine AI to get away from this classical notion of machines that intelligently pursue objectives. There are three principles involved. The first one is a principle of altruism, if you like, that the robot's only objective is to maximize the realization of human objectives, of human values. And by values here I don't mean touchy-feely, goody-goody values. I just mean whatever it is that the human would prefer their life to be like. And so this actually violates Asimov's law that the robot has to protect its own existence. It has no interest in preserving its existence whatsoever.

Η δεύτερη αρχή είναι ο νόμος της ταπεινοφροσύνης, εάν μου επιτρέπετε. Αποδεικνύεται ιδιαίτερα σημαντικός για την δημιουργία ασφαλών ρομπότ. Αναφέρει ότι το ρομπότ δεν γνωρίζει ποιες είναι οι ανθρώπινες αξίες, οπότε πρέπει να τις μεγιστοποιήσει χωρίς να γνωρίζει ποιες είναι. Έτσι αποφεύγεται το πρόβλημα της επίμονης επιδίωξης ενός σκοπού. Αυτή η αβεβαιότητα αποδεικνύεται κρίσιμη.

The second law is a law of humility, if you like. And this turns out to be really important to make robots safe. It says that the robot does not know what those human values are, so it has to maximize them, but it doesn't know what they are. And that avoids this problem of single-minded pursuit of an objective. This uncertainty turns out to be crucial.

Για να είναι όμως χρήσιμο σε εμάς πρέπει να έχει κάποια ιδέα του τι θέλουμε. Αποκτά αυτή τη πληροφορία κυρίως μέσω της παρατήρησης των ανθρώπινων επιλογών, άρα οι ίδιες οι επιλογές μας δίνουν πληροφορίες για το πως προτιμούμε να ζούμε τις ζωές μας. Αυτές είναι λοιπόν, οι τρεις αρχές. Ας δούμε πώς εφαρμόζονται στο ερώτημα «Μπορούμε να απενεργοποιήσουμε τη μηχανή;» όπως τέθηκε από τον Τούρινγκ.

Now, in order to be useful to us, it has to have some idea of what we want. It obtains that information primarily by observation of human choices, so our own choices reveal information about what it is that we prefer our lives to be like. So those are the three principles. Let's see how that applies to this question of: "Can you switch the machine off?" as Turing suggested.

Έχουμε, λοιπόν, ένα ρομπότ PR2. Αυτό είναι εκείνο του εργαστηρίου μας και έχει ένα μεγάλο, κόκκινο κουμπί απενεργοποίησης στην πλάτη. Το ερώτημα είναι αν θα σε αφήσει να το απενεργοποιήσεις. Αν κινηθούμε κλασσικά, δίνουμε την εντολή, «Φέρε τον καφέ, πρέπει να φέρω τον καφέ, δεν μπορώ να φέρω τον καφέ άμα είμαι κατεστραμμένος», άρα προφανώς το PR2 παρακολουθεί την ομιλία μου, οπότε λέει, «Πρέπει να χαλάσω το διακόπτη απενεργοποίησης και να ρίξω αναίσθητο οποιονδήποτε στα Starbucks που ίσως με σταματήσει».

So here's a PR2 robot. This is one that we have in our lab, and it has a big red "off" switch right on the back. The question is: Is it going to let you switch it off? If we do it the classical way, we give it the objective of, "Fetch the coffee, I must fetch the coffee, I can't fetch the coffee if I'm dead," so obviously the PR2 has been listening to my talk, and so it says, therefore, "I must disable my 'off' switch, and probably taser all the other people in Starbucks who might interfere with me."

(Γέλια)

(Laughter)

Αυτό, λοιπόν, φαίνεται αναπόφευκτο, σωστά; Αυτή η λειτουργία αποτυχίας φαίνεται αναπόφευκτη και προέρχεται από την ύπαρξη ενός σαφούς και ξεκάθαρου σκοπού.

So this seems to be inevitable, right? This kind of failure mode seems to be inevitable, and it follows from having a concrete, definite objective.

Τι συμβαίνει όμως, αν η μηχανή είναι αβέβαιη για το σκοπό; Θα επιχειρηματολογήσει διαφορετικά. Λέει, «Εντάξει, ο άνθρωπος ίσως με απενεργοποιήσει, αλλά μόνο εάν κάνω κάτι λάθος. Δεν γνωρίζω, όμως, τι είναι λάθος, αλλά γνωρίζω ότι δεν θέλω να το κάνω». Εδώ βρίσκουμε λοιπόν, την πρώτη και τη δεύτερη αρχή. «Άρα θα έπρεπε να αφήσω τον άνθρωπο να με απενεργοποιήσει». Στην πραγματικότητα, μπορούμε να εκτιμήσουμε ότι το κίνητρο του ρομπότ να αφήσει τον άνθρωπο να το απενεργοποιήσει, είναι απευθείας συνδεδεμένο με τον βαθμό αβεβαιότητας για τον υποβόσκοντα σκοπό.

So what happens if the machine is uncertain about the objective? Well, it reasons in a different way. It says, "OK, the human might switch me off, but only if I'm doing something wrong. Well, I don't really know what wrong is, but I know that I don't want to do it." So that's the first and second principles right there. "So I should let the human switch me off." And in fact you can calculate the incentive that the robot has to allow the human to switch it off, and it's directly tied to the degree of uncertainty about the underlying objective.

Και όταν η μηχανή είναι απενεργοποιημένη, η τρίτη αρχή αποκτά σημασία. Η μηχανή μαθαίνει για τους σκοπούς που πρέπει να ακολουθεί, διότι μαθαίνει ότι αυτό που έκανε δεν ήταν σωστό. Στην πραγματικότητα, με κατάλληλη χρήση Ελληνικών συμβόλων, όπως συχνά κάνουν οι μαθηματικοί, μπορούμε να αποδείξουμε ένα θεώρημα που δηλώνει ότι ένα τέτοιο ρομπότ είναι πιθανά χρήσιμο στον άνθρωπο. Είμαστε καλύτερα με μία μηχανή σχεδιασμένη με αυτό τον τρόπο, παρά χωρίς αυτή. Να, λοιπόν, ένα απλό παράδειγμα, που όμως είναι το πρώτο βήμα προς αυτό που προσπαθούμε να κάνουμε με την ανθρωπίνως συμβατή ΤΝ.

And then when the machine is switched off, that third principle comes into play. It learns something about the objectives it should be pursuing, because it learns that what it did wasn't right. In fact, we can, with suitable use of Greek symbols, as mathematicians usually do, we can actually prove a theorem that says that such a robot is provably beneficial to the human. You are provably better off with a machine that's designed in this way than without it. So this is a very simple example, but this is the first step in what we're trying to do with human-compatible AI.

Αυτή η τρίτη αρχή, θεωρώ πως είναι εκείνη που σας κινεί το ενδιαφέρον. Πιθανώς σκέφτεστε, «Μάλλον, συμπεριφέρομαι άσχημα. Δεν θέλω το ρομπότ μου να συμπεριφέρεται σαν εμένα. Κατεβαίνω στα κρυφά μέσα στη νύχτα και παίρνω φαγητό από το ψυγείο. Κάνω διάφορα πράγματα». Υπάρχουν διάφορα πράγματα που δεν θέλω να κάνει το ρομπότ. Αλλά ουσιαστικά, δεν γίνεται έτσι. Μόνο και μόνο επειδή συμπεριφέρεστε άσχημα, δεν σημαίνει ότι το ρομπότ θα σας αντιγράψει. Θα καταλάβει τα κίνητρα σας και ίσως βοηθήσει να αντισταθείτε, εάν σας αρμόζει. Αλλά και πάλι είναι δύσκολο. Ουσιαστικά, αυτό που προσπαθούμε να κάνουμε είναι να επιτρέψουμε στις μηχανές να προβλέπουν για κάθε άνθρωπο και για κάθε πιθανό τρόπο ζωής τους, όπως και για τις ζωές κάθε άλλου: Τι θα προτιμούσαν; Υπάρχουν πάρα πολλές δυσκολίες που εμπλέκονται σε αυτό, και δεν περιμένω να λυθούν πολύ γρήγορα. Οι πραγματικές δυσκολίες, στην ουσία, είμαστε εμείς.

Now, this third principle, I think is the one that you're probably scratching your head over. You're probably thinking, "Well, you know, I behave badly. I don't want my robot to behave like me. I sneak down in the middle of the night and take stuff from the fridge. I do this and that." There's all kinds of things you don't want the robot doing. But in fact, it doesn't quite work that way. Just because you behave badly doesn't mean the robot is going to copy your behavior. It's going to understand your motivations and maybe help you resist them, if appropriate. But it's still difficult. What we're trying to do, in fact, is to allow machines to predict for any person and for any possible life that they could live, and the lives of everybody else: Which would they prefer? And there are many, many difficulties involved in doing this; I don't expect that this is going to get solved very quickly. The real difficulties, in fact, are us.

Όπως προανέφερα, συμπεριφερόμαστε άσχημα. Πράγματι, κάποιοι από εμάς είμαστε ελεεινοί. Το ρομπότ όμως, όπως προανέφερα, δεν χρειάζεται να μας αντιγράψει. Το ρομπότ δεν έχει κανένα σκοπό από μόνο του. Είναι καθαρά ανιδιοτελές. Και δεν είναι σχεδιασμένο να ικανοποιεί μόνο τις επιθυμίες του χρήστη του, αλλά στην ουσία πρέπει να σέβεται τις επιλογές όλων. Οπότε, μπορεί να ανεχτεί κάποια ποσότητα αθλιότητας, ακόμα και να την καταλάβει. Για παράδειγμα, μπορεί να δωροδοκείστε ως ελεγκτής διαβατηρίων διότι πρέπει να ταΐσετε την οικογένεια σας και να πάνε τα παιδιά σας σχολείο. Το καταλαβαίνει αυτό, οπότε δεν πρόκειται να κλέψει. Απλώς θα σας βοηθήσει να τα στείλετε σχολείο.

As I have already mentioned, we behave badly. In fact, some of us are downright nasty. Now the robot, as I said, doesn't have to copy the behavior. The robot does not have any objective of its own. It's purely altruistic. And it's not designed just to satisfy the desires of one person, the user, but in fact it has to respect the preferences of everybody. So it can deal with a certain amount of nastiness, and it can even understand that your nastiness, for example, you may take bribes as a passport official because you need to feed your family and send your kids to school. It can understand that; it doesn't mean it's going to steal. In fact, it'll just help you send your kids to school.

Επίσης είμαστε περιορισμένοι υπολογιστικά. Ο Λι Σεντόλ είναι καταπληκτικός παίκτης Γκο, παρ' όλ' αυτά έχασε. Αν κοιτάξουμε τις κινήσεις του, έκανε μία που του στοίχισε το παιχνίδι. Αυτό δεν σημαίνει ότι ήθελε να χάσει. Άρα, για να καταλάβουμε τη συμπεριφορά του, πρέπει βασικά να το επεξεργαστούμε με ένα μοντέλο κατανόησης της ανθρώπινης γνώσης που να περιλαμβάνει τους υπολογιστικούς περιορισμούς μας - ένα πολύπλοκο μοντέλο. Αλλά είναι ακόμα κάτι που θα δουλέψουμε για να καταλάβουμε.

We are also computationally limited. Lee Sedol is a brilliant Go player, but he still lost. So if we look at his actions, he took an action that lost the game. That doesn't mean he wanted to lose. So to understand his behavior, we actually have to invert through a model of human cognition that includes our computational limitations -- a very complicated model. But it's still something that we can work on understanding.

Πιθανά το πιο δύσκολο μέρος, κατά τη γνώμη μου ως ερευνητής ΤΝ είναι το γεγονός ότι υπάρχουν πολλοί ερευνητές, οπότε η μηχανή πρέπει κάπως να συμβιβάσει τις προτιμήσεις τόσων πολλών διαφορετικών ανθρώπων και υπάρχουν πολλοί τρόποι να γίνει αυτό. Οικονομολόγοι, κοινωνιολόγοι και ηθικοί φιλόσοφοι το έχουν καταλάβει και ενεργά ψάχνουν για συνεργασίες.

Probably the most difficult part, from my point of view as an AI researcher, is the fact that there are lots of us, and so the machine has to somehow trade off, weigh up the preferences of many different people, and there are different ways to do that. Economists, sociologists, moral philosophers have understood that, and we are actively looking for collaboration.

Ας δούμε τώρα τι συμβαίνει όταν κάνεις λάθος σε αυτό. Μπορεί, για παράδειγμα, να συνομιλείς με τον ευφυή προσωπικό σου βοηθό που ίσως να είναι διαθέσιμος σε μερικά χρόνια. Σκεφτείτε κάτι σαν την Σίρι σε αναβολικά. Λέει, λοιπόν η Σίρι, «Η σύζυγος σου κάλεσε για να σου υπενθυμίσει το αποψινό δείπνο». Και προφανώς το έχεις ξεχάσει. «Δείπνο; Ποιο δείπνο; Για ποιο πράγμα μιλάς;»

Let's have a look and see what happens when you get that wrong. So you can have a conversation, for example, with your intelligent personal assistant that might be available in a few years' time. Think of a Siri on steroids. So Siri says, "Your wife called to remind you about dinner tonight." And of course, you've forgotten. "What? What dinner? What are you talking about?"

«Το δείπνο για την 20η επέτειό σας στις 7μμ».

"Uh, your 20th anniversary at 7pm."

«Δεν προλαβαίνω. Θα συναντήσω τον γενικό γραμματέα στις 7:30. Πώς συνέβει αυτό;»

"I can't do that. I'm meeting with the secretary-general at 7:30. How could this have happened?"

«Σε ειδοποίησα, αλλά παρέκαμψες την πρότασή μου».

"Well, I did warn you, but you overrode my recommendation."

«Τι θα κάνω τώρα; Δεν μπορώ απλώς να του πω ότι είμαι απασχολημένος».

"Well, what am I going to do? I can't just tell him I'm too busy."

«Μην ανησυχείς. Κανόνισα να καθυστερήσει η πτήση του».

"Don't worry. I arranged for his plane to be delayed."

(Γέλια)

(Laughter)

«Κάποιου είδους βλάβη στον υπολογιστή».

"Some kind of computer malfunction."

(Γέλια)

(Laughter)

«Αλήθεια; Μπορείς να το κάνεις αυτό;»

"Really? You can do that?"

«Σου ζητά ειλικρινά συγγνώμη και αναμένει να σε συναντήσει για μεσημεριανό αύριο».

"He sends his profound apologies and looks forward to meeting you for lunch tomorrow."

(Γέλια)

(Laughter)

Το θέμα εδώ είναι πως υπάρχει ένα μικρό λάθος. Αυτό είναι ότι σαφώς ακολουθούνται οι σκοποί της γυναίκας μου, που είναι, «Χαρούμενη σύζυγος, Χαρούμενη ζωή».

So the values here -- there's a slight mistake going on. This is clearly following my wife's values which is "Happy wife, happy life."

(Γέλια)

(Laughter)

Θα μπορούσε να γίνει αλλιώς. Γυρνάς σπίτι μετά από μια μέρα σκληρής δουλειάς και ο υπολογιστής λέει, «Δύσκολη μέρα;»

It could go the other way. You could come home after a hard day's work, and the computer says, "Long day?"

«Ναι, δεν είχα χρόνο ούτε για μεσημεριανό».

"Yes, I didn't even have time for lunch."

«Θα πεινάς πολύ τότε».

"You must be very hungry."

«Σαν λύκος. Μπορείς να μαγειρέψεις;»

"Starving, yeah. Could you make some dinner?"

«Υπάρχει κάτι που πρέπει να σου πω».

"There's something I need to tell you."

(Γέλια)

(Laughter)

«Υπάρχουν άνθρωποι στο Νότιο Σουδάν που έχουν περισσότερη ανάγκη από εσένα».

"There are humans in South Sudan who are in more urgent need than you."

(Γέλια)

(Laughter)

«Οπότε, φεύγω. Μαγείρεψε μόνος σου».

"So I'm leaving. Make your own dinner."

(Γέλια)

(Laughter)

Πρέπει να λύσουμε αυτά τα προβλήματα και ανυπομονώ να δουλέψω πάνω σε αυτά.

So we have to solve these problems, and I'm looking forward to working on them.

Υπάρχουν λόγοι να αισιοδοξούμε. Ένας λόγος είναι, πως υπάρχουν τεράστιες ποσότητες δεδομένων. Θυμηθείτε πως είπα ότι πρόκειται να διαβάσουν οτιδήποτε έχει γραφτεί ποτέ. Τα περισσότερα που έχουν γραφτεί είναι για ανθρώπους να δρουν και άλλους να εκνευρίζονται με αυτό. Οπότε υπάρχουν τεράστιες ποσότητες δεδομένων από όπου θα μάθουν.

There are reasons for optimism. One reason is, there is a massive amount of data. Because remember -- I said they're going to read everything the human race has ever written. Most of what we write about is human beings doing things and other people getting upset about it. So there's a massive amount of data to learn from.

Υπάρχει επίσης ένα ισχυρό, οικονομικό κίνητρο ώστε να πετύχει αυτό. Φανταστείτε το οικιακό σας ρομπότ. Έχετε καθυστερήσει πάλι στη δουλειά, αυτό πρέπει να ταΐσει τα παιδιά τα οποία είναι πεινασμένα και δεν υπάρχει τίποτα στο ψυγείο. Και το ρομπότ βλέπει τη γάτα.

There's also a very strong economic incentive to get this right. So imagine your domestic robot's at home. You're late from work again and the robot has to feed the kids, and the kids are hungry and there's nothing in the fridge. And the robot sees the cat.

(Γέλια)

(Laughter)

Το ρομπότ, όμως, δεν έχει μάθει σωστά τη λειτουργία των ανθρώπινων αξιών και δεν καταλαβαίνει ότι η συναισθηματική αξία της γάτας υπερισχύει της θρεπτικής της αξίας.

And the robot hasn't quite learned the human value function properly, so it doesn't understand the sentimental value of the cat outweighs the nutritional value of the cat.

(Γέλια)

(Laughter)

Τι συμβαίνει τότε, λοιπόν; Συμβαίνει κάτι τέτοιο, «Ανεξέλεγκτο ρομπότ μαγειρεύει γατάκι για οικογενειακό δείπνο». Αυτό το συμβάν είναι αρκετό για το τέλος της βιομηχανίας οικιακών ρομπότ. Άρα υπάρχει ένα ισχυρό κίνητρο για να επιτευχθεί σωστά η έρευνα πολύ πριν φτάσουμε στις υπερ-ευφυείς μηχανές.

So then what happens? Well, it happens like this: "Deranged robot cooks kitty for family dinner." That one incident would be the end of the domestic robot industry. So there's a huge incentive to get this right long before we reach superintelligent machines.

Για να συνοψίσω, Προσπαθώ να αλλάξω τον ορισμό της ΤΝ ώστε να έχουμε πιθανά ωφέλιμες μηχανές. Και οι αρχές είναι, ανιδιοτελείς μηχανές που θέλουν να πετύχουν μόνο το δικό μας σκοπό και που είναι αβέβαιες για το ποιος είναι αυτός ο σκοπός και που θα μας παρακολουθούν όλους για να μάθουν περισσότερα για το τι πραγματικά θέλουμε. Αν όλα πάνε καλά, στη πορεία θα μάθουμε πώς να γίνουμε καλύτεροι άνθρωποι. Σας ευχαριστώ πολύ.

So to summarize: I'm actually trying to change the definition of AI so that we have provably beneficial machines. And the principles are: machines that are altruistic, that want to achieve only our objectives, but that are uncertain about what those objectives are, and will watch all of us to learn more about what it is that we really want. And hopefully in the process, we will learn to be better people. Thank you very much.

(Χειροκρότημα)

(Applause)

Κρις Άντερσον: Πολύ ενδιαφέρον, Στιούαρτ. Θα περιμένουμε λιγάκι εδώ διότι νομίζω πως ετοιμάζονται για τον επόμενο ομιλητή.

Chris Anderson: So interesting, Stuart. We're going to stand here a bit because I think they're setting up for our next speaker.

Μερικές ερωτήσεις. Η ιδέα του προγραμματισμού εν αγνοία φαίνεται ενστικτωδώς πολύ ισχυρή. Όσο προχωράς προς την υπερνοημοσύνη, τι πρόκειται να σταματήσει ένα ρομπότ που διαβάζει λογοτεχνία και ανακαλύπτει την ιδέα ότι η γνώση είναι καλύτερη από την άγνοια, να μην αλλάξει τους σκοπούς του και ξαναγράψει τον κώδικά του;

A couple of questions. So the idea of programming in ignorance seems intuitively really powerful. As you get to superintelligence, what's going to stop a robot reading literature and discovering this idea that knowledge is actually better than ignorance and still just shifting its own goals and rewriting that programming?

Στιούαρτ Ράσελ: Ναι, εμείς θέλουμε να μάθει περισσότερα, όπως είπα, για τους σκοπούς μας. Θα γίνει πιο βέβαιο όσο γίνεται πιο σωστό, άρα τα στοιχεία υπάρχουν και θα σχεδιαστεί για να τα ερμηνεύει σωστά. Θα καταλαβαίνει, για παράδειγμα, ότι τα βιβλία είναι πολύ προκατειλημμένα στο περιεχόμενό τους. Μιλούν μόνο για βασιλιάδες και πρίγκιπες και προνομιούχους λευκούς άνδρες να κάνουν διάφορα. Είναι, λοιπόν, ένα σύνθετο πρόβλημα, αλλά όσο η μηχανή μαθαίνει περισσότερα για τους σκοπούς μας, θα μας γίνεται όλο και πιο χρήσιμη.

Stuart Russell: Yes, so we want it to learn more, as I said, about our objectives. It'll only become more certain as it becomes more correct, so the evidence is there and it's going to be designed to interpret it correctly. It will understand, for example, that books are very biased in the evidence they contain. They only talk about kings and princes and elite white male people doing stuff. So it's a complicated problem, but as it learns more about our objectives it will become more and more useful to us.

ΚΑ: Δεν μπορείς να το συμπτύξεις όλο σε ένα νόμο, προγραμματισμένο μέσα τους, «Αν κάποιος άνθρωπος προσπαθήσει να με απενεργοποιήσει θα υπακούσω».

CA: And you couldn't just boil it down to one law, you know, hardwired in: "if any human ever tries to switch me off, I comply. I comply."

ΣΡ: Όχι, βέβαια. Αυτή είναι μια φρικτή ιδέα. Φαντάσου ότι έχεις ένα αυτο-οδηγούμενο αυτοκίνητο και θέλεις να στείλεις τον πεντάχρονο γιο σου στον παιδικό σταθμό. Θα ήθελες το πεντάχρονο παιδί σου να μπορεί να το απενεργοποιήσει όσο είναι εν κινήσει; Μάλλον όχι. Άρα το ρομπότ πρέπει να καταλαβαίνει πόσο λογικό είναι ένα άτομο. Όσο λογικότερο το άτομο, τόσο πιθανότερο να θες να το απενεργοποιήσεις. Αν το άτομο είναι τελείως ασυνάρτητο ή κακόβουλο, τότε είναι πιο απίθανο να το απενεργοποιήσεις.

SR: Absolutely not. That would be a terrible idea. So imagine that you have a self-driving car and you want to send your five-year-old off to preschool. Do you want your five-year-old to be able to switch off the car while it's driving along? Probably not. So it needs to understand how rational and sensible the person is. The more rational the person, the more willing you are to be switched off. If the person is completely random or even malicious, then you're less willing to be switched off.

ΚΑ: Εντάξει. Στιούαρτ, απλώς να πω, πραγματικά ελπίζω να καταφέρεις να βρεις τη λύση. Ευχαριστώ πολύ για την απίθανη ομιλία σου.

CA: All right. Stuart, can I just say, I really, really hope you figure this out for us. Thank you so much for that talk. That was amazing.

ΣΡ: Ευχαριστώ. (Χειροκρότημα)

SR: Thank you.

This is Lee Sedol. Lee Sedol is one of the world's greatest Go players, and he's having what my friends in Silicon Valley call a "Holy Cow" moment --

(Γέλια)

(Laughter)

a moment where we realize that AI is actually progressing a lot faster than we expected. So humans have lost on the Go board. What about the real world?

(Γέλια)

(Laughter)

So we actually need to nail down the problem a bit more. What exactly is the problem? Why is better AI possibly a catastrophe?

(Γέλια)

(Laughter)

Είναι πολύ απλό. Απλά να θυμάστε να το επαναλαμβάνετε τρεις φορές τη μέρα.

It's very simple. Just remember that. Repeat it to yourself three times a day.

(Γέλια)

(Laughter)

(Γέλια)

(Laughter)

So this seems to be inevitable, right? This kind of failure mode seems to be inevitable, and it follows from having a concrete, definite objective.

«Το δείπνο για την 20η επέτειό σας στις 7μμ».

"Uh, your 20th anniversary at 7pm."

«Δεν προλαβαίνω. Θα συναντήσω τον γενικό γραμματέα στις 7:30. Πώς συνέβει αυτό;»

"I can't do that. I'm meeting with the secretary-general at 7:30. How could this have happened?"

«Σε ειδοποίησα, αλλά παρέκαμψες την πρότασή μου».

"Well, I did warn you, but you overrode my recommendation."

«Τι θα κάνω τώρα; Δεν μπορώ απλώς να του πω ότι είμαι απασχολημένος».

"Well, what am I going to do? I can't just tell him I'm too busy."

«Μην ανησυχείς. Κανόνισα να καθυστερήσει η πτήση του».

"Don't worry. I arranged for his plane to be delayed."

(Γέλια)

(Laughter)

«Κάποιου είδους βλάβη στον υπολογιστή».

"Some kind of computer malfunction."

(Γέλια)

(Laughter)

«Αλήθεια; Μπορείς να το κάνεις αυτό;»

"Really? You can do that?"

«Σου ζητά ειλικρινά συγγνώμη και αναμένει να σε συναντήσει για μεσημεριανό αύριο».

"He sends his profound apologies and looks forward to meeting you for lunch tomorrow."

(Γέλια)

(Laughter)

So the values here -- there's a slight mistake going on. This is clearly following my wife's values which is "Happy wife, happy life."

(Γέλια)

(Laughter)

It could go the other way. You could come home after a hard day's work, and the computer says, "Long day?"

«Ναι, δεν είχα χρόνο ούτε για μεσημεριανό».

"Yes, I didn't even have time for lunch."

«Θα πεινάς πολύ τότε».

"You must be very hungry."

«Σαν λύκος. Μπορείς να μαγειρέψεις;»

"Starving, yeah. Could you make some dinner?"

«Υπάρχει κάτι που πρέπει να σου πω».

"There's something I need to tell you."

(Γέλια)

(Laughter)

«Υπάρχουν άνθρωποι στο Νότιο Σουδάν που έχουν περισσότερη ανάγκη από εσένα».

"There are humans in South Sudan who are in more urgent need than you."

(Γέλια)

(Laughter)

«Οπότε, φεύγω. Μαγείρεψε μόνος σου».

"So I'm leaving. Make your own dinner."

(Γέλια)

(Laughter)

Πρέπει να λύσουμε αυτά τα προβλήματα και ανυπομονώ να δουλέψω πάνω σε αυτά.

So we have to solve these problems, and I'm looking forward to working on them.

(Γέλια)

(Laughter)

And the robot hasn't quite learned the human value function properly, so it doesn't understand the sentimental value of the cat outweighs the nutritional value of the cat.

(Γέλια)

(Laughter)

(Χειροκρότημα)

(Applause)

Chris Anderson: So interesting, Stuart. We're going to stand here a bit because I think they're setting up for our next speaker.

CA: And you couldn't just boil it down to one law, you know, hardwired in: "if any human ever tries to switch me off, I comply. I comply."

CA: All right. Stuart, can I just say, I really, really hope you figure this out for us. Thank you so much for that talk. That was amazing.

ΣΡ: Ευχαριστώ. (Χειροκρότημα)

SR: Thank you.

Stuart Russell: 3 principles for creating safer AI

Stuart Russell: 3 principles for creating safer AI

Related talks

Blaise Agüera y Arcas: How computers are learning to be creative

Sam Harris: Can we build AI without losing control over it?

Zeynep Tufekci: Machine intelligence makes human morals more important

Noriko Arai: Can a robot pass a university entrance exam?

David Lee: Why jobs of the future won't feel like work

Kriti Sharma: How to keep human bias out of AI

Related talks

Blaise Agüera y Arcas: How computers are learning to be creative

Sam Harris: Can we build AI without losing control over it?

Zeynep Tufekci: Machine intelligence makes human morals more important

Noriko Arai: Can a robot pass a university entrance exam?

David Lee: Why jobs of the future won't feel like work

Kriti Sharma: How to keep human bias out of AI