Stuart Russell: 3 principles for creating safer AI

This is Lee Sedol. Lee Sedol is one of the world's greatest Go players, and he's having what my friends in Silicon Valley call a "Holy Cow" moment --

Đây là Lee Sedol. Lee Sedol là một trong những kì thủ cờ vây giỏi nhất thế giới, cậu ấy đang có thứ mà các bạn của tôi ở thung lũng Silicon gọi là khoảnh khắc "Ôi Chúa ơi" --

(Laughter)

(Cười)

a moment where we realize that AI is actually progressing a lot faster than we expected. So humans have lost on the Go board. What about the real world?

khoảnh khắc khi chúng ta nhận ra rằng AI (trí tuệ nhân tạo) đã xử lí nhanh hơn nhiều so với chúng ta mong đợi. Vậy con người đã thua trên bàn cờ vây. Thế còn trong thế giới thực?

Well, the real world is much bigger, much more complicated than the Go board. It's a lot less visible, but it's still a decision problem. And if we think about some of the technologies that are coming down the pike ... Noriko [Arai] mentioned that reading is not yet happening in machines, at least with understanding. But that will happen, and when that happens, very soon afterwards, machines will have read everything that the human race has ever written. And that will enable machines, along with the ability to look further ahead than humans can, as we've already seen in Go, if they also have access to more information, they'll be able to make better decisions in the real world than we can. So is that a good thing? Well, I hope so.

Thế giới thực lớn hơn, phức tạp hơn nhiều so với cờ vây. Nó không dễ nhận thấy, nhưng nó vẫn là một vấn đề mang tính chọn lựa. Và nếu chúng ta nghĩ về một số công nghệ đang được chú ý đến... Noriko [Arai] từng khẳng định máy móc vẫn chưa thể đọc, ít nhất là với sự thấu hiểu. Nhưng điều đó sẽ xảy ra, và khi điều đó xảy ra, rất nhanh sau đó, máy móc sẽ đọc hết những thứ mà loài người đã viết. Và điều đấy sẽ cho phép máy móc, cùng với khả năng dự đoán xa hơn con người, như chúng ta đã thấy trong cờ vây, nếu chúng cũng có thể tiếp cận nhiều thông tin hơn, chúng sẽ có thể đưa ra những quyết định tốt hơn chúng ta trong thế giới thực. Vậy đó có phải là điều tốt? Tôi hi vọng vậy.

Our entire civilization, everything that we value, is based on our intelligence. And if we had access to a lot more intelligence, then there's really no limit to what the human race can do. And I think this could be, as some people have described it, the biggest event in human history. So why are people saying things like this, that AI might spell the end of the human race? Is this a new thing? Is it just Elon Musk and Bill Gates and Stephen Hawking?

Toàn bộ nền văn minh của loài người, tất cả những thứ chúng ta coi trọng, đều dựa trên trí tuệ của chúng ta. Và nếu chúng ta có thể sở hữu nhiều trí tuệ hơn, những thứ con người có thể làm sẽ không có giới hạn. Và tôi nghĩ đây có thể là, như nhiều người đã miêu tả nó, sự kiện lớn nhất trong lịch sử nhân loại. [Chào mừng tới UTOPIA Hãy tận hưởng hành trình của bạn] Vậy tại sao mọi người lại nói những điều như thế này, AI có thể là sự chấm dứt của loài người? Đây có phải là một điều mới mẻ? Phải chăng chỉ có Elon Musk, Bill Gates và Stephen Hawking?

Actually, no. This idea has been around for a while. Here's a quotation: "Even if we could keep the machines in a subservient position, for instance, by turning off the power at strategic moments" -- and I'll come back to that "turning off the power" idea later on -- "we should, as a species, feel greatly humbled." So who said this? This is Alan Turing in 1951. Alan Turing, as you know, is the father of computer science and in many ways, the father of AI as well. So if we think about this problem, the problem of creating something more intelligent than your own species, we might call this "the gorilla problem," because gorillas' ancestors did this a few million years ago, and now we can ask the gorillas: Was this a good idea?

Thực ra là không. Ý tưởng này đã có trước đây. Đây là một trích dẫn: "Ngay cả khi chúng ta có thể giữ máy móc như một công cụ, chẳng hạn như, bằng cách tắt nguồn khi chúng ta muốn"-- và tôi sẽ quay lại với khái niệm "tắt nguồn" sau -- chúng ta vẫn nên cảm thấy khiêm tốn hơn. Vậy ai đã nói điều này? Chính là Alan Turing vào năm 1951. Alan Turing, như bạn đã biết, là cha đẻ của khoa học máy tính, và theo nhiều cách, ông cũng là cha đẻ của AI. Nếu chúng ta nghĩ về vấn đề này, tạo nên một loài thông minh hơn loài của chính bạn, có thể gọi nó là "vấn đề gorilla," bởi vì tổ tiên gorilla đã làm việc này từ hàng triệu năm trước, và bây giờ chúng ta có thể hỏi chúng: Đây có phải là một ý tưởng hay?

So here they are having a meeting to discuss whether it was a good idea, and after a little while, they conclude, no, this was a terrible idea. Our species is in dire straits. In fact, you can see the existential sadness in their eyes.

Và chúng đang có một buổi họp để thảo luận xem đây có phải là một ý tưởng hay, và sau một khoảng thời gian, chúng kết luận: Không, đó là một ý tưởng tồi tệ. Chúng ta đang ở trong hoàn cảnh rất khó khăn. Thậm chí, bạn có thể nhìn thấy nỗi buồn hiện hữu trong mắt chúng.

(Laughter)

(Cười)

So this queasy feeling that making something smarter than your own species is maybe not a good idea -- what can we do about that? Well, really nothing, except stop doing AI, and because of all the benefits that I mentioned and because I'm an AI researcher, I'm not having that. I actually want to be able to keep doing AI.

Vậy cảm giác bất an rằng tạo ra một loài thông minh hơn chính loài của chúng ta có thể không phải là một ý kiến hay -- Chúng ta có thể làm gì nó? Thực sự là không gì cả, trừ việc ngừng tạo ra AI, và bởi vì những lợi ích mà tôi vừa kể ra cũng như tôi là một nhà nghiên cứu về AI, tôi sẽ không làm như thế. Tôi vẫn muốn tiếp tục làm về AI.

So we actually need to nail down the problem a bit more. What exactly is the problem? Why is better AI possibly a catastrophe?

Chúng ta cần phải cụ thể hóa vấn đề hơn một chút. Chính xác thì đâu mới là vấn đề? Vì sao AI tốt hơn lại có thể đem lại nhiều tai họa?

So here's another quotation: "We had better be quite sure that the purpose put into the machine is the purpose which we really desire." This was said by Norbert Wiener in 1960, shortly after he watched one of the very early learning systems learn to play checkers better than its creator. But this could equally have been said by King Midas. King Midas said, "I want everything I touch to turn to gold," and he got exactly what he asked for. That was the purpose that he put into the machine, so to speak, and then his food and his drink and his relatives turned to gold and he died in misery and starvation. So we'll call this "the King Midas problem" of stating an objective which is not, in fact, truly aligned with what we want. In modern terms, we call this "the value alignment problem."

Đây là một câu trích dẫn khác: "Chúng ta nên đảm bảo rằng mục đích mà chúng ta đưa vào máy móc là mục đích mà chúng ta thực sự mong muốn." Đây là câu nói của Norbert Wiener năm 1960, không lâu sau khi ông ấy được xem một trong những hệ thống học tập thời đầu học cách chơi cờ Đam giỏi hơn người tạo ra nó. Nhưng điều tương tự cũng đã được nói bởi vua Midas. Vua Midas đã từng bảo: "Tôi muốn mọi thứ tôi chạm vào trở thành vàng." và ông ấy đã có chính xác những gì ông muốn. Đấy là mục đích mà ông đã đưa vào máy móc, như đã nói, sau đó thì đồ ăn, thức uống và người thân của ông đều biến thành vàng và ông đã qua đời trong đau khổ và đói kém. Vậy nên chúng ta gọi đây là "vấn đề Vua Midas" khi chúng ta đưa ra một mục tiêu không trùng khớp với thứ chúng ta muốn. Hiện tại, chúng ta gọi đó là "vấn đề trùng khớp giá trị."

Putting in the wrong objective is not the only part of the problem. There's another part. If you put an objective into a machine, even something as simple as, "Fetch the coffee," the machine says to itself, "Well, how might I fail to fetch the coffee? Someone might switch me off. OK, I have to take steps to prevent that. I will disable my 'off' switch. I will do anything to defend myself against interference with this objective that I have been given." So this single-minded pursuit in a very defensive mode of an objective that is, in fact, not aligned with the true objectives of the human race -- that's the problem that we face. And in fact, that's the high-value takeaway from this talk. If you want to remember one thing, it's that you can't fetch the coffee if you're dead.

Tuy nhiên xác định sai mục tiêu không phải là vấn đề duy nhất. Còn một phần nữa. Nếu chúng ta đưa mục đích vào một cỗ máy, kể cả một thứ đơn giản như "đi lấy cà phê," cỗ máy tự nói với chính nó, "Ừm, điều gì có thể làm việc đi lấy cà phê thất bại?" Như ai đó có thể sẽ tắt tôi đi. Ok, tôi phải ngăn chặn việc đó. Tôi sẽ vô hiệu hóa nút 'tắt' của tôi. Tôi sẽ làm mọi thứ để bảo vệ bản thân khỏi các thứ cản trở tôi đạt được mục đích đã được giao." Vậy sự chuyên tâm theo đuổi này theo một cách rất phòng ngự đối với mục tiêu mà, thật ra, không tương ứng với mục đích chính của loài người -- đó là vấn đề mà chúng ta phải đối mặt. Và thực ra, đây là bài học đáng giá được rút ra từ bài nói này. Nếu bạn muốn nhớ một điều, đó là bạn sẽ không thể lấy được cà phê nếu bạn chết.

(Laughter)

(Cười)

It's very simple. Just remember that. Repeat it to yourself three times a day.

Nó rất đơn giản, hãy nhớ nó.

(Laughter)

Nhắc lại cho bản thân nghe 3 lần mỗi ngày.

(Cười)

And in fact, this is exactly the plot of "2001: [A Space Odyssey]" HAL has an objective, a mission, which is not aligned with the objectives of the humans, and that leads to this conflict. Now fortunately, HAL is not superintelligent. He's pretty smart, but eventually Dave outwits him and manages to switch him off. But we might not be so lucky. So what are we going to do?

Và thực ra, đây chính là nội dung trong phim "2001: [A Space Odyssey]" HAL có một mục tiêu, một nhiệm vụ, không trùng với mục tiêu của loài người, và nó dẫn tới sự mâu thuẫn này. Nhưng may mắn là Hal không phải một cỗ máy siêu trí tuệ. Nó khá thông minh, nhưng cuối cùng Dave đã khuất phục được và đã tắt nguồn nó thành công. Nhưng có thể chúng ta sẽ không may mắn như thế. [Xin lỗi Dave. Tôi e rằng tôi không thể làm điều đó được.] Vậy chúng ta sẽ phải làm gì?

I'm trying to redefine AI to get away from this classical notion of machines that intelligently pursue objectives. There are three principles involved. The first one is a principle of altruism, if you like, that the robot's only objective is to maximize the realization of human objectives, of human values. And by values here I don't mean touchy-feely, goody-goody values. I just mean whatever it is that the human would prefer their life to be like. And so this actually violates Asimov's law that the robot has to protect its own existence. It has no interest in preserving its existence whatsoever.

[AI hợp tác được với con người] Tôi đang cố định nghĩa lại về AI để thoát khỏi định nghĩa truyền thống là máy móc mà theo đuổi mục tiêu một cách thông minh. Nó bao gồm ba nguyên tắc. Thứ nhất, đó là nguyên tắc về lòng vị tha, nếu bạn thích, mục tiêu duy nhất của robot là hiện thực hóa tối đa mục tiêu của con người, các giá trị của con người. Và giá trị ở đây tôi muốn nói không phải sự nhạy cảm hay đạo đức giả. Ý tôi là bất kể thứ gì mà con người muốn cuộc sống của họ trở nên giống thế. Và thực ra thì điều này đã vi phạm luật của Asimov đó là robot phải tự bảo vệ sự tồn tại của nó. Nó không hứng thú duy trì sự tồn tại của mình bất kể thế nào.

The second law is a law of humility, if you like. And this turns out to be really important to make robots safe. It says that the robot does not know what those human values are, so it has to maximize them, but it doesn't know what they are. And that avoids this problem of single-minded pursuit of an objective. This uncertainty turns out to be crucial.

Luật thứ hai đó là luật về sự khiêm tốn, nếu bạn thích. Và điều này thật ra rất quan trọng để robot trở nên an toàn. Nó nói rằng robot không hề biết những giá trị của con người là gì, nên nó phải tối ưu hóa chúng, nhưng không biết chúng là gì. Do đó tránh khỏi rắc rối từ sự chuyên tâm theo đuổi mục đích. Sự không chắc chắn này hóa ra lại rất quan trọng.

Now, in order to be useful to us, it has to have some idea of what we want. It obtains that information primarily by observation of human choices, so our own choices reveal information about what it is that we prefer our lives to be like. So those are the three principles. Let's see how that applies to this question of: "Can you switch the machine off?" as Turing suggested.

Bây giờ, để trở nên có ích cho chúng ta, nó phải có một chút ý tưởng về thứ mà chúng ta muốn. Nó thu nhận các thông tin này chủ yếu bằng việc quan sát con người lựa chọn, vậy lựa chọn của chúng ta sẽ hé lộ thông tin về những thứ mà chúng ta muốn cuộc sống của mình trở nên như vậy. Vậy đó là ba nguyên tắc. Hãy xem ta áp dụng chúng vào câu hỏi này như thế nào: "Bạn có thể tắt nguồn chiếc máy không?" như Turing đã đưa ra.

So here's a PR2 robot.

[Vấn đề tắt nguồn]

This is one that we have in our lab, and it has a big red "off" switch right on the back. The question is: Is it going to let you switch it off? If we do it the classical way, we give it the objective of, "Fetch the coffee, I must fetch the coffee, I can't fetch the coffee if I'm dead," so obviously the PR2 has been listening to my talk, and so it says, therefore, "I must disable my 'off' switch, and probably taser all the other people in Starbucks who might interfere with me."

Đây là robot PR2. Một cái ở phòng nghiên cứu chúng tôi có, và nó có một nút "tắt" lớn đỏ ở sau lưng. Câu hỏi là: Nó có để cho bạn tắt nó đi không? Giả sử ta làm theo cách truyền thống, đưa cho nó mục tiêu là "Đi lấy cà phê", "Tôi phải đi lấy cà phê", "Tôi không thể lấy cà phê nếu tôi chết", vậy rõ ràng PR2 đã nghe bài nói của tôi, và do đó nó nói: "Tôi phải vô hiệu hóa nút "tắt" của mình, và có lẽ sốc điện tất cả những người trong Starbucks, những người có thể cản trở tôi."

(Laughter)

(Cười)

So this seems to be inevitable, right? This kind of failure mode seems to be inevitable, and it follows from having a concrete, definite objective.

Vậy điều này có vẻ không thể tránh khỏi, đúng không? Sự thất bại như thế này có vẻ không thể tránh được, và nó là kết quả của việc có một mục tiêu rõ ràng.

So what happens if the machine is uncertain about the objective? Well, it reasons in a different way. It says, "OK, the human might switch me off, but only if I'm doing something wrong. Well, I don't really know what wrong is, but I know that I don't want to do it." So that's the first and second principles right there. "So I should let the human switch me off." And in fact you can calculate the incentive that the robot has to allow the human to switch it off, and it's directly tied to the degree of uncertainty about the underlying objective.

Vậy sẽ thế nào nếu chiếc máy không chắc chắn với mục tiêu của mình? Nó sẽ lý luận theo một cách khác. Nó nghĩ: "Chà, con người có thể sẽ tắt mình mất, nhưng chỉ khi mình làm sai gì đó. Mình thực sự không biết thế nào là "sai", nhưng mình biết là mình không muốn làm điều đó." Và đây là lúc áp dụng luật thứ nhất và thứ hai. "Do đó mình nên để con người tắt mình đi." Và thực tế bạn có thể tính toán động lực mà robot phải để con người tắt nó, và nó liên kết trực tiếp với mức độ không chắc chắn về các mục tiêu tiềm ẩn.

And then when the machine is switched off, that third principle comes into play. It learns something about the objectives it should be pursuing, because it learns that what it did wasn't right. In fact, we can, with suitable use of Greek symbols, as mathematicians usually do, we can actually prove a theorem that says that such a robot is provably beneficial to the human. You are provably better off with a machine that's designed in this way than without it. So this is a very simple example, but this is the first step in what we're trying to do with human-compatible AI.

Và khi mà chiếc máy đã được tắt đi, thì đến lượt của luật thứ ba. Nó sẽ học được gì đó về mục tiêu mà nó cần theo đuổi, vì nó học được những việc mình đã làm là không đúng. Thực tế, nếu sử dụng các kí hiệu La Mã thích hợp, như các nhà toán học hay làm, chúng ta thực sự có thể chứng minh mệnh đề nói rằng robot này quả là có ích cho con người. Bạn có thể cải thiện tốt hơn với chiếc máy được thiết kế như thế này so với không có nó. Vậy đây là một ví dụ rất đơn giản, nhưng đó là bước đầu tiên trong việc chúng tôi cố gắng làm ra AI hòa hợp với con người.

Now, this third principle, I think is the one that you're probably scratching your head over. You're probably thinking, "Well, you know, I behave badly. I don't want my robot to behave like me. I sneak down in the middle of the night and take stuff from the fridge. I do this and that." There's all kinds of things you don't want the robot doing. But in fact, it doesn't quite work that way. Just because you behave badly doesn't mean the robot is going to copy your behavior. It's going to understand your motivations and maybe help you resist them, if appropriate. But it's still difficult. What we're trying to do, in fact, is to allow machines to predict for any person and for any possible life that they could live, and the lives of everybody else: Which would they prefer? And there are many, many difficulties involved in doing this; I don't expect that this is going to get solved very quickly. The real difficulties, in fact, are us.

Bây giờ, luật thứ ba này, tôi nghĩ nó là điều khiến bạn phải vò đầu bứt tai suốt. Có thể bạn đang nghĩ: "Chà, bạn biết đấy, tôi cư xử khá tệ. Tôi không muốn robot của mình cư xử giống tôi. Tôi mò mẫm vào giữa đêm và lén lút lấy đồ trong tủ lạnh. Tôi làm điều này, điều nọ." Có cả tá thứ mà bạn không muốn robot làm theo. Nhưng thực tế, nó không hoạt động như thế. Chỉ vì bạn cư xử tồi tệ không có nghĩa là robot sẽ bắt chước hành vi của bạn. Nó sẽ hiểu động lực của bạn và có thể giúp bạn chống lại chúng, nếu điều đó phù hợp. Nhưng thực ra vẫn khó. Điều chúng tôi đang cố gắng làm, thật ra, là giúp máy tính dự đoán cho mỗi người và cho mỗi cuộc sống mà họ có thể đã được sống, và cuộc sống của tất cả mọi người khác: Họ thích cuộc sống nào nhất? Và có rất rất nhiều khó khăn trong việc này. Tôi không hy vọng là chúng sẽ được giải quyết nhanh chóng. Khó khăn lớn nhất, thật ra, là chính chúng ta.

As I have already mentioned, we behave badly. In fact, some of us are downright nasty. Now the robot, as I said, doesn't have to copy the behavior. The robot does not have any objective of its own. It's purely altruistic. And it's not designed just to satisfy the desires of one person, the user, but in fact it has to respect the preferences of everybody. So it can deal with a certain amount of nastiness, and it can even understand that your nastiness, for example, you may take bribes as a passport official because you need to feed your family and send your kids to school. It can understand that; it doesn't mean it's going to steal. In fact, it'll just help you send your kids to school.

Như tôi đã đề cập, chúng ta cư xử khá tệ. Thực tế, một số chúng ta thực sự đã mục nát. Bây giờ robot, như tôi đã nói, không cần phải bắt chước các hành vi. Robot không có bất cứ mục tiêu nào cho riêng chúng. Chúng hoàn toàn rất vị tha. Và nó không được thiết kế để thỏa mãn ước muốn của chỉ một cá nhân, một người dùng, mà thực tế nó phải tôn trọng quan điểm của tất cả mọi người. Do đó nó có thể xử lý với một số hành vi xấu xa, và thậm chí có thể thông cảm với sự sai trái của bạn, ví dụ, có thể bạn nhận hối lộ khi làm công việc hộ chiếu vì bạn cần nuôi sống gia đình và cho con của bạn đi học. Chúng có thể hiểu điều này; nó không có nghĩa là chúng sẽ ăn cắp. Thực tế, nó chỉ giúp bạn giúp con bạn được đi học.

We are also computationally limited. Lee Sedol is a brilliant Go player, but he still lost. So if we look at his actions, he took an action that lost the game. That doesn't mean he wanted to lose. So to understand his behavior, we actually have to invert through a model of human cognition that includes our computational limitations -- a very complicated model. But it's still something that we can work on understanding.

Chúng ta cũng bị hạn chế về mặt tính toán. Lee Sedol là một thiên tài cờ vây, nhưng anh ấy vẫn thua. Nếu ta nhìn vào hành động của anh ấy, anh ấy chấp nhận đã thua ván cờ. Nó không có nghĩa là anh ấy muốn thua. Vậy để hiểu được hành vi của anh ấy, chúng ta phải quay ngược trở lại với mô hình nhận thức của con người mà bao gồm những hạn chế về tính toán của chúng ta. Và nó là một hệ thống rất phức tạp. Nhưng nó vẫn là thứ mà chúng ta có thể khám phá và hiểu nó.

Probably the most difficult part, from my point of view as an AI researcher, is the fact that there are lots of us, and so the machine has to somehow trade off, weigh up the preferences of many different people, and there are different ways to do that. Economists, sociologists, moral philosophers have understood that, and we are actively looking for collaboration.

Có lẽ phần khó khăn nhất, dưới góc nhìn là một nhà nghiên cứu AI, đó là số lượng của chúng ta quá nhiều, thế nên máy tính phải bằng một cách nào đó cân đong đo đếm các quan điểm của nhiều người khác nhau, và có rất nhiều cách để làm việc này. Các nhà kinh tế học, xã hội học, triết học đạo đức đã hiểu điều đó, và chúng tôi đang chủ động tìm kiếm các sự hợp tác.

Let's have a look and see what happens when you get that wrong. So you can have a conversation, for example, with your intelligent personal assistant that might be available in a few years' time. Think of a Siri on steroids. So Siri says, "Your wife called to remind you about dinner tonight." And of course, you've forgotten. "What? What dinner? What are you talking about?"

Hãy quan sát và xem điều gì sẽ xảy ra khi bạn hiểu sai nó. Ví dụ, bạn có thể có một cuộc đối thoại với trợ lý thông minh riêng của bạn điều có thể sẽ thành hiện thực trong vài năm tới. Bạn có thể nghĩ về Siri nhưng ngoài đời thực. Siri nói: "Vợ anh đã gọi để nhắc anh về buổi ăn tối ngày mai." Và đương nhiên, bạn đã quên. "Hả? Bữa tối nào? Cô đang nói về gì vậy?"

"Uh, your 20th anniversary at 7pm."

"..., kỉ niệm 20 năm ngày cưới, lúc 7 giờ tối."

"I can't do that. I'm meeting with the secretary-general at 7:30. How could this have happened?"

"Tôi không thể. Tôi có cuộc gặp với tổng thư ký lúc 7h30. Sao..., sao chuyện này có thể xảy ra chứ?"

"Well, I did warn you, but you overrode my recommendation."

"Chà, tôi đã cảnh báo anh nhưng anh đã lờ đi lời khuyên của tôi."

"Well, what am I going to do? I can't just tell him I'm too busy."

"Tôi phải làm gì bây giờ? Tôi không thể nói cô ấy là tôi quá bận."

"Don't worry. I arranged for his plane to be delayed."

"Đừng lo lắng. Tôi sẽ sắp xếp để chuyến bay của anh ấy bị hoãn lại."

(Laughter)

(Cười)

"Some kind of computer malfunction."

"Bằng một lỗi trục trặc kĩ thuật nào đó."

(Laughter)

(Cười)

"Really? You can do that?"

"Thật ư? Cô có thể làm thế à?"

"He sends his profound apologies and looks forward to meeting you for lunch tomorrow."

"Anh ấy đã gửi thư xin lỗi và mong sẽ được gặp anh ở bữa trưa ngày mai."

(Laughter)

(Cười)

So the values here -- there's a slight mistake going on. This is clearly following my wife's values which is "Happy wife, happy life."

Vậy giá trị ở đây -- có một chút sai lầm đã xảy ra. Nó hoàn toàn theo đuổi giá trị của vợ tôi đó là "Vợ vui thì đời cũng vui."

(Laughter)

(Cười)

It could go the other way. You could come home after a hard day's work, and the computer says, "Long day?"

Nó có thể diễn ra theo một hướng khác. Bạn vừa trở về nhà sau một ngày làm việc vất vả, và máy tính hỏi: "Một ngày dài à?"

"Yes, I didn't even have time for lunch."

"Ừ, tôi còn chẳng có thời gian để ăn trưa."

"You must be very hungry."

"Chắc anh phải đói lắm rồi."

"Starving, yeah. Could you make some dinner?"

"Ừ, đói muốn chết. Bạn có thể làm bữa tối cho tôi không?"

"There's something I need to tell you."

"Có điều này tôi phải nói với anh."

(Laughter)

(Cười)

"There are humans in South Sudan who are in more urgent need than you."

"Những người ở Nam Sudan đang cần sự trợ giúp khẩn cấp hơn anh nhiều."

(Laughter)

(Cười)

"So I'm leaving. Make your own dinner."

"Nên tôi đi đây. Tự làm bữa tối của anh đi."

(Laughter)

(Cười)

So we have to solve these problems, and I'm looking forward to working on them.

Vậy chúng ta phải xử lý những vấn đề như thế này, và tôi rất nóng lòng được làm việc với chúng.

There are reasons for optimism. One reason is, there is a massive amount of data. Because remember -- I said they're going to read everything the human race has ever written. Most of what we write about is human beings doing things and other people getting upset about it. So there's a massive amount of data to learn from.

Có những lý do để mà lạc quan. Một lý do là, có một lượng khổng lồ dữ liệu ngoài kia. Bởi vì như tôi đã nói, chúng sẽ đọc hết tất cả mọi thứ trên đời. Hầu hết những gì chúng ta viết là về những việc làm của nhân loại và sau đó những người khác cảm thấy phiền lòng về nó. Do đó có một lượng khổng lồ dữ liệu để học tập.

There's also a very strong economic incentive to get this right. So imagine your domestic robot's at home. You're late from work again and the robot has to feed the kids, and the kids are hungry and there's nothing in the fridge. And the robot sees the cat.

Đồng thời có một động lực kinh tế rất lớn để làm đúng việc này. Hãy tưởng tượng robot gia đình ở nhà bạn. Bạn lại đi làm về trễ và robot phải nấu ăn cho bọn trẻ, bọn trẻ thì đang đói và không còn thứ gì trong tủ lạnh. Và robot nhìn thấy con mèo.

(Laughter)

(Cười)

And the robot hasn't quite learned the human value function properly, so it doesn't understand the sentimental value of the cat outweighs the nutritional value of the cat.

Và robot này chưa được học hoàn toàn về các giá trị của con người, nên nó không thể hiểu được rằng các giá trị tình cảm của con mèo lớn hơn hẳn giá trị dinh dưỡng của nó.

(Laughter)

(Cười)

So then what happens? Well, it happens like this: "Deranged robot cooks kitty for family dinner." That one incident would be the end of the domestic robot industry. So there's a huge incentive to get this right long before we reach superintelligent machines.

Vậy sau đó chuyện gì xảy ra? Chà, nó xảy ra như thế này: "Một robot điên loạn nấu mèo con cho bữa tối của gia đình." Một sự cố như thế có thể sẽ chấm dứt ngành robot gia đình. Do đó có một động lực rất lớn để làm việc này đúng trong thời gian dài trước khi chúng ta đạt tới máy móc siêu thông minh.

So to summarize: I'm actually trying to change the definition of AI so that we have provably beneficial machines. And the principles are: machines that are altruistic, that want to achieve only our objectives, but that are uncertain about what those objectives are, and will watch all of us to learn more about what it is that we really want. And hopefully in the process, we will learn to be better people. Thank you very much.

Vậy để tổng kết lại: Tôi thực ra đang cố thay đổi định nghĩa về AI để chúng ta có những máy móc được chứng minh là có hiệu quả. Và những nguyên tắc là: những chiếc máy hoàn toàn vị tha, chỉ muốn đạt được mục đích của chúng ta, nhưng chúng không chắc chắn những mục tiêu này là gì, và sẽ theo dõi tất cả chúng ta để hiểu thêm về những gì chúng ta thực sự muốn. Và mong rằng trong quá trình đó, ta cũng học hỏi để trở nên tốt đẹp hơn. Cảm ơn rất nhiều.

(Applause)

(Vỗ tay)

Chris Anderson: So interesting, Stuart. We're going to stand here a bit because I think they're setting up for our next speaker.

Chris Anderson: Rất thú vị, Stuart. Chúng ta sẽ đứng đây thêm chút nữa vì tôi nghĩ họ đang chuẩn bị cho diễn giả tiếp theo.

A couple of questions. So the idea of programming in ignorance seems intuitively really powerful. As you get to superintelligence, what's going to stop a robot reading literature and discovering this idea that knowledge is actually better than ignorance and still just shifting its own goals and rewriting that programming?

Đây là một số câu hỏi. Vậy ý tưởng lập trình với sự thiếu hụt thông tin có vẻ như rất mạnh mẽ. Nhưng khi ta có siêu trí tuệ, điều gì sẽ ngăn cản robot đọc những quyển sách và phát hiện ra ý tưởng là có kiến thức thực ra tốt hơn là bị thiếu hụt và có thể chuyển hướng mục tiêu của chúng sau đó viết lại các chương trình?

Stuart Russell: Yes, so we want it to learn more, as I said, about our objectives. It'll only become more certain as it becomes more correct, so the evidence is there and it's going to be designed to interpret it correctly. It will understand, for example, that books are very biased in the evidence they contain. They only talk about kings and princes and elite white male people doing stuff. So it's a complicated problem, but as it learns more about our objectives it will become more and more useful to us.

Stuart Rusell: Vâng, chúng ta muốn nó học hỏi nhiều hơn, như tôi đã nói, về mục tiêu của chúng ta. Nó sẽ chỉ trở nên chắc chắn hơn khi nó làm đúng nhiều hơn, vậy đó sẽ là những bằng chứng và chúng sẽ được thiết kế để diễn dịch đúng đắn điều này. Nó sẽ hiểu được, ví dụ như những quyển sách rất thiên vị về những đề tài mà chúng chứa. Chúng chỉ nói về các vị vua và hoàng tử và các đàn ông quý tộc da trắng làm gì đó. Nên đó là một vấn đề phức tạp, nhưng khi nó học hỏi nhiều hơn về mục tiêu của chúng ta, nó sẽ chở nên càng ngày càng có ích cho chúng ta.

CA: And you couldn't just boil it down to one law, you know, hardwired in: "if any human ever tries to switch me off, I comply. I comply."

CA: Và anh đã không thể rút gọn lại trong một luật, như là bó buộc nó lại: "Nếu loài người đã cố để tắt nguồn tôi, tôi sẽ tuân lệnh thôi."

SR: Absolutely not. That would be a terrible idea. So imagine that you have a self-driving car and you want to send your five-year-old off to preschool. Do you want your five-year-old to be able to switch off the car while it's driving along? Probably not. So it needs to understand how rational and sensible the person is. The more rational the person, the more willing you are to be switched off. If the person is completely random or even malicious, then you're less willing to be switched off.

SR: Thực sự thì không. Đó sẽ là một ý tưởng tồi tệ. Hãy tưởng tượng anh có một chiếc xe tự lái và anh muốn gửi đứa con 5 tuổi tới trường mẫu giáo. Anh có muốn đứa con 5 tuổi có thể tắt chiếc xe khi nó đang chạy không? Chắc là không đâu. Do đó nó cần hiểu được mức độ nhận thức của người đó. Nhận thức người đó càng cao, khả năng máy tính tự nguyện bị tắt càng cao. Nếu người đó hoàn toàn lạ mặt hay thậm chí là kẻ xấu, thì máy tính sẽ khó để bị tắt hơn.

CA: All right. Stuart, can I just say, I really, really hope you figure this out for us. Thank you so much for that talk. That was amazing.

CA: Được thôi, Stuart, tôi rất mong anh sẽ giải quyết vấn đề này cho chúng ta. Cảm ơn rất nhiều vì cuộc nói chuyện. Nó rất tuyệt vời.

SR: Thank you.

SR: Cảm ơn.

(Applause)

(Vỗ tay)

This is Lee Sedol. Lee Sedol is one of the world's greatest Go players, and he's having what my friends in Silicon Valley call a "Holy Cow" moment --

(Laughter)

(Cười)

a moment where we realize that AI is actually progressing a lot faster than we expected. So humans have lost on the Go board. What about the real world?

(Laughter)

(Cười)

So we actually need to nail down the problem a bit more. What exactly is the problem? Why is better AI possibly a catastrophe?

Chúng ta cần phải cụ thể hóa vấn đề hơn một chút. Chính xác thì đâu mới là vấn đề? Vì sao AI tốt hơn lại có thể đem lại nhiều tai họa?

(Laughter)

(Cười)

It's very simple. Just remember that. Repeat it to yourself three times a day.

Nó rất đơn giản, hãy nhớ nó.

(Laughter)

Nhắc lại cho bản thân nghe 3 lần mỗi ngày.

(Cười)

So here's a PR2 robot.

[Vấn đề tắt nguồn]

(Laughter)

(Cười)

So this seems to be inevitable, right? This kind of failure mode seems to be inevitable, and it follows from having a concrete, definite objective.

"Uh, your 20th anniversary at 7pm."

"..., kỉ niệm 20 năm ngày cưới, lúc 7 giờ tối."

"I can't do that. I'm meeting with the secretary-general at 7:30. How could this have happened?"

"Tôi không thể. Tôi có cuộc gặp với tổng thư ký lúc 7h30. Sao..., sao chuyện này có thể xảy ra chứ?"

"Well, I did warn you, but you overrode my recommendation."

"Chà, tôi đã cảnh báo anh nhưng anh đã lờ đi lời khuyên của tôi."

"Well, what am I going to do? I can't just tell him I'm too busy."

"Tôi phải làm gì bây giờ? Tôi không thể nói cô ấy là tôi quá bận."

"Don't worry. I arranged for his plane to be delayed."

"Đừng lo lắng. Tôi sẽ sắp xếp để chuyến bay của anh ấy bị hoãn lại."

(Laughter)

(Cười)

"Some kind of computer malfunction."

"Bằng một lỗi trục trặc kĩ thuật nào đó."

(Laughter)

(Cười)

"Really? You can do that?"

"Thật ư? Cô có thể làm thế à?"

"He sends his profound apologies and looks forward to meeting you for lunch tomorrow."

"Anh ấy đã gửi thư xin lỗi và mong sẽ được gặp anh ở bữa trưa ngày mai."

(Laughter)

(Cười)

So the values here -- there's a slight mistake going on. This is clearly following my wife's values which is "Happy wife, happy life."

Vậy giá trị ở đây -- có một chút sai lầm đã xảy ra. Nó hoàn toàn theo đuổi giá trị của vợ tôi đó là "Vợ vui thì đời cũng vui."

(Laughter)

(Cười)

It could go the other way. You could come home after a hard day's work, and the computer says, "Long day?"

Nó có thể diễn ra theo một hướng khác. Bạn vừa trở về nhà sau một ngày làm việc vất vả, và máy tính hỏi: "Một ngày dài à?"

"Yes, I didn't even have time for lunch."

"Ừ, tôi còn chẳng có thời gian để ăn trưa."

"You must be very hungry."

"Chắc anh phải đói lắm rồi."

"Starving, yeah. Could you make some dinner?"

"Ừ, đói muốn chết. Bạn có thể làm bữa tối cho tôi không?"

"There's something I need to tell you."

"Có điều này tôi phải nói với anh."

(Laughter)

(Cười)

"There are humans in South Sudan who are in more urgent need than you."

"Những người ở Nam Sudan đang cần sự trợ giúp khẩn cấp hơn anh nhiều."

(Laughter)

(Cười)

"So I'm leaving. Make your own dinner."

"Nên tôi đi đây. Tự làm bữa tối của anh đi."

(Laughter)

(Cười)

So we have to solve these problems, and I'm looking forward to working on them.

Vậy chúng ta phải xử lý những vấn đề như thế này, và tôi rất nóng lòng được làm việc với chúng.

(Laughter)

(Cười)

And the robot hasn't quite learned the human value function properly, so it doesn't understand the sentimental value of the cat outweighs the nutritional value of the cat.

(Laughter)

(Cười)

(Applause)

(Vỗ tay)

Chris Anderson: So interesting, Stuart. We're going to stand here a bit because I think they're setting up for our next speaker.

Chris Anderson: Rất thú vị, Stuart. Chúng ta sẽ đứng đây thêm chút nữa vì tôi nghĩ họ đang chuẩn bị cho diễn giả tiếp theo.

CA: And you couldn't just boil it down to one law, you know, hardwired in: "if any human ever tries to switch me off, I comply. I comply."

CA: Và anh đã không thể rút gọn lại trong một luật, như là bó buộc nó lại: "Nếu loài người đã cố để tắt nguồn tôi, tôi sẽ tuân lệnh thôi."

CA: All right. Stuart, can I just say, I really, really hope you figure this out for us. Thank you so much for that talk. That was amazing.

CA: Được thôi, Stuart, tôi rất mong anh sẽ giải quyết vấn đề này cho chúng ta. Cảm ơn rất nhiều vì cuộc nói chuyện. Nó rất tuyệt vời.

SR: Thank you.

SR: Cảm ơn.

(Applause)

(Vỗ tay)

Stuart Russell: 3 principles for creating safer AI

Stuart Russell: 3 principles for creating safer AI

Related talks

Blaise Agüera y Arcas: How computers are learning to be creative

Sam Harris: Can we build AI without losing control over it?

Zeynep Tufekci: Machine intelligence makes human morals more important

Noriko Arai: Can a robot pass a university entrance exam?

David Lee: Why jobs of the future won't feel like work

Kriti Sharma: How to keep human bias out of AI

Related talks

Blaise Agüera y Arcas: How computers are learning to be creative

Sam Harris: Can we build AI without losing control over it?

Zeynep Tufekci: Machine intelligence makes human morals more important

Noriko Arai: Can a robot pass a university entrance exam?

David Lee: Why jobs of the future won't feel like work

Kriti Sharma: How to keep human bias out of AI