Since 2001, I have been working on what we would now call the problem of aligning artificial general intelligence: how to shape the preferences and behavior of a powerful artificial mind such that it does not kill everyone.
Kể từ năm 2001, tôi đã bắt đầu làm về mảng mà hiện tại ta hay gọi là vấn đề đồng thuận trí tuệ nhân tạo tổng quát (AGI): cách định hình ý muốn và hành vi của 1 bộ óc nhân tạo tối tân và phải chắc là nó sẽ không giết bất cứ ai.
I more or less founded the field two decades ago, when nobody else considered it rewarding enough to work on. I tried to get this very important project started early so we'd be in less of a drastic rush later. I consider myself to have failed.
Tôi gần như là người tiên phong trong lĩnh vực này vào 2 thập kỉ trước, khi đó chẳng ai dám nghĩ lĩnh vực này sẽ có kết quả. Tôi đã cố gắng bắt đầu dự án quan trọng này thật sớm nhằm tránh những sự lỡ làng có thể phát sinh về sau. Tôi nhận ra mình đã thất bại.
(Laughter)
(Cười)
Nobody understands how modern AI systems do what they do. They are giant, inscrutable matrices of floating point numbers that we nudge in the direction of better performance until they inexplicably start working. At some point, the companies rushing headlong to scale AI will cough out something that's smarter than humanity. Nobody knows how to calculate when that will happen. My wild guess is that it will happen after zero to two more breakthroughs the size of transformers.
Không ai hiểu làm thế nào mà những con AI đời mới lại khủng đến vậy. Chúng là các ma trận khổng lồ, khó hiểu, gồm các số thực nổi mà con người sắp xếp lại nhằm cải thiện hiệu suất cho đến khi chúng vận hành trơn tru. Đến 1 thời điểm, những cty sẽ chạy đua để nâng cấp AI đạt đến mức chúng có thể thông minh hơn cả con người. Chẳng ai biết sẽ làm gì khi điều đó xảy đến cả. Theo như tôi đoán điều này sẽ xảy ra sau 2 hoặc nhiều bước tiến đột phá nữa với sự chuyển đổi quy mô lớn.
What happens if we build something smarter than us that we understand that poorly? Some people find it obvious that building something smarter than us that we don't understand might go badly. Others come in with a very wide range of hopeful thoughts about how it might possibly go well.
Điều gì xảy ra khi ta tạo ra 1 thứ thông minh hơn mình trong khi lại thiếu kiến thức về nó? Vài người chắc nịch rằng việc tạo ra 1 thứ thông minh hơn con người mà ta không biết rõ sẽ dẫn đến 1 kết cục tồi tệ. Vài người khác thì cởi mở hơn khi đưa ra khá nhiều sự kì vọng về những điều tốt đẹp mà nó có thể mang lại.
Even if I had 20 minutes for this talk and months to prepare it, I would not be able to refute all the ways people find to imagine that things might go well. But I will say that there is no standard scientific consensus for how things will go well. There is no hope that has been widely persuasive and stood up to skeptical examination. There is nothing resembling a real engineering plan for us surviving that I could critique. This is not a good place in which to find ourselves.
Kể cả khi tôi có 20 phút để trình bày ở đây và cả tháng để chuẩn bị, thì tôi cũng khó mà bác bỏ những gì mà mọi người đang hình dung rằng nó sẽ tốt đẹp. Nhưng tôi nói luôn là không có tiêu chuẩn khoa học nào đồng thuận về việc mọi thứ sẽ tốt đẹp cả. Không có hy vọng là cụm từ mà ai cũng sẽ nghĩ về bên cạnh đó còn là các cuộc kiểm định đầy hoài nghi. Không có bất kì cái gì như là kế hoạch sinh tồn thực tiễn để tôi có thể dùng để phản biện. Đây không phải là nơi để ta tìm thấy sự đồng thuận đâu.
If I had more time, I'd try to tell you about the predictable reasons why the current paradigm will not work to build a superintelligence that likes you or is friends with you, or that just follows orders. Why, if you press "thumbs up" when humans think that things went right or "thumbs down" when another AI system thinks that they went wrong, you do not get a mind that wants nice things in a way that generalizes well outside the training distribution to where the AI is smarter than the trainers. You can search for "Yudkowsky list of lethalities" for more.
Nếu tôi có thời gian, Tôi sẽ kể mọi người nghe về vài phỏng đoán của tôi vì sao mô hình hiện tại sẽ không hoạt động để tạo ra những cỗ máy thông minh y hệt các bạn hay y hệt bạn của bạn, hoặc cũng có thể là y hệt tất cả. Vì sao vậy, nếu bạn bấm “thích” thì có nghĩa bạn đang nghĩ AI đã làm đúng còn bấm “ghét” tức là bạn nghĩ AI đó đã làm sai, Bạn không có 1 tư duy đủ tốt để mong cầu những điều tốt đẹp kể từ lúc mà dữ liệu được tổng hợp thậm chí vượt ngoài tầm huấn luyện đến mức mà AI thông minh hơn cả người huấn luyện nó. Bạn có thể xem “Yudkowsky- danh sách tử vong” để biết thêm.
(Laughter)
(Cười)
But to worry, you do not need to believe me about exact predictions of exact disasters. You just need to expect that things are not going to work great on the first really serious, really critical try because an AI system smart enough to be truly dangerous was meaningfully different from AI systems stupider than that. My prediction is that this ends up with us facing down something smarter than us that does not want what we want, that does not want anything we recognize as valuable or meaningful.
Nhưng đừng lo, các bạn không cần tin tôi đâu nhất là các tiên đoán chính xác về các thảm họa cụ thể. Các bạn chỉ cần mong là mọi thứ sẽ không hoạt động trơn tru trong lần thử nghiệm nghiêm túc, trọng yếu đầu tiên bỏi 1 hệ thống AI đủ thông minh để trở thành 1 mối đe dọa có ý nghĩa hoàn toàn khác với mấy con AI ngờ nghệch khác. Theo tôi phỏng đoán thì ta sẽ phải đối đầu với 1 thứ thông minh hơn ta nhiều đấy chúng không cùng tư tưởng với ta, chúng không quan tâm tới những thứ mà đối với ta là vô giá và đầy ý nghĩa.
I cannot predict exactly how a conflict between humanity and a smarter AI would go for the same reason I can't predict exactly how you would lose a chess game to one of the current top AI chess programs, let's say Stockfish. If I could predict exactly where Stockfish could move, I could play chess that well myself. I can't predict exactly how you'll lose to Stockfish, but I can predict who wins the game. I do not expect something actually smart to attack us with marching robot armies with glowing red eyes where there could be a fun movie about us fighting them. I expect an actually smarter and uncaring entity will figure out strategies and technologies that can kill us quickly and reliably and then kill us.
Tôi không phỏng đoán được xung đột giữa người và AI sẽ đi tới đâu tương tự vậy, tôi cũng không thể đoán được cách mà bạn thua 1 ván cờ là như nào nói tới AI chơi cờ đỉnh nhất hiện nay, phải nói tới Stockfish. Nếu tôi có thể đoán được chính xác mọi nước đi của Stockfish, tôi hoàn toàn có thể chơi đỉnh như nó. Tôi không thể dự đoán chính xác cách bạn thua Stockfish, nhưng tôi có thể dự đoán xem ai thắng. Tôi không chấp nhận 1 thứ thông minh đến mức tấn công ta bằng đội quân robot hùng hậu cùng đôi mắt đỏ chói có lẽ sẽ có 1 bộ phim khá thú vị về việc chúng tấn công ta đấy. Tôi mong là sẽ có 1 thực thể thông minh nào đấy sẽ phân tích các chiến thuật và công nghệ của ta rồi nhanh chóng giết chết ta cả về niềm tin lẫn thể xác.
I am not saying that the problem of aligning superintelligence is unsolvable in principle. I expect we could figure it out with unlimited time and unlimited retries, which the usual process of science assumes that we have. The problem here is the part where we don't get to say, “Ha ha, whoops, that sure didn’t work. That clever idea that used to work on earlier systems sure broke down when the AI got smarter, smarter than us.” We do not get to learn from our mistakes and try again because everyone is already dead.
Tôi không nói vấn đề sắp xếp siêu trí tuệ nhân tạo về lí thuyết là không thể giải quyết. Tôi mong ta có thể phát hiện ra với quỹ thời gian và những lần thử nghiệm không giới hạn, cùng quy trình thông thường của khoa học giả định mà chúng ta có. Vấn đề ở đây nằm ở phần mà ta chưa đề cập tới, “Ha ha, coi kìa, nó không hiệu quả. Những ý tưởng thông minh từng vận hành bằng các hệ thống cũ chắc chắc sẽ lỗi thời khi AI dần thông thái, trí tuệ hơn ta.” Ta không cần phải học từ thất bại rồi đứng lên bởi còn ai sống đâu mà đứng.
It is a large ask to get an unprecedented scientific and engineering challenge correct on the first critical try. Humanity is not approaching this issue with remotely the level of seriousness that would be required. Some of the people leading these efforts have spent the last decade not denying that creating a superintelligence might kill everyone, but joking about it.
Đó quả là một câu hỏi lớn khiến khoa học ngỡ nghàng và thách thức cả giới kĩ thuật chính xác ngay từ lần thử đầu tiên. Nhân loại sẽ không tiếp cận vấn đề này 1 cách hờ hửng sự căng thẳng nhất định là điều cần thiết. Vài người tiên phong đi theo giả thuyết này đã dành cả thập kỉ để khẳng định rằng việc tạo ra trí tuệ nhân tạo có thể hủy diệt nhân loại, đấy không phải để đùa.
We are very far behind. This is not a gap we can overcome in six months, given a six-month moratorium. If we actually try to do this in real life, we are all going to die.
Ta bị bỏ lại rất xa. Một khoảng cách mà ta khó thể rút ngắn trong 6 tháng, 6 tháng đình chỉ. Nếu ta thật sự làm điều đó ngoài đời, Tất cả chúng ta sẽ chết.
People say to me at this point, what's your ask? I do not have any realistic plan, which is why I spent the last two decades trying and failing to end up anywhere but here. My best bad take is that we need an international coalition banning large AI training runs, including extreme and extraordinary measures to have that ban be actually and universally effective, like tracking all GPU sales, monitoring all the data centers, being willing to risk a shooting conflict between nations in order to destroy an unmonitored data center in a non-signatory country.
Mọi người hỏi tôi vào lúc đó, anh muốn gì? Tôi không có kế hoạch thực tiễn, đó là lí do tôi đã dành 2 thập kỉ qua cố gắng rồi gục ngã chỉ để đứng ở đây. Tôi có 1 hạ sách đó là ta nên lập 1 liên minh quốc tế để cấm luôn việc huấn luyện AI quy mô lớn, bao gồm cả những biện pháp cực đoan và phi lí nhất để mở rộng quy mô lệnh cấm và tăng hiệu quả, như định vị tất cả GPU bán ra, giám sát tất cả các trung tâm dữ liệu, sẵn sàng gánh chịu nguy cơ vũ trang giữa các quốc gia nhằm phá hủy luôn các trung tâm dữ liệu ngoài kiểm soát tại các quốc gia không quy phục.
I say this, not expecting that to actually happen. I say this expecting that we all just die. But it is not my place to just decide on my own that humanity will choose to die, to the point of not bothering to warn anyone. I have heard that people outside the tech industry are getting this point faster than people inside it. Maybe humanity wakes up one morning and decides to live.
Tôi nói vậy, không có nghĩa là tôi mong nó xảy ra. Tôi nói vậy bởi ta đều phải chết. Nhưng tôi cũng không có lựa chọn nào khác cả bởi nhân loại sẽ chọn cái chết, đó là lúc mà chả ai buồn cảnh bảo lẫn nhau nữa. Tôi nghe nói những người không làm ở mảng công nghệ sẽ nhìn nhận vấn đề nhanh hơn người trong nghành. Biết đâu nhân loại bỗng tỉnh dậy vào 1 buổi sáng nọ và quyết định sẽ sống.
Thank you for coming to my brief TED talk.
Cám ơn vì đã tham dự buổi TED của tôi.
(Laughter)
(Cười)
(Applause and cheers)
(Vỗ tay và cổ vũ)
Chris Anderson: So, Eliezer, thank you for coming and giving that. It seems like what you're raising the alarm about is that like, for this to happen, for an AI to basically destroy humanity, it has to break out, escape controls of the internet and, you know, start commanding actual real-world resources. You say you can't predict how that will happen, but just paint one or two possibilities.
Chris Anderson: Eliezer, cám ơn vì đã đến và nói về chủ đề này. Có vẻ việc anh đưa ra những cảnh báo vậy cứ như thể, để điều này xảy ra, để AI về cơ bản có thể hủy diệt nhân loại. Nó buộc phải vượt qua, thoát khỏi kiểm soát của internet và, bạn biết mà, bắt đầu nhăm nhe những nguồn tài nguyên thực. Anh nói anh không thể dự đoán điều gì sẽ xảy ra, nhưng cứ vẽ ra 1 hay 2 viễn cảnh xem.
Eliezer Yudkowsky: OK, so why is this hard? First, because you can't predict exactly where a smarter chess program will move. Maybe even more importantly than that, imagine sending the design for an air conditioner back to the 11th century. Even if they -- if it’s enough detail for them to build it, they will be surprised when cold air comes out because the air conditioner will use the temperature-pressure relation and they don't know about that law of nature. So if you want me to sketch what a superintelligence might do, I can go deeper and deeper into places where we think there are predictable technological advancements that we haven't figured out yet. And as I go deeper, it will get harder and harder to follow.
Elizer Yudkowsky: Ok, nó khó chỗ nào đây? Thứ nhất, vì bạn không thể dự đoán nước cờ tiếp theo được lập trình như nào. Thậm chí có điều còn quan trọng hơn, thử tưởng tượng bạn gửi mẫu thiết kế của 1 cái máy điều hòa trở về thế kỉ 11. Ngay cả khi -- họ có đủ bản thảo chi tiết để tạo ra nó, họ vẫn sẽ bị ngạc nhiên khi thấy khí lạnh tuôn ra bởi máy điều hòa sẽ sử dụng tương quan nhiệt độ và áp suất và họ không hề biết về cái quy luật tự nhiên đó. Nên là nếu anh muốn tôi phác thảo cái mà siêu trí tuệ nhân tạo có thể làm, Tôi có thể nói chi tiết đến từng đường tơ kẽ chỉ tới độ ta thấy có mấy công nghệ dự đoán tối tân mà ta thậm chưa hề hình dung qua, Và khi tôi càng đi sâu, vấn đề sẽ càng khó tiếp thu
It could be super persuasive. That's relatively easy to understand. We do not understand exactly how the brain works, so it's a great place to exploit laws of nature that we do not know about. Rules of the environment, invent new technologies beyond that. Can you build a synthetic virus that gives humans a cold and then a bit of neurological change and they're easier to persuade? Can you build your own synthetic biology, synthetic cyborgs? Can you blow straight past that to covalently bonded equivalents of biology, where instead of proteins that fold up and are held together by static cling, you've got things that go down much sharper potential energy gradients and are bonded together? People have done advanced design work about this sort of thing for artificial red blood cells that could hold 100 times as much oxygen if they were using tiny sapphire vessels to store the oxygen. There's lots and lots of room above biology, but it gets harder and harder to understand.
Nó có thể cực kì thuyết phục. Điều này cũng tương đối dễ hiểu, Ta không hề biết chính xác cách mà bộ não vận hành, nên nó là 1 nơi tuyệt vời để ta khai thác quy luật tự nhiên mà ta chưa biết. Quy luật của môi trường, tạo ra những công nghệ mới ngoài phạm trù đó. Bạn có thể tạo ra một loại virus tổng hợp khiến con người cảm lạnh cùng 1 chút thay đổi về hệ thần kinh để thuyết phục họ dễ dàng hơn? Liệu bạn có thể tự tạo ra một thứ sinh học tổng hợp, người máy sinh học tổng hợp ấy? Liệu bạn có thể thông quá nó để xáo trộn những dạng cộng hưởng sinh học tương đương, mà ở đó thay vì các protein gập lại và được hợp nhất bằng sự kết hợp tĩnh điện, bạn lại có những thứ lao thẳng xuống độ dốc năng lượng tiềm năng và được liên kết với nhau? Con người đã có nhiều thiết kế tân tiến liên quan tới cái này nhằm tạo ra các tế bào hồng cầu có thể chứa lượng khí oxy nhiều gấp 100 lần nếu họ sử dụng các bình đựng nhỏ bằng sa phia để lưu trữ khí oxy. Có rất, rất nhiều thứ còn hơn cả sinh học, nhưng nó cứ càng ngày càng khó hiểu
CA: So what I hear you saying is that these terrifying possibilities there but your real guess is that AIs will work out something more devious than that. Is that really a likely pathway in your mind?
CA: Mấy điều tôi nghe nãy giờ đó là những viễn cảnh hết sức kinh khủng nhưng theo dự đoán của anh thì các AI có thể nghĩ ra những thứ còn gian xảo hơn. liệu đó có phải là viễn cảnh mà anh đang đau đầu?
EY: Which part? That they're smarter than I am? Absolutely.
EY: Gì cơ? Chỗ mà chúng khôn hơn tôi ấy à? dĩ nhiên.
CA: Not that they're smarter, but why would they want to go in that direction? Like, AIs don't have our feelings of sort of envy and jealousy and anger and so forth. So why might they go in that direction?
CA: Không phải khôn hơn, mà là tại sao chúng muốn đi theo hướng đó? Kiểu như, lũ AI đâu có những cảm xúc như hận thù, ghen ghét hay nổi giận đâu và còn nhiều cái nữa. Vậy tại sao chúng lại chọn hướng đi đó
EY: Because it's convergently implied by almost any of the strange, inscrutable things that they might end up wanting as a result of gradient descent on these "thumbs up" and "thumbs down" things internally. If all you want is to make tiny little molecular squiggles or that's like, one component of what you want, but it's a component that never saturates, you just want more and more of it, the same way that we would want more and more galaxies filled with life and people living happily ever after. Anything that just keeps going, you just want to use more and more material for that, that could kill everyone on Earth as a side effect. It could kill us because it doesn't want us making other superintelligences to compete with it. It could kill us because it's using up all the chemical energy on earth and we contain some chemical potential energy.
EY: bởi chúng sẽ suy diễn sau khi phát hiện các tình huống bất thường, những thứ khó lí giải khiến chúng bỗng có tham vọng như là hậu quả bởi thuật toán suy giảm độ dốc của mấy cái nút “thích” và “ghét” được tích hợp. Nếu bạn muốn tạo ra các phân tử nhỏ ngoằn ngèo hay cũng có thể, là một thành phần mà bạn muốn nhưng đó là 1 thành phần không bao giờ bảo hòa, bạn cứ thế muốn nhiều hơn, tương tự cái cách mà ta muốn có thêm vài thiên hà nữa có sự sống và con người sống vui vẻ hạnh phúc. Mọi thứ cứ thế tiếp diễn. bạn càng ngày càng muốn nhiều nguyên liệu hơn cho nó, hiệu ứng phụ của nó là người trên Trái Đất bị giết hết. Nó giết ta bởi nó không hề muốn ta tạo thêm những trí tuệ nhân tạo khác nhằm đối đầu với nó. Nó giết ta bởi nó đang tận dụng toàn bộ lượng hóa chất trên Trái Đất mà ta thì lại trữ kha khá lượng hóa chất mà nó cần.
CA: So some people in the AI world worry that your views are strong enough and they would say extreme enough that you're willing to advocate extreme responses to it. And therefore, they worry that you could be, you know, in one sense, a very destructive figure. Do you draw the line yourself in terms of the measures that we should take to stop this happening? Or is actually anything justifiable to stop the scenarios you're talking about happening?
CA: Vài người trong giới AI lo là nhận định của anh đủ mạnh khiến họ phải nói thôi đủ rồi rằng anh sẵn sàng dùng những biện pháp cực đoan để đáp trả. Và vì thế, họ lo là anh có thể, anh biết đó, ở khía cạnh nào đó, là 1 kẻ phá hoại. Anh có vẽ nên làn ranh nào bên cạnh những đo lường mà ta cần thực hiện để ngăn điều này xảy ra không? Hoặc bất cứ điều gì đủ hợp lí để chấm dứt cái viễn cảnh mà anh nói sẽ xảy ra không?
EY: I don't think that "anything" works. I think that this takes state actors and international agreements and all international agreements by their nature, tend to ultimately be backed by force on the signatory countries and on the non-signatory countries, which is a more extreme measure. I have not proposed that individuals run out and use violence, and I think that the killer argument for that is that it would not work.
EY: Tôi không nghĩ là có “điều gì” đủ hiệu quả. Tôi nghĩ là sẽ cần tới những nhà hoạt động liên bang và thỏa hiệp quốc tế và tất cả thỏa hiệp quốc tế theo lẽ thường, cuối cùng cũng lại dùng tới vũ lực thôi. cả ở các nước có kiểm soát lẫn các nước không kiểm soát, đó là biện pháp còn cực đoan hơn. Tôi không đề xuất là mỗi người đều lao ra và dùng bạo lực, và tôi nghĩ thỏa thuận giết chóc sẽ không có hiệu quả đâu.
CA: Well, you are definitely not the only person to propose that what we need is some kind of international reckoning here on how to manage this going forward.
CA: Được đấy, anh chắc chắn không phải là người duy nhất đề nghị rằng cái mà ta cần là những thứ tính toán mang tầm quốc tế về việc quản lí phát triển vấn đề.
Thank you so much for coming here to TED, Eliezer.
Cám ơn anh vì đã tham gia TED, Eliezer.
(Applause)
(Vỗ tay)