Max Tegmark: How to keep AI under control

Five years ago, I stood on the TED stage and warned about the dangers of superintelligence. I was wrong. It went even worse than I thought.

Cách đây 5 năm, tôi đứng trên sân khấu TED và cảnh báo về những hiểm nguy của Siêu trí tuệ. Những cảnh báo của tôi đã sai. Thực tế thậm chí còn tồi tệ hơn tôi nghĩ.

(Laughter)

(Khán giả cười)

I never thought governments would let AI companies get this far without any meaningful regulation. And the progress of AI went even faster than I predicted. Look, I showed this abstract landscape of tasks where the elevation represented how hard it was for AI to do each task at human level. And the sea level represented what AI could be back then. And boy or boy, has the sea been rising fast ever since. But a lot of these tasks have already gone blub blub blub blub blub blub. And the water is on track to submerge all land, matching human intelligence at all cognitive tasks.

Tôi chưa bao giờ nghĩ rằng các chính phủ sẽ để các công ty AI tiến xa như hiện tại mà không có bất kỳ quy định có ý nghĩa nào. Và sự tiến bộ của Trí tuệ nhân tạo (AI) thậm chí còn nhanh hơn tôi dự đoán. Hãy nhìn xem, đây là bối cảnh trừu tượng tôi đã trình bày trước đây về các nhiệm vụ trong đó cao độ đại diện độ khó để AI thực hiện từng nhiệm vụ ở mức độ bằng với con người. Và mực nước biển đại diện cho những gì AI có thể làm vào thời điểm đó. Và hỡi ơi, nước biển đã dâng lên nhanh chóng kể từ thời điểm đó. Nhưng rất nhiều nhiệm vụ này đã biến mất (âm thanh bị chìm) Và nước đang trên đà để nhấn chìm tất cả đất đai, tương xứng với trí thông minh của con người ở tất cả các nhiệm vụ nhận thức.

This is a definition of artificial general intelligence, AGI, which is the stated goal of companies like OpenAI, Google DeepMind and Anthropic. And these companies are also trying to build superintelligence, leaving human intelligence far behind. And many think it'll only be a few years, maybe, from AGI to superintelligence.

Đây là định nghĩa của Trí tuệ Nhân tạo Tổng hợp, AGI cũng là mục tiêu được đặt ra của các công ty như OpenAI, Google DeepMind và Anthropic. Và các công ty này cũng đang cố gắng xây dựng Siêu trí tuệ, bỏ xa trí thông minh của con người. Và nhiều người nghĩ rằng sẽ chỉ mất vài năm, có thể, từ AGI trở thành Siêu trí tuệ.

So when are we going to get AGI? Well, until recently, most AI researchers thought it was at least decades away. And now Microsoft is saying, "Oh, it's almost here." We're seeing sparks of AGI in ChatGPT-4, and the Metaculus betting site is showing the time left to AGI plummeting from 20 years away to three years away in the last 18 months. And leading industry people are now predicting that we have maybe two or three years left until we get outsmarted. So you better stop talking about AGI as a long-term risk, or someone might call you a dinosaur stuck in the past.

Vậy thì khi nào AGI sẽ xuất hiện? Chà, cho đến gần đây, hầu hết các nhà nghiên cứu AI đều nghĩ rằng phải còn ít nhất là vài thập kỷ nữa. Và bây giờ Microsoft đang nói, “Ồ, nó gần đến rồi.” Chúng ta đang thấy nhen nhóm AGI trong ChatGPT-4 và trang cá cược Metaculus đang cho thấy thời gian còn lại đến khi AGI xuất hiện giảm mạnh từ 20 năm xuống còn 03 năm, trong 18 tháng qua. Và những người hàng đầu trong ngành hiện đang dự đoán rằng chúng ta có thể còn hai hoặc ba năm nữa cho đến khi chúng ta bị vượt mặt. Vì vậy, tốt hơn hết chúng ta nên ngừng nói về AGI như một rủi ro lâu dài, bằng không ai đó có thể gọi bạn là khủng long mắc kẹt trong quá khứ.

It's really remarkable how AI has progressed recently. Not long ago, robots moved like this.

Cách mà AI đã phát triển trong thời gian gần đây thực sự đáng kinh ngạc Cách đây không lâu, robot di chuyển như thế này.

(Music)

(Âm nhạc)

Now they can dance.

Bây giờ chúng có thể nhảy.

(Music)

(Âm nhạc)

Just last year, Midjourney produced this image. This year, the exact same prompt produces this. Deepfakes are getting really convincing.

Mới năm ngoái, ứng dụng Midjourney đã tạo ra hình ảnh này. Năm nay, yêu cầu tương tự tạo ra hình ảnh này. Deepfake đang trở nên thực sự thuyết phục.

(Video) Deepfake Tom Cruise: I’m going to show you some magic.

(Video) Deepfake Tom Cruise: Tôi sẽ cho bạn thấy một vài phép thuật.

It's the real thing.

Nó là thật.

(Laughs)

(Cười)

I mean ... It's all ... the real ... thing.

Ý tôi là... Tất cả đều là... thật... Max Tegmark: Hay là không?

Max Tegmark: Or is it?

And Yoshua Bengio now argues that large language models have mastered language and knowledge to the point that they pass the Turing test. I know some skeptics are saying, "Nah, they're just overhyped stochastic parrots that lack a model of the world," but they clearly have a representation of the world. In fact, we recently found that Llama-2 even has a literal map of the world in it. And AI also builds geometric representations of more abstract concepts like what it thinks is true and false.

Và Yoshua Bengio bây giờ lập luận rằng các mô hình ngôn ngữ lớn đã thành thạo ngôn ngữ và kiến thức đến mức chúng vượt qua bài kiểm tra Turing. Tôi biết một số người hoài nghi đang nói, “Không, chúng chỉ là những con vẹt ngẫu nhiên cường điệu quá mức mà thiếu mô hình về thế giới,” nhưng rõ ràng chúng có một sự tổng hợp về thế giới. Trên thực tế, gần đây chúng tôi phát hiện Llama-2 thậm chí còn có một bản đồ thế giới theo nghĩa đen. Và AI cũng xây dựng các biểu diễn hình học của các khái niệm trừu tượng hơn như những gì nó nghĩ là đúng và sai.

So what's going to happen if we get AGI and superintelligence? If you only remember one thing from my talk, let it be this. AI godfather, Alan Turing predicted that the default outcome is the machines take control. The machines take control. I know this sounds like science fiction, but, you know, having AI as smart as GPT-4 also sounded like science fiction not long ago. And if you think of AI, if you think of superintelligence in particular, as just another technology, like electricity, you're probably not very worried. But you see, Turing thinks of superintelligence more like a new species. Think of it, we are building creepy, super capable, amoral psychopaths that don't sleep and think much faster than us, can make copies of themselves and have nothing human about them at all. So what could possibly go wrong?

Vậy điều gì sẽ xảy ra nếu chúng ta có được AGI và Siêu trí tuệ? Nếu bạn chỉ nhớ một điều trong bài nói chuyện của tôi, hãy để nó là điều này. Cha đẻ AI, Alan Turing đã từng dự đoán rằng kết quả mặc định là máy móc sẽ nắm quyền kiểm soát. Các máy móc nắm quyền kiểm soát. Tôi biết điều này nghe giống như khoa học viễn tưởng, nhưng, bạn biết đấy, có AI thông minh như GPT-4 cũng nghe giống như khoa học viễn tưởng cách đây không lâu. Và nếu bạn nghĩ về AI, nếu bạn nghĩ về Siêu trí tuệ nói riêng, chỉ như là một công nghệ khác, như điện, có lẽ bạn không lo lắng lắm. Nhưng bạn thấy đấy, Turing nghĩ về Siêu trí tuệ giống như một giống loài mới. Hãy nghĩ về điều đó, chúng ta đang xây dựng những “kẻ tâm thần” đáng sợ, siêu năng lực, vô đạo đức, không ngủ và suy nghĩ nhanh hơn chúng ta nhiều, có thể tạo ra bản sao của chính chúng và không có gì là con người trong chúng cả. Vậy điều gì có thể xảy ra sai?

(Laughter)

(Cười)

And it's not just Turing. OpenAI CEO Sam Altman, who gave us ChatGPT, recently warned that it could be "lights out for all of us." Anthropic CEO, Dario Amodei, even put a number on this risk: 10-25 percent. And it's not just them. Human extinction from AI went mainstream in May when all the AGI CEOs and who's who of AI researchers came on and warned about it. And last month, even the number one of the European Union warned about human extinction by AI.

Và không chỉ Turing. Giám đốc điều hành OpenAI Sam Altman, người đã cho chúng ta ChatGPT, gần đây đã cảnh báo rằng nó có thể là “tắt đèn cho tất cả chúng ta”. Giám đốc điều hành Anthropic, Dario Amodei, thậm chí còn đưa ra một con số về rủi ro này: 10-25%. Và không chỉ họ. Sự tuyệt chủng của con người do AI đã trở nên chính thống vào tháng 5 khi tất cả các CEO AGI và những người có tên tuổi trong các nhà nghiên cứu AI đến và cảnh báo về điều đó. Và tháng trước, ngay cả người đứng đầu Liên minh Châu Âu đã cảnh báo về sự tuyệt chủng của con người bởi AI.

So let me summarize everything I've said so far in just one slide of cat memes. Three years ago, people were saying it's inevitable, superintelligence, it'll be fine, it's decades away. Last year it was more like, It's inevitable, it'll be fine. Now it's more like, It's inevitable.

Vì vậy, hãy để tôi tóm tắt mọi thứ tôi đã nói trong một slide meme mèo. Ba năm trước, mọi người nói rằng đó là điều không thể tránh khỏi, Siêu trí tuệ, nó sẽ ổn thôi, còn nhiều thập kỷ nữa. Năm ngoái thông điệp của họ giống như, điều đó không thể tránh khỏi, nó sẽ ổn thôi. Bây giờ thì giống như, đó là điều không thể tránh khỏi.

(Laughter)

(Cười)

But let's take a deep breath and try to raise our spirits and cheer ourselves up, because the rest of my talk is going to be about the good news, that it's not inevitable, and we can absolutely do better, alright?

Nhưng chúng ta hãy hít một hơi thật sâu và cố gắng phấn chấn lên, bởi vì phần còn lại của bài trình bày của tôi sẽ là các tin tốt, rằng nó không phải là điều không thể tránh khỏi, và chúng ta hoàn toàn có thể làm tốt hơn.

(Applause)

(Vỗ tay)

So ... The real problem is that we lack a convincing plan for AI safety. People are working hard on evals looking for risky AI behavior, and that's good, but clearly not good enough. They're basically training AI to not say bad things rather than not do bad things. Moreover, evals and debugging are really just necessary, not sufficient, conditions for safety. In other words, they can prove the presence of risk, not the absence of risk. So let's up our game, alright? Try to see how we can make provably safe AI that we can control.

Vấn đề thực sự là chúng ta thiếu một kế hoạch thuyết phục về an toàn AI. Mọi người đang làm việc chăm chỉ để đánh giá để tìm kiếm hành vi AI rủi ro, và đó là điều tốt, nhưng rõ ràng là chưa đủ tốt. Về cơ bản, họ đang đào tạo AI để không nói những điều xấu hơn là không làm những điều xấu. Hơn nữa, đánh giá và gỡ lỗi thực sự chỉ là điều cần thiết, không đủ để đảm bảo an toàn. Nói cách khác, chúng có thể chứng minh sự hiện diện của rủi ro, không phải sự vắng mặt của rủi ro. Vậy, hãy làm tốt hơn nhé? Hãy thử xem làm thế nào chúng ta có thể tạo ra

Guardrails try to physically limit harm.

AI an toàn có thể chứng minh được mà chúng ta có thể kiểm soát.

But if your adversary is superintelligence or a human using superintelligence against you, right, trying is just not enough. You need to succeed. Harm needs to be impossible. So we need provably safe systems. Provable, not in the weak sense of convincing some judge, but in the strong sense of there being something that's impossible according to the laws of physics. Because no matter how smart an AI is, it can't violate the laws of physics and do what's provably impossible. Steve Omohundro and I wrote a paper about this, and we're optimistic that this vision can really work. So let me tell you a little bit about how.

Lan can cố gắng giảm thiểu nguy hại một cách vật lý. Nhưng nếu đối thủ của bạn là Siêu trí tuệ hoặc một con người sử dụng Siêu trí thuệ chống lại bạn, chẳng hạn, cố gắng là không đủ. Bạn cần phải thành công. Nguy hại cần phải là không thể. Vì vậy, chúng ta cần các hệ thống an toàn có thể chứng minh. Có thể chứng minh được, không phải theo nghĩa nhẹ hơn là thuyết phục một số thẩm phán, mà theo nghĩa mạnh hơn rằng một việc gì đó là không thể theo các định luật vật lý. Bởi vì cho dù AI thông minh đến đâu, chúng cũng không thể vi phạm các định luật vật lý và làm những gì có thể chứng minh là không thể. Steve Omohundro và tôi đã viết một bài nghiên cứu về chủ đề này, và chúng tôi lạc quan rằng tầm nhìn này thực sự có thể hiệu quả. Vì vậy, hãy để tôi nói với bạn một chút về cách thực hiện.

There's a venerable field called formal verification, which proves stuff about code. And I'm optimistic that AI will revolutionize automatic proving business and also revolutionize program synthesis, the ability to automatically write really good code. So here is how our vision works. You, the human, write a specification that your AI tool must obey, that it's impossible to log in to your laptop without the correct password, or that a DNA printer cannot synthesize dangerous viruses. Then a very powerful AI creates both your AI tool and a proof that your tool meets your spec. Machine learning is uniquely good at learning algorithms, but once the algorithm has been learned, you can re-implement it in a different computational architecture that's easier to verify.

Có một lĩnh vực đáng kính gọi là xác minh chính thức, chứng minh những thứ về mã lập trình. Và tôi lạc quan rằng AI sẽ cách mạng công tác chứng minh tự động và cũng cách mạng sự tổng hợp chương trình, khả năng tự động viết mã lập trình rất tốt. Vì vậy, đây là tầm nhìn của chúng tôi. Bạn, con người, viết một yêu cầu kỹ thuật mà công cụ AI của bạn phải tuân theo, rằng không thể đăng nhập vào máy tính xách tay của bạn mà không có mật khẩu chính xác hoặc máy in DNA không thể tổng hợp các vi-rút nguy hiểm. Sau đó, một AI rất mạnh mẽ tạo ra cả công cụ AI của bạn và bằng chứng rằng công cụ của bạn đáp ứng các yêu cầu kỹ thuật của bạn. Học máy đặc biệt giỏi trong việc học thuật toán, nhưng một khi thuật toán đã được học, bạn có thể triển khai lại nó trong một kiến trúc tính toán khác dễ xác minh hơn.

Now you might worry, how on earth am I going to understand this powerful AI and the powerful AI tool it built and the proof, if they're all too complicated for any human to grasp? Here is the really great news. You don't have to understand any of that stuff, because it's much easier to verify a proof than to discover it. So you only have to understand or trust your proof-checking code, which could be just a few hundred lines long. And Steve and I envision that such proof checkers get built into all our compute hardware, so it just becomes impossible to run very unsafe code.

Bây giờ bạn có thể lo lắng, làm thế nào tôi có thể hiểu được AI mạnh mẽ này và công cụ AI và bằng chứng mạnh mẽ mà nó tạo ra liệu tất cả chúng có quá phức tạp để bất kỳ con người nào có thể nắm bắt được? Đây là tin tức thực sự tuyệt vời. Bạn không cần phải hiểu bất kỳ thứ gì trong số đó, bởi vì việc xác minh bằng chứng dễ hơn nhiều so với việc khám phá ra nó. Vì vậy, bạn chỉ cần hiểu hoặc tin tưởng mã kiểm tra chứng minh của mình, có thể chỉ dài vài trăm dòng. Và Steve và tôi hình dung rằng những trình kiểm tra chứng minh như vậy sẽ được tích hợp vào phần cứng máy tính của chúng ta để việc áp dụng mã không an toàn trở thành điều không thể.

What if the AI, though, isn't able to write that AI tool for you? Then there's another possibility. You train an AI to first just learn to do what you want and then you use a different AI to extract out the learned algorithm and knowledge for you, like an AI neuroscientist. This is in the spirit of the field of mechanistic interpretability, which is making really impressive rapid progress. Provably safe systems are clearly not impossible.

Tuy nhiên, điều gì sẽ xảy ra nếu AI không thể viết công cụ AI đó cho bạn? Nếu vậy, có một khả năng khác. Bạn đào tạo AI để trước tiên chỉ học cách làm những gì bạn muốn và sau đó bạn sử dụng một AI khác để trích xuất thuật toán và kiến thức đã học cho bạn, giống như một nhà thần kinh học AI. Cách thực hiện này đồng nhất với tinh thần của lĩnh vực diễn giải cơ học, lĩnh vực đang đạt được những tiến bộ thực sự ấn tượng. Các hệ thống an toàn có thể chứng minh rõ ràng

Let's look at a simple example

không phải là không thể.

of where we first machine-learn an algorithm from data and then distill it out in the form of code that provably meets spec, OK? Let’s do it with an algorithm that you probably learned in first grade, addition, where you loop over the digits from right to left, and sometimes you do a carry. We'll do it in binary, as if you were counting on two fingers instead of ten. And we first train a recurrent neural network, never mind the details, to nail the task. So now you have this algorithm that you don't understand how it works in a black box defined by a bunch of tables of numbers that we, in nerd speak, call parameters. Then we use an AI tool we built to automatically distill out from this the learned algorithm in the form of a Python program. And then we use the formal verification tool known as Dafny to prove that this program correctly adds up any numbers, not just the numbers that were in your training data.

Hãy xem xét một ví dụ đơn giản về nơi đầu tiên chúng ta học máy một thuật toán từ dữ liệu và sau đó chắt lọc nó thành dạng mã đáp ứng yêu cầu kỹ thuật. Hãy làm điều này với một thuật toán mà bạn có thể đã học ở lớp một, phép toán cộng khi bạn cộng các chữ số từ phải sang trái, và đôi khi bạn thực hiện một thao tác mang theo. Chúng ta sẽ thực hiện phép tính trong dạng nhị phân, như thể bạn đang đếm với hai ngón tay thay vì mười. Và trước tiên chúng ta đào tạo một Mạng lưới Thần kinh Tái phát, không quan tâm đến các chi tiết, để hoàn thành nhiệm vụ. Bây giờ bạn có một thuật toán mà bạn không hiểu nó hoạt động như thế nào trong một hộp đen được xác định bởi một loạt các bảng số mà chúng tôi, trong ngôn ngữ của những mọt sách, gọi là tham số. Sau đó, chúng ta sử dụng một công cụ AI mà chúng ta đã xây dựng để tự động chắt lọc ra thuật toán đã học trong thể một chương trình Python. Và sau đó chúng ta sử dụng công cụ xác minh chính thức được gọi là Daphne để chứng minh rằng chương trình này cộng chính xác bất kỳ con số nào, không chỉ những con số có trong dữ liệu đào tạo của bạn.

So in summary, provably safe AI, I'm convinced is possible, but it's going to take time and work. And in the meantime, let's remember that all the AI benefits that most people are excited about actually don't require superintelligence. We can have a long and amazing future with AI.

Như vậy, để tóm tắt lại, tôi tin rằng AI an toàn có thể chứng minh là có thể, nhưng nó sẽ mất thời gian và công sức. Và trong thời gian chờ đợi, hãy nhớ rằng tất cả các lợi ích của AI mà hầu hết mọi người đều hào hứng thực ra không yêu cầu Siêu trí tuệ. Chúng ta có thể có một tương lai lâu dài và tuyệt vời với AI.

So let's not pause AI. Let's just pause the reckless race to superintelligence. Let's stop obsessively training ever-larger models that we don't understand. Let's heed the warning from ancient Greece and not get hubris, like in the story of Icarus. Because artificial intelligence is giving us incredible intellectual wings with which we can do things beyond our wildest dreams if we stop obsessively trying to fly to the sun.

Vì vậy, chúng ta đừng tạm dừng AI. Hãy tạm dừng cuộc chạy đua bất chấp đến Siêu trí tuệ. Hãy ngừng đào tạo một cách ám ảnh những mô hình ngày càng lớn mà chúng ta không hiểu. Hãy chú ý lời cảnh báo từ Hy Lạp Cổ đại và đừng quá kiêu ngạo, như trong câu chuyện về Icarus. Bởi vì Trí tuệ Nhân tạo đang mang đến cho chúng ta những đôi cánh trí tuệ đáng kinh ngạc để chúng ta có thể làm những điều ngoài những giấc mơ hoang dã nhất của mình nếu chúng ta ngừng ám ảnh cố gắng bay về phía mặt trời.

Thank you.

Cảm ơn bạn.

(Applause)

(Vỗ tay)

Five years ago, I stood on the TED stage and warned about the dangers of superintelligence. I was wrong. It went even worse than I thought.

(Laughter)

(Khán giả cười)

It's really remarkable how AI has progressed recently. Not long ago, robots moved like this.

Cách mà AI đã phát triển trong thời gian gần đây thực sự đáng kinh ngạc Cách đây không lâu, robot di chuyển như thế này.

(Music)

(Âm nhạc)

Now they can dance.

Bây giờ chúng có thể nhảy.

(Music)

(Âm nhạc)

Just last year, Midjourney produced this image. This year, the exact same prompt produces this. Deepfakes are getting really convincing.

Mới năm ngoái, ứng dụng Midjourney đã tạo ra hình ảnh này. Năm nay, yêu cầu tương tự tạo ra hình ảnh này. Deepfake đang trở nên thực sự thuyết phục.

(Video) Deepfake Tom Cruise: I’m going to show you some magic.

(Video) Deepfake Tom Cruise: Tôi sẽ cho bạn thấy một vài phép thuật.

It's the real thing.

Nó là thật.

(Laughs)

(Cười)

I mean ... It's all ... the real ... thing.

Ý tôi là... Tất cả đều là... thật... Max Tegmark: Hay là không?

Max Tegmark: Or is it?

(Laughter)

(Cười)

(Laughter)

(Cười)

(Applause)

(Vỗ tay)

Guardrails try to physically limit harm.

AI an toàn có thể chứng minh được mà chúng ta có thể kiểm soát.

Let's look at a simple example

không phải là không thể.

Thank you.

Cảm ơn bạn.

(Applause)

(Vỗ tay)

Max Tegmark: How to keep AI under control

Max Tegmark: How to keep AI under control

Related talks

Stephen Wolfram: How to think computationally about AI, the universe and everything

Max Tegmark: How to get empowered, not overpowered, by AI

Nita Farahany: Your right to mental privacy in the age of brain-sensing tech

Tom Gruber: How AI can enhance our memory, work and social lives

Kevin Kelly: How AI can bring on a second Industrial Revolution

Kai-Fu Lee: How AI can save our humanity

Related talks

Stephen Wolfram: How to think computationally about AI, the universe and everything

Max Tegmark: How to get empowered, not overpowered, by AI

Nita Farahany: Your right to mental privacy in the age of brain-sensing tech

Tom Gruber: How AI can enhance our memory, work and social lives

Kevin Kelly: How AI can bring on a second Industrial Revolution

Kai-Fu Lee: How AI can save our humanity