Max Tegmark: How to keep AI under control

Five years ago, I stood on the TED stage and warned about the dangers of superintelligence. I was wrong. It went even worse than I thought.

Il y a cinq ans, j’étais sur la scène de TED et j’ai mis en garde contre les dangers de la superintelligence. J'ai eu tort. Ce fut pire que je ne le pensais.

(Laughter)

(Rires)

I never thought governments would let AI companies get this far

Je n’ai jamais pensé que les gouvernements

without any meaningful regulation. And the progress of AI went even faster than I predicted. Look, I showed this abstract landscape of tasks where the elevation represented how hard it was for AI to do each task at human level. And the sea level represented what AI could be back then. And boy or boy, has the sea been rising fast ever since. But a lot of these tasks have already gone blub blub blub blub blub blub. And the water is on track to submerge all land, matching human intelligence at all cognitive tasks.

laisseraient les entreprises d’IA aller aussi loin sans aucune réglementation significative. Et les progrès de l'IA ont été encore plus rapides que je ne l'avais prévu. J’ai montré ce paysage abstrait de tâches où l’altitude représentait à quel point il était difficile pour l’IA d’accomplir chaque tâche au niveau humain. Et le niveau de la mer représentait ce que pouvait être l'IA à l'époque. Et bon sang, la mer n’a cessé de monter rapidement depuis. Mais bon nombre de ces tâches ont déjà coulé. Et l’eau est en passe de submerger toutes les terres, égalant l’intelligence humaine pour toutes les tâches cognitives.

This is a definition of artificial general intelligence, AGI, which is the stated goal of companies like OpenAI, Google DeepMind and Anthropic. And these companies are also trying to build superintelligence, leaving human intelligence far behind. And many think it'll only be a few years, maybe, from AGI to superintelligence.

Voilà une définition de l’intelligence générale artificielle, ou IAG, qui est l'objectif déclaré de sociétés comme OpenAI, Google DeepMind et Anthropic. Ces entreprises essaient également de développer une superintelligence, laissant loin derrière l’intelligence humaine. Beaucoup pensent qu’il ne faudra que quelques années

So when are we going to get AGI?

pour passer de l’IAG à la superintelligence.

Well, until recently, most AI researchers thought it was at least decades away. And now Microsoft is saying, "Oh, it's almost here." We're seeing sparks of AGI in ChatGPT-4, and the Metaculus betting site is showing the time left to AGI plummeting from 20 years away to three years away in the last 18 months. And leading industry people are now predicting that we have maybe two or three years left until we get outsmarted. So you better stop talking about AGI as a long-term risk, or someone might call you a dinosaur stuck in the past.

Alors, quand allons-nous avoir l’IAG ? Jusqu’à récemment, la plupart des chercheurs en IA pensaient que ça prendrait au moins des décennies. Et maintenant, Microsoft dit : « Oh, on y est presque ». On voit des éclairs d’IAG dans ChatGPT-4, et le site de paris Metaculus montre que le temps restant avant d’avoir l’IAG s’est radicalement réduit de vingt ans à trois ans au cours des 18 derniers mois. Et les principaux acteurs de l'industrie prédisent aujourd'hui qu'il nous reste peut-être deux ou trois ans avant d'être dépassés. Vous feriez donc mieux d’arrêter de parler de l’IAG comme d’un risque à long terme, sinon quelqu'un pourrait vous traiter de dinosaure coincé dans le passé.

It's really remarkable how AI has progressed recently. Not long ago, robots moved like this.

Les progrès récents de l’IA sont vraiment remarquables. Il n’y a pas si longtemps, les robots se déplaçaient ainsi.

(Music)

(Musique)

Now they can dance.

Maintenant, ils savent danser.

(Music)

(Musique)

Just last year, Midjourney produced this image. This year, the exact same prompt produces this. Deepfakes are getting really convincing.

L’année dernière, Midjourney a produit cette image. Cette année, c’est exactement la même consigne qui produit ce résultat. Les deepfakes sont de plus en plus convaincants.

(Video) Deepfake Tom Cruise: I’m going to show you some magic.

(Vidéo) Deepfake de Tom Cruise : Voilà un tour de magie.

It's the real thing.

C’est une vraie.

(Laughs)

(Rire)

I mean ... It's all ... the real ... thing.

Je veux dire... Tout ça… est… vrai.

Max Tegmark: Or is it?

Max Tegmark : Vraiment ?

And Yoshua Bengio now argues that large language models have mastered language and knowledge to the point that they pass the Turing test. I know some skeptics are saying, "Nah, they're just overhyped stochastic parrots that lack a model of the world," but they clearly have a representation of the world. In fact, we recently found that Llama-2 even has a literal map of the world in it. And AI also builds geometric representations of more abstract concepts like what it thinks is true and false.

Yoshua Bengio soutient aujourd’hui que les grands modèles de langue maîtrisent le langage et les connaissances au point de réussir le test de Turing. Certains sceptiques disent : « Non, ce ne sont que des perroquets stochastiques surestimés sans modèle du monde », mais ils ont clairement une représentation du monde. En fait, on a découvert récemment que Llama-2 a même une carte littérale du monde. L’IA crée aussi des représentations géométriques de concepts plus abstraits tels que ce qu’elle pense être vrai et faux.

So what's going to happen if we get AGI and superintelligence? If you only remember one thing from my talk, let it be this. AI godfather, Alan Turing predicted that the default outcome is the machines take control. The machines take control. I know this sounds like science fiction, but, you know, having AI as smart as GPT-4 also sounded like science fiction not long ago. And if you think of AI, if you think of superintelligence in particular, as just another technology, like electricity, you're probably not very worried. But you see, Turing thinks of superintelligence more like a new species. Think of it, we are building creepy, super capable, amoral psychopaths that don't sleep and think much faster than us, can make copies of themselves and have nothing human about them at all. So what could possibly go wrong?

Alors, que se passera-t-il si on obtient l’IAG et la superintelligence ? Si vous ne retenez qu’une chose de mon exposé, c’est celle-ci : le parrain de l’IA, Alan Turing, a prédit que le résultat par défaut serait que les machines prennent le contrôle. Les machines prennent le contrôle. Je sais que ça ressemble à de la science-fiction, mais avoir une IA aussi intelligente que le GPT-4 ressemblait aussi à de la science-fiction il n’y a pas si longtemps. Et si pour vous, l’IA, la superintelligence en particulier, n’est qu’une technologie parmi d’autres, comme l'électricité, vous n'êtes probablement pas très inquiet. Mais vous voyez, Turing pense que la superintelligence ressemble davantage à une nouvelle espèce. Réfléchissez-y, nous sommes en train de construire des psychopathes effrayants, super capables et amoraux qui ne dorment pas et pensent bien plus vite que nous, peuvent faire des copies d’eux-mêmes et qui n’ont rien d’humain. Qu’est-ce qui pourrait mal tourner ?

(Laughter)

(Rires)

And it's not just Turing. OpenAI CEO Sam Altman, who gave us ChatGPT, recently warned that it could be "lights out for all of us." Anthropic CEO, Dario Amodei, even put a number on this risk: 10-25 percent. And it's not just them. Human extinction from AI went mainstream in May when all the AGI CEOs and who's who of AI researchers came on and warned about it. And last month, even the number one of the European Union warned about human extinction by AI.

Et il n'y a pas que Turing. Le PDG d’OpenAI, Sam Altman, qui nous a donné ChatGPT, a récemment averti que ce pourrait être « l’extinction des feux pour nous tous ». Le PDG d'Anthropic, Dario Amodei, a même chiffré ce risque : 10 à 25 %. Et il n'y a pas qu'eux. L’extinction de l’humanité due à l’IA s’est généralisée en mai lorsque tous les PDG de l’IAG et les principaux chercheurs en IA sont venus nous mettre en garde. Le mois dernier, même le numéro un de l’Union européenne a mis en garde contre l’extinction de l’homme par l’IA.

So let me summarize everything I've said so far in just one slide of cat memes. Three years ago, people were saying it's inevitable, superintelligence, it'll be fine, it's decades away. Last year it was more like, It's inevitable, it'll be fine. Now it's more like, It's inevitable.

Je vais résumer tout ce que j’ai dit jusqu’à présent en une seule diapositive de mèmes sur les chats. Il y a trois ans, les gens disaient que c’est inévitable, que tout irait bien avec la superintelligence, pas avant dans des décennies. L’an dernier, ils disaient plutôt que c’était inévitable, tout irait bien. Maintenant, ils disent plutôt que c’est inévitable.

(Laughter)

(Rires)

But let's take a deep breath and try to raise our spirits and cheer ourselves up, because the rest of my talk is going to be about the good news, that it's not inevitable, and we can absolutely do better, alright?

Mais prenons une profonde respiration et essayons de nous remonter le moral, car le reste de mon exposé portera sur la bonne nouvelle, que ce n’est pas inévitable et qu’on peut absolument faire mieux, d’accord ?

(Applause)

(Applaudissements)

So ... The real problem is that we lack a convincing plan for AI safety. People are working hard on evals looking for risky AI behavior, and that's good, but clearly not good enough. They're basically training AI to not say bad things rather than not do bad things. Moreover, evals and debugging are really just necessary, not sufficient, conditions for safety. In other words, they can prove the presence of risk, not the absence of risk. So let's up our game, alright? Try to see how we can make provably safe AI that we can control.

Alors... Le vrai problème est que nous n’avons pas de plan convaincant pour la sécurité de l’IA. Les gens travaillent dur sur les évaluations pour identifier les comportements risqués de l’IA, et c’est une bonne chose, mais ce n'est clairement pas suffisant. Ils entraînent essentiellement l’IA à ne pas dire de mauvaises choses plutôt qu’à ne pas faire de mauvaises choses. De plus, les évaluations et le débogage ne sont en fait que des conditions de sécurité nécessaires et non suffisantes. En d'autres termes, elles peuvent prouver la présence d’un risque, et non l’absence de risque. Alors passons au niveau supérieur. Essayons de voir comment on peut créer une IA dont la sécurité est prouvée

Guardrails try to physically limit harm.

et que nous pouvons contrôler.

But if your adversary is superintelligence or a human using superintelligence against you, right, trying is just not enough. You need to succeed. Harm needs to be impossible. So we need provably safe systems. Provable, not in the weak sense of convincing some judge, but in the strong sense of there being something that's impossible according to the laws of physics. Because no matter how smart an AI is, it can't violate the laws of physics and do what's provably impossible. Steve Omohundro and I wrote a paper about this, and we're optimistic that this vision can really work. So let me tell you a little bit about how.

Les garde-fous tentent de limiter physiquement les dégâts. Mais si votre adversaire est une superintelligence ou un humain qui utilise une superintelligence contre vous, il ne suffit pas d’essayer. Il faut réussir. Il faut qu’il soit impossible de faire du mal. Il faut donc des systèmes à la sécurité prouvée. Prouvée, non pas dans le sens faible de convaincre un juge, mais dans le sens fort qu'il existe quelque chose d'impossible selon les lois de la physique. Car quelle que soit l’intelligence d’une IA, elle ne peut pas violer les lois de la physique et faire ce qui est manifestement impossible. Steve Omohundro et moi avons écrit un article à ce sujet, et nous croyons fermement que cette vision peut réellement fonctionner. Je vais vous expliquer un peu comment.

There's a venerable field called formal verification, which proves stuff about code. And I'm optimistic that AI will revolutionize automatic proving business and also revolutionize program synthesis, the ability to automatically write really good code. So here is how our vision works. You, the human, write a specification that your AI tool must obey, that it's impossible to log in to your laptop without the correct password, or that a DNA printer cannot synthesize dangerous viruses. Then a very powerful AI creates both your AI tool and a proof that your tool meets your spec. Machine learning is uniquely good at learning algorithms, but once the algorithm has been learned, you can re-implement it in a different computational architecture that's easier to verify.

Il existe un domaine vénérable appelé vérification formelle, qui prouve des choses sur le code. J’ai bon espoir que l’IA révolutionnera le secteur des preuves automatiques et révolutionnera aussi la synthèse de programmes, c’est-à-dire la capacité à écrire automatiquement du très bon code. Voici comment fonctionne notre vision : vous, humain, rédigez une spécification à laquelle votre outil d’IA doit se conformer, pour empêcher l’accès à votre ordinateur sans le bon mot de passe ou empêcher une imprimante à ADN de synthétiser des virus dangereux. Ensuite, une IA très puissante crée à la fois votre outil d’IA et la preuve que votre outil répond à vos spécifications. L’apprentissage automatique est le seul bon moyen d’apprendre des algorithmes, mais une fois l’algorithme appris, on peut le réimplémenter dans une autre architecture informatique, plus facile à vérifier.

Now you might worry, how on earth am I going to understand this powerful AI and the powerful AI tool it built and the proof, if they're all too complicated for any human to grasp? Here is the really great news. You don't have to understand any of that stuff, because it's much easier to verify a proof than to discover it. So you only have to understand or trust your proof-checking code, which could be just a few hundred lines long. And Steve and I envision that such proof checkers get built into all our compute hardware, so it just becomes impossible to run very unsafe code.

Maintenant, vous vous demandez peut-être comment comprendre cette puissante IA et le puissant outil d’IA qu’elle a créé et les preuves, s’ils sont trop compliqués à comprendre pour un humain ? Voici la très bonne nouvelle. Pas besoin de comprendre tout ça, car il est beaucoup plus facile de vérifier une preuve que de la découvrir. Il vous suffit de comprendre ou de se fier à votre code de vérification des preuves, qui peut n’être que quelques centaines de lignes. Steve et moi pensons que de tels vérificateurs de preuves seront intégrés à tout notre matériel informatique, ce qui rendra tout simplement impossible d’exécuter du code très dangereux.

What if the AI, though, isn't able to write that AI tool for you? Then there's another possibility. You train an AI to first just learn to do what you want and then you use a different AI to extract out the learned algorithm and knowledge for you, like an AI neuroscientist. This is in the spirit of the field of mechanistic interpretability, which is making really impressive rapid progress. Provably safe systems are clearly not impossible.

Et si l’IA n’était pas capable de créer cet outil d’IA pour vous ? Il y a alors une autre possibilité. On entraîne une IA pour qu’elle apprenne d’abord à faire ce qu’on veut, puis on utilise une autre IA pour extraire l’algorithme et les connaissances appris à votre place, comme un neuroscientifique spécialisé dans l’IA. C’est dans l’esprit du domaine de l’interprétabilité mécanistique, qui connaît des progrès rapides vraiment impressionnants. Des systèmes à sécurité prouvée ne sont clairement pas impossibles.

Let's look at a simple example of where we first machine-learn an algorithm from data and then distill it out in the form of code that provably meets spec, OK? Let’s do it with an algorithm that you probably learned in first grade, addition, where you loop over the digits from right to left, and sometimes you do a carry. We'll do it in binary, as if you were counting on two fingers instead of ten. And we first train a recurrent neural network, never mind the details, to nail the task. So now you have this algorithm that you don't understand how it works in a black box defined by a bunch of tables of numbers that we, in nerd speak, call parameters. Then we use an AI tool we built to automatically distill out from this the learned algorithm in the form of a Python program. And then we use the formal verification tool known as Dafny to prove that this program correctly adds up any numbers, not just the numbers that were in your training data.

Prenons un exemple simple : on apprend d’abord à la machine un algorithme à partir de données, puis on le distille sous forme de code qui répond de manière prouvable aux spécifications. Faisons-le avec un algorithme que vous avez probablement appris en CP, l’addition, où on passe en boucle les chiffres de droite à gauche, et parfois vous posez une retenue. Nous allons le faire en binaire, comme si vous comptiez sur deux doigts au lieu de dix. Et nous entraînons d’abord un réseau neuronal récurrent, peu importe les détails, pour réussir la tâche. Vous avez cet algorithme et vous ne comprenez pas comment il fonctionne dans une boîte noire définie par un tas de tableaux de chiffres que nous, en langage nerd, appelons des paramètres. Ensuite, on utilise un outil d’IA qu’on a créé pour en extraire automatiquement l’algorithme appris sous la forme d’un programme Python. Ensuite, on utilise l’outil de vérification formel appelé Daphne pour prouver que ce programme additionne correctement tous les chiffres et pas que ceux des données d’entraînement.

So in summary, provably safe AI, I'm convinced is possible, but it's going to take time and work. And in the meantime, let's remember that all the AI benefits that most people are excited about actually don't require superintelligence. We can have a long and amazing future with AI.

Donc, en résumé, je suis convaincu qu’une IA à sécurité prouvée est possible, mais ça prendra du temps et du travail. En attendant, rappelons-nous que tous les avantages de l’IA qui enthousiasment la plupart des gens ne nécessitent en fait pas une superintelligence. Nous pouvons avoir un avenir long et prometteur grâce à l'IA.

So let's not pause AI. Let's just pause the reckless race to superintelligence. Let's stop obsessively training ever-larger models that we don't understand. Let's heed the warning from ancient Greece and not get hubris, like in the story of Icarus. Because artificial intelligence is giving us incredible intellectual wings with which we can do things beyond our wildest dreams if we stop obsessively trying to fly to the sun.

Ne suspendons donc pas l'IA. Arrêtons la course effrénée vers la superintelligence. Arrêtons cette obsession d’entrainer des modèles de plus en plus grands que nous ne comprenons pas. Suivons l’avertissement de la Grèce antique et ne faisons pas preuve d’orgueil, comme dans l’histoire d’Icare. Parce que l’intelligence artificielle nous donne des ailes intellectuelles incroyables avec lesquelles on peut faire des choses au-delà de nos rêves les plus fous si on cesse d’e s’obstiner à essayer de voler vers le Soleil.

Thank you.

Merci.

(Applause)

(Applaudissements)

Five years ago, I stood on the TED stage and warned about the dangers of superintelligence. I was wrong. It went even worse than I thought.

Il y a cinq ans, j’étais sur la scène de TED et j’ai mis en garde contre les dangers de la superintelligence. J'ai eu tort. Ce fut pire que je ne le pensais.

(Laughter)

(Rires)

I never thought governments would let AI companies get this far

Je n’ai jamais pensé que les gouvernements

So when are we going to get AGI?

pour passer de l’IAG à la superintelligence.

It's really remarkable how AI has progressed recently. Not long ago, robots moved like this.

Les progrès récents de l’IA sont vraiment remarquables. Il n’y a pas si longtemps, les robots se déplaçaient ainsi.

(Music)

(Musique)

Now they can dance.

Maintenant, ils savent danser.

(Music)

(Musique)

Just last year, Midjourney produced this image. This year, the exact same prompt produces this. Deepfakes are getting really convincing.

L’année dernière, Midjourney a produit cette image. Cette année, c’est exactement la même consigne qui produit ce résultat. Les deepfakes sont de plus en plus convaincants.

(Video) Deepfake Tom Cruise: I’m going to show you some magic.

(Vidéo) Deepfake de Tom Cruise : Voilà un tour de magie.

It's the real thing.

C’est une vraie.

(Laughs)

(Rire)

I mean ... It's all ... the real ... thing.

Je veux dire... Tout ça… est… vrai.

Max Tegmark: Or is it?

Max Tegmark : Vraiment ?

(Laughter)

(Rires)

(Laughter)

(Rires)

(Applause)

(Applaudissements)

Guardrails try to physically limit harm.

et que nous pouvons contrôler.

Thank you.

Merci.

(Applause)

(Applaudissements)

Max Tegmark: How to keep AI under control

Max Tegmark: How to keep AI under control

Related talks

Stephen Wolfram: How to think computationally about AI, the universe and everything

Max Tegmark: How to get empowered, not overpowered, by AI

Nita Farahany: Your right to mental privacy in the age of brain-sensing tech

Tom Gruber: How AI can enhance our memory, work and social lives

Kevin Kelly: How AI can bring on a second Industrial Revolution

Kai-Fu Lee: How AI can save our humanity

Related talks

Stephen Wolfram: How to think computationally about AI, the universe and everything

Max Tegmark: How to get empowered, not overpowered, by AI

Nita Farahany: Your right to mental privacy in the age of brain-sensing tech

Tom Gruber: How AI can enhance our memory, work and social lives

Kevin Kelly: How AI can bring on a second Industrial Revolution

Kai-Fu Lee: How AI can save our humanity