Since 2001, I have been working on what we would now call the problem of aligning artificial general intelligence: how to shape the preferences and behavior of a powerful artificial mind such that it does not kill everyone.
Depuis 2001, je travaille sur ce que l’on pourrait appeler le problème d’alignement de l’intelligence générale artificielle : comment former les préférences et les comportements d’esprits artificiels puissants sans qu’ils ne tuent tout le monde.
I more or less founded the field two decades ago, when nobody else considered it rewarding enough to work on. I tried to get this very important project started early so we'd be in less of a drastic rush later. I consider myself to have failed.
J’ai plus ou moins fondé la discipline il y a 20 ans, quand personne ne trouvait cela suffisamment valorisant. J’ai voulu démarrer ce projet tôt pour ne pas devoir agir dans l’urgence plus tard. Je crains avoir échoué.
(Laughter)
(Rires)
Nobody understands how modern AI systems do what they do. They are giant, inscrutable matrices of floating point numbers that we nudge in the direction of better performance until they inexplicably start working. At some point, the companies rushing headlong to scale AI will cough out something that's smarter than humanity. Nobody knows how to calculate when that will happen. My wild guess is that it will happen after zero to two more breakthroughs the size of transformers.
Personne ne comprend comment les IA actuelles font ce qu’elles font. Ce sont des matrices de géantes et impénétrables de nombres flottants que l’on pousse vers de meilleures performances jusqu’à ce que ça marche. Les entreprises se précipitent pour les démultiplier et finiront par sortir une IA plus intelligente que nous. Personne ne sait comment estimer quand ça arrivera. Je parie que cela arrivera dans zéro ou deux nouvelles avancées équivalentes aux transformers.
What happens if we build something smarter than us that we understand that poorly? Some people find it obvious that building something smarter than us that we don't understand might go badly. Others come in with a very wide range of hopeful thoughts about how it might possibly go well.
Que se passera-t-il si nous développons quelque chose de plus intelligent sans bien le comprendre. Pour certains, c’est évident qu’une chose plus intelligente que nous mais que l’on ne comprend pas pourrait mal tourner. D’autres imaginent avec optimisme une grande variété de scénarios sur comment cela pourrait bien tourner.
Even if I had 20 minutes for this talk and months to prepare it, I would not be able to refute all the ways people find to imagine that things might go well. But I will say that there is no standard scientific consensus for how things will go well. There is no hope that has been widely persuasive and stood up to skeptical examination. There is nothing resembling a real engineering plan for us surviving that I could critique. This is not a good place in which to find ourselves.
Même avec 20 minutes de talk et des mois de préparation, ce serait impossible de réfuter tous les scénarios positifs imaginés par les gens. Mais je dis qu’il n’y a aucun consensus scientifique harmonisé sur des perspectives positives. Il n’y a aucun espoir vraiment convaincant qui ait résisté au scepticisme. Il n’y a quoi que ce soit qui ressemble de près à un plan de survie sur lequel donner un avis. Ce n’est pas une situation idéale.
If I had more time, I'd try to tell you about the predictable reasons why the current paradigm will not work to build a superintelligence that likes you or is friends with you, or that just follows orders. Why, if you press "thumbs up" when humans think that things went right or "thumbs down" when another AI system thinks that they went wrong, you do not get a mind that wants nice things in a way that generalizes well outside the training distribution to where the AI is smarter than the trainers. You can search for "Yudkowsky list of lethalities" for more.
Avec plus de temps, je vous expliquerais les raisons prévisibles qui font que le paradigme actuel ne marchera pas pour construire une super IA qui nous aimera, qui sera amicale ou qui sera soumise. Quand on clique sur le pouce relevé quand les humains pensent que c’est bien, mais le pouce vers le bas quand un autre système d’IA pense que ce n’est pas bon, pourquoi n’obtient-on pas un esprit qui souhaite des choses bonnes de façon à se généraliser avec fluidité hors de la distribution d’apprentissage où une IA est plus intelligente que ses formateurs ? Faites une recherche sur « Liste létale de Yudkowsky », pour en savoir plus.
(Laughter)
(Rires)
But to worry, you do not need to believe me about exact predictions of exact disasters. You just need to expect that things are not going to work great on the first really serious, really critical try because an AI system smart enough to be truly dangerous was meaningfully different from AI systems stupider than that. My prediction is that this ends up with us facing down something smarter than us that does not want what we want, that does not want anything we recognize as valuable or meaningful.
Mais il n’est pas indispensable de me croire pour être inquiet des catastrophes prévisibles. Il suffit de penser que les choses ne se passeront pas super bien dès la première tentative critique et vraiment sérieuse car un système d’IA suffisamment intelligent pour être vraiment dangereux sera fondamentalement différent d’une IA plus stupide. Mes prévisions sont que cela finira avec une chose plus intelligente que nous qui ne veut pas ce que nous voulons, qui ne veut rien de ce qui a de la valeur ou du sens à nos yeux.
I cannot predict exactly how a conflict between humanity and a smarter AI would go for the same reason I can't predict exactly how you would lose a chess game to one of the current top AI chess programs, let's say Stockfish. If I could predict exactly where Stockfish could move, I could play chess that well myself. I can't predict exactly how you'll lose to Stockfish, but I can predict who wins the game. I do not expect something actually smart to attack us with marching robot armies with glowing red eyes where there could be a fun movie about us fighting them. I expect an actually smarter and uncaring entity will figure out strategies and technologies that can kill us quickly and reliably and then kill us.
J’ignore quel serait le déroulement d’un conflit entre l’humanité et une IA plus intelligente qu’elle, pour la même raison qu’il est impossible de prédire comment perdre aux échecs contre un des meilleurs programmes IA de jeu d’échecs, par exemple Stockfish. Si je pouvais prédire exactement quels mouvements Stockfish va faire, je jouerais aussi bien aux échecs que lui. Donc, j’ignore comment on va perdre contre Stockfish, mais je peux néanmoins prédire l’issue du jeu. Je ne pense pas qu’une machine intelligente va nous attaquer avec une armée de robots aux yeux rouges, ce qui ferait un très bon film sur notre combat contre eux. Je pense qu’une entité plus intelligente et insensible trouvera des stratégies et des technologies pour nous tuer rapidement et efficacement avant de nous exterminer.
I am not saying that the problem of aligning superintelligence is unsolvable in principle. I expect we could figure it out with unlimited time and unlimited retries, which the usual process of science assumes that we have. The problem here is the part where we don't get to say, “Ha ha, whoops, that sure didn’t work. That clever idea that used to work on earlier systems sure broke down when the AI got smarter, smarter than us.” We do not get to learn from our mistakes and try again because everyone is already dead.
Je ne dis pas que le problème d’aligner une super-intelligence est insoluble en théorie. Avec un temps et des essais infinis, on pourrait certes trouver une solution, ce que le processus scientifique assume que nous avons aujourd’hui. Le problème est en partie dû au fait qu’on ne pourra pas dire : « Ho, flûte ! Ça n’a pas marché. Cette idée géniale fonctionnait pourtant sur des systèmes plus anciens, mais a failli quand l’IA est devenue plus beaucoup intelligente que nous. » On n’aura plus l’occasion d’apprendre de nos erreurs et de réessayer car on sera tous morts.
It is a large ask to get an unprecedented scientific and engineering challenge correct on the first critical try. Humanity is not approaching this issue with remotely the level of seriousness that would be required. Some of the people leading these efforts have spent the last decade not denying that creating a superintelligence might kill everyone, but joking about it.
C’est une tâche gigantesque d’obtenir un résultat correct au premier essai d’un défi scientifiquement et technologiquement aussi complexe. L’humanité n’aborde pas ce problème avec le niveau de sérieux requis, et de loin. Certains de ceux à la tête de ces efforts n’ont pas nié ces 10 dernières années que créer une super-intelligence pourrait nous tuer tous, mais ils ont tourné ça en dérision.
We are very far behind. This is not a gap we can overcome in six months, given a six-month moratorium. If we actually try to do this in real life, we are all going to die.
On est très en retard. Ce n’est pas un écart que l’on pourra rattraper en six mois, les eussions-nous. Si on tente vraiment cela dans la vraie vie, on va tous mourir.
People say to me at this point, what's your ask? I do not have any realistic plan, which is why I spent the last two decades trying and failing to end up anywhere but here. My best bad take is that we need an international coalition banning large AI training runs, including extreme and extraordinary measures to have that ban be actually and universally effective, like tracking all GPU sales, monitoring all the data centers, being willing to risk a shooting conflict between nations in order to destroy an unmonitored data center in a non-signatory country.
À ce stade, on me demande souvent ce que je souhaite. Je n’ai pas de plan réaliste, c’est pour ça que j’ai consacré ces 20 dernières années toujours en vain, à essayer d’être entendu, sauf ici. Mon pire scénario est que nous avons besoin d’une coalition internationale pour bannir de grands projets d’apprentissage des IA, dont des mesures extrêmes et extraordinaires pour que ce moratoire soit réellement et universellement efficace, comme un système de traçage des ventes des GPU, la surveillance de tous les centres de données, la détermination à risquer un conflit armé entre des nations pour détruire un centre de données non surveillé, dans un pays non-signataire.
I say this, not expecting that to actually happen. I say this expecting that we all just die. But it is not my place to just decide on my own that humanity will choose to die, to the point of not bothering to warn anyone. I have heard that people outside the tech industry are getting this point faster than people inside it. Maybe humanity wakes up one morning and decides to live.
Je dis cela sans trop d’espoir. Je dis cela en m’attendant à ce que nous mourrions tous. Mais qui serais-je devant le choix de l’humanité de mourir, si je ne faisais pas tout pour l’avertir ? Des gens extérieurs à l’industrie technologique aboutiraient à la conclusion plus rapidement que ceux du domaine. L’humanité se réveillera peut-être un matin en décidant de vivre.
Thank you for coming to my brief TED talk.
Merci d’avoir écouté mon mini talk.
(Laughter)
(Rires)
(Applause and cheers)
(Applaudissements et acclamations)
Chris Anderson: So, Eliezer, thank you for coming and giving that. It seems like what you're raising the alarm about is that like, for this to happen, for an AI to basically destroy humanity, it has to break out, escape controls of the internet and, you know, start commanding actual real-world resources. You say you can't predict how that will happen, but just paint one or two possibilities.
Chris Anderson : Eliezer, merci d’être venu et pour votre message. On dirait que vous sonnez l’alarme sur le fait que pour que ça arrive, pour qu’une IA détruise l’humanité, elle doit se libérer, échapper à tout contrôle de l’Internet et commencer à contrôler les ressources du vrai monde. Vous ne pouvez pas prédire quand cela surviendra, mais vous esquissez deux possibles.
Eliezer Yudkowsky: OK, so why is this hard? First, because you can't predict exactly where a smarter chess program will move. Maybe even more importantly than that, imagine sending the design for an air conditioner back to the 11th century. Even if they -- if it’s enough detail for them to build it, they will be surprised when cold air comes out because the air conditioner will use the temperature-pressure relation and they don't know about that law of nature. So if you want me to sketch what a superintelligence might do, I can go deeper and deeper into places where we think there are predictable technological advancements that we haven't figured out yet. And as I go deeper, it will get harder and harder to follow.
Eliezer Yudkowsky : Pourquoi est-ce si difficile ? Parce qu’on ne peut pas savoir quel mouvement un programme d’échecs va faire. Mais plus important encore, imaginez envoyer le plan d’un climatiseur au 11e siècle. Même si le plan est suffisamment détaillé pour le fabriquer, les gens seront surpris de sentir l’air frais sortir de la machine car elle est fondée sur la relation entre la température et la pression et ils ignorent tout de cette loi de la nature. Pour esquisser ce qu’une super-intelligence pourrait faire, je dois creuser toujours plus loin dans des domaines où l’on pense qu’il y aura des avancées technologiques prévisibles, mais dont on ignore tout. Et plus je creuserai, plus ce sera difficile de me suivre.
It could be super persuasive. That's relatively easy to understand. We do not understand exactly how the brain works, so it's a great place to exploit laws of nature that we do not know about. Rules of the environment, invent new technologies beyond that. Can you build a synthetic virus that gives humans a cold and then a bit of neurological change and they're easier to persuade? Can you build your own synthetic biology, synthetic cyborgs? Can you blow straight past that to covalently bonded equivalents of biology, where instead of proteins that fold up and are held together by static cling, you've got things that go down much sharper potential energy gradients and are bonded together? People have done advanced design work about this sort of thing for artificial red blood cells that could hold 100 times as much oxygen if they were using tiny sapphire vessels to store the oxygen. There's lots and lots of room above biology, but it gets harder and harder to understand.
Ça pourrait être super convaincant. C’est assez simple de comprendre. On ne comprend pas bien le fonctionnement du cerveau. C’est un bel endroit pour explorer les lois de la nature qu’il nous reste à découvrir. L’environnement : inventer des nouvelles technologies qui vont plus loin. Est-il possible de créer un virus synthétique de la grippe pour l’homme et qui apporte un peu de changement neurologique facilitant la persuasion ? Pourra-t-on synthétiser sa propre biologie, des cyborgs synthétiques ? Peut-on dépasser cela rapidement pour atteindre des équivalents biologiques par liaison covalente ? Au lieu de protéines qui se structurent et tiennent ensemble statiquement, on obtiendrait des choses avec un potentiel énergétique plus grand et qui sont liées ? On a fait des avancées dans la conception de ce genre de choses, par exemple, des globules rouges artificiels capables d’absorber 100 fois plus d’oxygène s’ils utilisent un petit vaisseau en saphir pour emmagasiner l’oxygène. La biologie est un terreau hyper fertile, mais de plus en plus compliqué à comprendre.
CA: So what I hear you saying is that these terrifying possibilities there but your real guess is that AIs will work out something more devious than that. Is that really a likely pathway in your mind?
CA : Ce que vous dites, en fait, c’est qu’il y a des possibles terrifiants mais que l’IA, selon vous, trouvera quelque chose d’encore plus tordu. Est-ce votre fil de pensées ?
EY: Which part? That they're smarter than I am? Absolutely.
EY : Quelle partie ? Que l’IA est plus intelligente que moi ? Absolument.
CA: Not that they're smarter, but why would they want to go in that direction? Like, AIs don't have our feelings of sort of envy and jealousy and anger and so forth. So why might they go in that direction?
CA : Non, le fait qu’elle voudrait aller dans une autre direction. Les IA ne partagent pas nos sentiments d’envie, de jalousie et de colère, par exemple. Alors, pourquoi iraient-elles dans cette direction-là ?
EY: Because it's convergently implied by almost any of the strange, inscrutable things that they might end up wanting as a result of gradient descent on these "thumbs up" and "thumbs down" things internally. If all you want is to make tiny little molecular squiggles or that's like, one component of what you want, but it's a component that never saturates, you just want more and more of it, the same way that we would want more and more galaxies filled with life and people living happily ever after. Anything that just keeps going, you just want to use more and more material for that, that could kill everyone on Earth as a side effect. It could kill us because it doesn't want us making other superintelligences to compete with it. It could kill us because it's using up all the chemical energy on earth and we contain some chemical potential energy.
EY : L’implication convergente par presque toutes les choses étranges et impénétrables qu’elles pourraient vouloir, fruits de leur évolution graduelle interne suscitée par les pouces vers le haut ou vers le bas. Si on se limite à vouloir fabriquer des petits gribouillis moléculaires, ou un seul composant de ce que l’on veut, mais qui ne saturerait jamais et dont on voudrait toujours davantage, à l’image de notre vœu de voir toujours plus de galaxies avec la vie et des gens heureux à jamais. Tout ce qui se perpétue sans fin et pour lequel on voudrait utiliser toujours plus de matériau pour ça, et qui pourrait tuer l’humanité par effet secondaire car elle ne veut pas que nous créions d’autres super-intelligences qui la détrôneraient. Ou parce qu’elle consommerait toute l’énergie chimique de la Terre et nous faisons partie de ce réservoir chimique énergétique.
CA: So some people in the AI world worry that your views are strong enough
CA : Des personnes du monde de l’IA craignent
and they would say extreme enough that you're willing to advocate extreme responses to it. And therefore, they worry that you could be, you know, in one sense, a very destructive figure. Do you draw the line yourself in terms of the measures that we should take to stop this happening? Or is actually anything justifiable to stop the scenarios you're talking about happening?
que votre point de vue soit suffisamment puissant, ou extrême, affirmeront-elles, pour que vous défendiez des réactions tout aussi extrêmes. Et donc, ils craignent que vous puissiez devenir, d’une certaine manière, un personnage destructeur. Avez-vous défini une limite en termes de mesures que nous devrions prendre pour empêcher un tel avenir sombre ? Ou bien n’importe quoi est-il permis pour empêcher les scénarios que vous envisagez ?
EY: I don't think that "anything" works. I think that this takes state actors and international agreements and all international agreements by their nature, tend to ultimately be backed by force on the signatory countries and on the non-signatory countries, which is a more extreme measure. I have not proposed that individuals run out and use violence, and I think that the killer argument for that is that it would not work.
EY : Je ne pense pas que « n’importe quoi » fonctionnera. Je pense que cela nécessitera des États et des accords internationaux. Or tout accord international, par définition, a tendance à être soutenu par une force des pays signataires et non-signataires qui est elle-même une mesure plus extrême. Je ne suggère pas de sortir dans la rue et d’avoir recours à la violence et la bonne raison pour ça est que ce serait inadapté.
CA: Well, you are definitely not the only person to propose that what we need is some kind of international reckoning here on how to manage this going forward.
CA : Vous n’êtes certainement pas le seul à suggérer que nous ayons besoin d’une prise de conscience internationale sur la gestion de l’évolution de ces technologies.
Thank you so much for coming here to TED, Eliezer.
Merci de nous avoir rejoints, Eliezer.
(Applause)
(Applaudissements)