Since 2001, I have been working on what we would now call the problem of aligning artificial general intelligence: how to shape the preferences and behavior of a powerful artificial mind such that it does not kill everyone.
Desde 2001, he estado trabajando en lo que hoy llamaríamos el problema de la alineación de la inteligencia artificial general: cómo moldear las preferencias y la conducta de una poderosa mente artificial de tal manera que no mate a todo el mundo.
I more or less founded the field two decades ago, when nobody else considered it rewarding enough to work on. I tried to get this very important project started early so we'd be in less of a drastic rush later. I consider myself to have failed.
Fundé este campo hace dos décadas, más o menos, cuando nadie más consideraba que trabajar en ello valiera la pena. Intenté poner en marcha este proyecto tan importante pronto así tendríamos menos prisas después. Me considero un fracasado.
(Laughter)
(Risas)
Nobody understands how modern AI systems do what they do. They are giant, inscrutable matrices of floating point numbers that we nudge in the direction of better performance until they inexplicably start working. At some point, the companies rushing headlong to scale AI will cough out something that's smarter than humanity. Nobody knows how to calculate when that will happen. My wild guess is that it will happen after zero to two more breakthroughs the size of transformers.
Nadie entiende cómo los sistemas de IA modernos hacen lo que hacen. Son matrices gigantescas e inescrutables de números en coma flotantes que impulsamos hacia un mejor rendimiento hasta que inexplicablemente empiezan a funcionar. En algún punto, las empresas que se lanza de cabeza a la IA producirán algo que será más inteligente que la humanidad. Nadie sabe cómo calcular cuándo va a ocurrir. Mi suposición más descabellada es que ocurrirá después de uno o dos avances más del tamaño de los Transformers.
What happens if we build something smarter than us that we understand that poorly? Some people find it obvious that building something smarter than us that we don't understand might go badly. Others come in with a very wide range of hopeful thoughts about how it might possibly go well.
¿Y si creamos algo más inteligente que nosotros sin apenas entenderlo? A algunos les resulta obvio que crear algo más inteligente que nosotros sin entenderlo podría terminar muy mal. Otros vienen con una gama muy amplia de pensamientos esperanzadores sobre cómo podría salir bien.
Even if I had 20 minutes for this talk and months to prepare it,
Aunque tuviera 20 minutos para dar esta charla
I would not be able to refute all the ways people find to imagine that things might go well. But I will say that there is no standard scientific consensus for how things will go well. There is no hope that has been widely persuasive and stood up to skeptical examination. There is nothing resembling a real engineering plan for us surviving that I could critique. This is not a good place in which to find ourselves.
y meses para prepararla, no sería capaz de refutar todas las formas que la gente halla para imaginar que las cosas pueden ir bien. Pero diré que no existe un consenso científico uniforme sobre cómo irán bien las cosas. No hay ninguna esperanza que haya sido ampliamente persuasiva y vaya más allá del puro escepticismo. No hay nada parecido a un verdadero plan de ingeniería para que sobrevivamos al que podría criticar. Este no es un buen lugar en el que encontrarnos.
If I had more time, I'd try to tell you about the predictable reasons why the current paradigm will not work to build a superintelligence that likes you or is friends with you, or that just follows orders. Why, if you press "thumbs up" when humans think that things went right or "thumbs down" when another AI system thinks that they went wrong, you do not get a mind that wants nice things in a way that generalizes well outside the training distribution to where the AI is smarter than the trainers. You can search for "Yudkowsky list of lethalities" for more.
Si tuviera más tiempo, trataría de hablarles sobre las razones predecibles de por qué el paradigma actual no servirá para crear una superinteligencia a la que le caigas bien o sea tu amiga, o que simplemente siga órdenes. ¿Por qué si pulsas “pulgares arriba” cuando los humanos piensan que las cosas han ido bien o “pulgares abajo” cuando otro sistema de IA piensa que fueron mal no consigues una mente que quiera cosas buenas de forma que se generalice bien fuera de la distribución de entrenamiento hasta donde la IA es más inteligente que los entrenadores? Puedes buscar: “lista de formas en que podemos morir de Yudkowsky”
(Laughter)
para más información.
(Risas)
But to worry, you do not need to believe me about exact predictions of exact disasters. You just need to expect that things are not going to work great on the first really serious, really critical try because an AI system smart enough to be truly dangerous was meaningfully different from AI systems stupider than that. My prediction is that this ends up with us facing down something smarter than us that does not want what we want, that does not want anything we recognize as valuable or meaningful.
Pero, para preocuparse, no hace falta que me crean en lo de predicciones exactas de catástrofes exactas. Sólo tienen que esperar que las cosas no van a funcionar muy bien en el primer intento realmente serio y crítico porque un sistema de IA lo bastante listo como para ser ciertamente peligroso era significativamente distinto a los sistemas de IA más estúpidos que él. Mi predicción es que esto acaba con nosotros enfrentándonos a algo más inteligente que nosotros que no quiere lo que nosotros queremos, que no quiere nada que reconozcamos como valioso o significativo.
I cannot predict exactly how a conflict between humanity and a smarter AI would go
No puedo predecir exactamente cómo sería un conflicto
for the same reason I can't predict exactly how you would lose a chess game to one of the current top AI chess programs, let's say Stockfish. If I could predict exactly where Stockfish could move, I could play chess that well myself. I can't predict exactly how you'll lose to Stockfish, but I can predict who wins the game. I do not expect something actually smart to attack us with marching robot armies with glowing red eyes where there could be a fun movie about us fighting them. I expect an actually smarter and uncaring entity will figure out strategies and technologies that can kill us quickly and reliably and then kill us.
entre la humanidad y una IA más inteligente por la misma razón por la que no puedo predecir exactamente cómo perderías una partida de ajedrez contra uno de los mejores programas de ajedrez de IA actuales, como Stockfish. Si pudiera predecir exactamente dónde podría mover Stockfish, yo mismo podría jugar así de bien al ajedrez. No puedo predecir exactamente cómo perderás contra Stockfish, pero sí quién ganará la partida. No espero que algo realmente inteligente nos ataque con ejércitos de robots marchando con ojos rojos incandescentes donde podría haber una película divertida sobre nosotros luchando contra ellos. Espero que una entidad verdaderamente más inteligente e insensible descubra estrategias y tecnologías que puedan matarnos de forma rápida y fiable y entonces nos mate.
I am not saying that the problem of aligning superintelligence is unsolvable in principle. I expect we could figure it out with unlimited time and unlimited retries, which the usual process of science assumes that we have. The problem here is the part where we don't get to say, “Ha ha, whoops, that sure didn’t work. That clever idea that used to work on earlier systems sure broke down when the AI got smarter, smarter than us.” We do not get to learn from our mistakes and try again because everyone is already dead.
No estoy diciendo que el problema de alinear superinteligencias sea irresoluble por principio. Supongo que podríamos averiguarlo con tiempo ilimitado y reintentos ilimitados, algo que el proceso habitual de la ciencia supone que tenemos. El problema aquí es la parte en la que no podemos decir, “Ja, ja, vaya, seguro que no ha funcionado”. Esa idea inteligente que solía funcionar en sistemas anteriores seguro que se vino abajo cuando la IA se hizo más lista, más lista que nosotros”. No podemos aprender de nuestros errores e intentarlo de nuevo porque ya están todos muertos.
It is a large ask to get an unprecedented scientific and engineering challenge correct on the first critical try. Humanity is not approaching this issue with remotely the level of seriousness that would be required. Some of the people leading these efforts have spent the last decade not denying that creating a superintelligence might kill everyone, but joking about it.
Es mucho pedir que un reto científico y de ingeniería sin precedentes salga bien al primer intento crítico. La humanidad no está abordando esta cuestión ni remotamente con el nivel de seriedad que sería necesario. Algunas de las personas que lideran estos esfuerzos se han pasado la última década no negando que la creación de una superinteligencia podría matarnos a todos, sino bromeando al respecto.
We are very far behind. This is not a gap we can overcome in six months, given a six-month moratorium. If we actually try to do this in real life, we are all going to die.
Nos estamos quedando muy atrás. No es una brecha que podamos superar en seis meses, dada una moratoria de seis meses. Si realmente lo intentamos hacer esto en la vida real, moriremos todos.
People say to me at this point, what's your ask? I do not have any realistic plan, which is why I spent the last two decades trying and failing to end up anywhere but here. My best bad take is that we need an international coalition banning large AI training runs, including extreme and extraordinary measures to have that ban be actually and universally effective, like tracking all GPU sales, monitoring all the data centers, being willing to risk a shooting conflict between nations in order to destroy an unmonitored data center in a non-signatory country.
La gente me dice a estas alturas, ¿cuál es tu pregunta? No tengo ningún plan realista, por eso pasé las últimas dos décadas intentando y no consiguiendo acabar en cualquier lugar salvo aquí. Mi mejor mala opinión es que necesitamos una coalición internacional que prohíba las grandes carreras de entrenamiento de la IA, incluyendo medidas extremas y extraordinarias para que esa prohibición sea realmente y universalmente eficaz, como rastrear todas las ventas de GPU, monitorizar todos los centros de datos, estar dispuesto a arriesgar un conflicto de bélico entre naciones para destruir un centro de datos no vigilado en un país no signatario.
I say this, not expecting that to actually happen. I say this expecting that we all just die. But it is not my place to just decide on my own that humanity will choose to die, to the point of not bothering to warn anyone. I have heard that people outside the tech industry are getting this point faster than people inside it. Maybe humanity wakes up one morning and decides to live.
Digo esto, sin esperar que realmente suceda. Digo esto esperando que todos muramos. Pero no me corresponde a mí decidir por mi cuenta que la humanidad decidirá morir, hasta el punto de no molestarme en avisar a nadie. He oído que la gente de fuera de la industria tecnológica está entendiendo este punto más rápido que la gente de dentro. Quizás la humanidad despierte una mañana y decida vivir.
Thank you for coming to my brief TED talk.
Gracias por venir a mi breve charla TED.
(Laughter)
(Risas)
(Applause and cheers)
(Aplausos y ovaciones)
Chris Anderson: So, Eliezer, thank you for coming and giving that. It seems like what you're raising the alarm about is that like, for this to happen, for an AI to basically destroy humanity, it has to break out, escape controls of the internet and, you know, start commanding actual real-world resources. You say you can't predict how that will happen, but just paint one or two possibilities.
Chris Anderson: Eliezer, gracias por venir y darla. Parece que sobre lo que estás levantado la alarma es que, para que esto suceda, para que un IA destruya básicamente a la humanidad, tiene que fugarse, escapar de los controles de Internet y, ya sabes, empezar a controlar los recursos propios del mundo real. Dices que no puedes predecir cómo sucederá pero tan sólo dibuja una o dos posibilidades.
Eliezer Yudkowsky: OK, so why is this hard? First, because you can't predict exactly where a smarter chess program will move. Maybe even more importantly than that, imagine sending the design for an air conditioner back to the 11th century. Even if they -- if it’s enough detail for them to build it, they will be surprised when cold air comes out because the air conditioner will use the temperature-pressure relation and they don't know about that law of nature. So if you want me to sketch what a superintelligence might do, I can go deeper and deeper into places where we think there are predictable technological advancements that we haven't figured out yet. And as I go deeper, it will get harder and harder to follow.
Eliezer Yudkowsky: OK, ¿por qué es tan difícil? En primer lugar, porque no se puede predecir con exactitud dónde moverá un programa de ajedrez más inteligente. Quizás aún más importante que eso, Imagínense enviar el diseño de un aparato de aire acondicionado al siglo XI. Incluso si... si son suficientes detalles para que lo construyan, se sorprenderán cuando salga aire frío porque el aire acondicionado utilizará la relación temperatura-presión y ellos no conocen esa ley de la naturaleza. Así que si quieres que esboce lo que una superinteligencia podría hacer, puedo ahondar cada vez más en espacios donde creemos que hay avances tecnológicos predecibles que aún no hemos imaginado. Y a medida que profundice, será cada vez más difícil de seguir.
It could be super persuasive. That's relatively easy to understand. We do not understand exactly how the brain works, so it's a great place to exploit laws of nature that we do not know about. Rules of the environment, invent new technologies beyond that. Can you build a synthetic virus that gives humans a cold and then a bit of neurological change and they're easier to persuade? Can you build your own synthetic biology, synthetic cyborgs? Can you blow straight past that to covalently bonded equivalents of biology, where instead of proteins that fold up and are held together by static cling, you've got things that go down much sharper potential energy gradients and are bonded together? People have done advanced design work about this sort of thing for artificial red blood cells that could hold 100 times as much oxygen if they were using tiny sapphire vessels to store the oxygen. There's lots and lots of room above biology, but it gets harder and harder to understand.
Podría ser muy persuasivo. Eso es relativamente fácil de entender. No entendemos con exactitud cómo funciona el cerebro, es un gran espacio para aprovechar leyes de la naturaleza desconocidas Normativa sobre el medio ambiente, inventad nuevas tecnologías más allá de eso. ¿Se puede construir un virus sintético que cause un resfriado a los humanos y después un pequeño de cambio neurológico para que sean más fáciles de persuadir? ¿Puedes construir tu propia biología sintética, ciborgs sintéticos? ¿Puedes pasar directamente a los equivalentes con enlace covalente de la biología, donde en lugar de proteínas que se pliegan se mantienen unidos por aferramiento estático? ¿disponemos de algo que descienda gradientes de la energía potencial mucho más agudos y están unidas entre sí? La gente ha hecho trabajo de diseño avanzado sobre este tipo de cosas para glóbulos rojos artificiales que podría contener 100 veces más oxígeno si utilizaban pequeños recipientes de zafiro para almacenar el oxígeno. Hay mucho, mucho espacio por encima de la biología, pero cada vez es más difícil de entender.
CA: So what I hear you saying is that these terrifying possibilities there but your real guess is that AIs will work out something more devious than that. Is that really a likely pathway in your mind?
CA: Así que lo que te oigo decir es que estas aterradoras posibilidades existen, pero tu suposición real es que las IAs idearán algo más enrevesado que eso. ¿Crees realmente que es una vía probable?
EY: Which part? That they're smarter than I am? Absolutely.
EY: ¿Qué parte? ¿Que son más listos que yo? Por supuesto.
CA: Not that they're smarter, but why would they want to go in that direction? Like, AIs don't have our feelings of sort of envy and jealousy and anger and so forth. So why might they go in that direction?
CA: No es que sean más inteligentes, pero ¿por qué querrían ir en esa dirección? Las IAs no tienen nuestros sentimientos de envidia, celos e ira... etcétera. Entonces, ¿por qué podrían ir en esa dirección?
EY: Because it's convergently implied by almost any of the strange, inscrutable things that they might end up wanting as a result of gradient descent on these "thumbs up" and "thumbs down" things internally. If all you want is to make tiny little molecular squiggles or that's like, one component of what you want, but it's a component that never saturates, you just want more and more of it, the same way that we would want more and more galaxies filled with life and people living happily ever after. Anything that just keeps going, you just want to use more and more material for that, that could kill everyone on Earth as a side effect. It could kill us because it doesn't want us making other superintelligences to compete with it. It could kill us because it's using up all the chemical energy on earth and we contain some chemical potential energy.
EY: Porque está implícito de forma convergente en casi cualquiera de las cosas extrañas e inescrutables que podrían acabar queriendo como resultado del descenso gradual en esto de “pulgares arriba” y “pulgares abajo” a nivel interno. Si todo lo que quieres es hacer pequeños garabatos moleculares o eso es como un componente de lo que quieres, pero es un componente que nunca satura, sólo quieres más y más de eso, de la misma manera que querríamos más y más galaxias llenas de vida y gente viviendo feliz para siempre. Cualquier cosa que siga avanzando, sólo quieres consumir más y más material para eso, que podría matarnos a todos en la Tierra como efecto secundario. Podría matarnos porque no quiere que creemos otras superinteligencias que compitan con ella. Podría matarnos porque está agotando toda la energía química de la Tierra y nosotros contenemos energía potencial química.
CA: So some people in the AI world worry that your views are strong enough and they would say extreme enough that you're willing to advocate extreme responses to it. And therefore, they worry that you could be, you know, in one sense, a very destructive figure. Do you draw the line yourself in terms of the measures that we should take to stop this happening? Or is actually anything justifiable to stop the scenarios you're talking about happening?
CA: Así que, algunas personas dentro del mundo de la IA se preocupan de que tus opiniones son lo bastante firmes e incluso extremistas que estás dispuesto a proponer respuestas extremistas. Y por lo tanto, les preocupa que puedas ser, ya sabes, en cierto sentido, una figura muy destructiva. ¿Trazas tú mismo la línea con respecto a las medidas que deberíamos tomar para evitar que esto ocurra? ¿O hay algo realmente justificable para impedir que se produzcan los escenarios de los que hablas?
EY: I don't think that "anything" works. I think that this takes state actors and international agreements and all international agreements by their nature, tend to ultimately be backed by force on the signatory countries and on the non-signatory countries, which is a more extreme measure. I have not proposed that individuals run out and use violence, and I think that the killer argument for that is that it would not work.
EY: No creo que “nada” funcione. Creo que esto requiere entidades públicas y acuerdos internacionales y todos los acuerdos internacionales, por su naturaleza, tienden a ser respaldados en última instancia por la fuerza sobre los países signatarios y sobre los países no signatarios, lo que constituye una medida más extrema. No he propuesto que los individuos salgan corriendo y utilicen la violencia, y creo que el argumento asesino para ello es que no funcionaría.
CA: Well, you are definitely not the only person to propose that what we need is some kind of international reckoning here on how to manage this going forward.
CA: Bueno, no es usted la única persona que propone que lo que necesitamos es algún tipo de ajuste de cuentas internacional sobre cómo gestionar esto de ahora en adelante.
Thank you so much for coming here to TED, Eliezer.
Muchas gracias por venir a TED, Eliezer.
(Applause)
(Aplausos)