Since 2001, I have been working on what we would now call the problem of aligning artificial general intelligence: how to shape the preferences and behavior of a powerful artificial mind such that it does not kill everyone.
2001년부터 제가 일해 온 분야는 현재 일반 인공 지능 정렬 문제라고 부르는 분야입니다. 즉, 어떻게 강력한 인공 정신의 행동과 선호도를 형성하여 사람들을 죽이지 않게 만들 것인가 하는 문제입니다.
I more or less founded the field two decades ago, when nobody else considered it rewarding enough to work on. I tried to get this very important project started early so we'd be in less of a drastic rush later. I consider myself to have failed.
제가 20년 전에 이 분야의 기반을 사실상 다졌다고 할 수 있는데 그때는 그게 보람찬 일이라고 생각하는 사람이 아무도 없었죠. 저는 이 굉장히 중요한 프로젝트가 일찍 시작되게 하려고 노력했습니다. 그러면 나중에 극단적으로 서두를 필요가 조금이라도 줄겠죠. 저는 제가 실패했다고 봅니다.
(Laughter)
(웃음)
Nobody understands how modern AI systems do what they do. They are giant, inscrutable matrices of floating point numbers that we nudge in the direction of better performance until they inexplicably start working. At some point, the companies rushing headlong to scale AI will cough out something that's smarter than humanity. Nobody knows how to calculate when that will happen. My wild guess is that it will happen after zero to two more breakthroughs the size of transformers.
현대 AI가 어떻게 작동하는지 이해하는 사람은 아무도 없어요. 그들은 거대하고 불가해한 부동 소수점들 행렬로서 더 나은 성능을 위해 그들을 밀어부쳐서 그들은 설명할 수 없는 방식으로 작동하는 지경에 이르렀습니다. AI를 확장하기 위해 저돌적으로 서두르는 기업들이 인류보다 더 똑똑한 뭔가를 언젠가 뱉어내게 될 겁니다. 그게 일어날 시점을 알 방법은 어디에도 없죠. 제가 대략 추정한다면, 트랜스포머 규모에서 돌파구를 많아야 두 개 정도 더 찾은 뒤에 일어날 것 같습니다.
What happens if we build something smarter than us that we understand that poorly? Some people find it obvious that building something smarter than us that we don't understand might go badly. Others come in with a very wide range of hopeful thoughts about how it might possibly go well.
제대로 이해도 못 하면서 우리보다 똑똑한 걸 만들면 어떻게 될까요? 어떤 사람들은 우리가 이해도 못 하면서 우리보다 똑똑한 걸 만든다면 일이 잘못될 게 명백하다고 합니다. 다른 사람들은 그게 어떻게 잘 될 수 있을지에 대해 굉장히 광범위한 희망찬 생각들을 들고 오죠.
Even if I had 20 minutes for this talk and months to prepare it, I would not be able to refute all the ways people find to imagine that things might go well. But I will say that there is no standard scientific consensus for how things will go well. There is no hope that has been widely persuasive and stood up to skeptical examination. There is nothing resembling a real engineering plan for us surviving that I could critique. This is not a good place in which to find ourselves.
20분짜리 이 강연을 위해 몇 달을 준비한다 해도 사람들이 AI가 잘 될 거라고 상상하는 모든 것들에 대해 반박할 수는 없었을 겁니다. 하지만 저는 그게 어떻게 잘 될지에 대해서는 표준 과학계의 합의가 없다고 말씀 드리겠습니다. 광범위하게 설득적이면서도 회의론자들의 공격을 버텨낸 희망은 아직 없습니다. 우리의 생존을 위한 진짜 공학적 계획과 비슷한 것도 없습니다. 제가 논할 수 있는 한은요. 지금 우리의 처지는 좋은 상황이 아닙니다.
If I had more time, I'd try to tell you about the predictable reasons why the current paradigm will not work to build a superintelligence that likes you or is friends with you, or that just follows orders. Why, if you press "thumbs up" when humans think that things went right or "thumbs down" when another AI system thinks that they went wrong, you do not get a mind that wants nice things in a way that generalizes well outside the training distribution to where the AI is smarter than the trainers. You can search for "Yudkowsky list of lethalities" for more.
시간이 더 많았다면 몇 가지 그럴듯한 이유들을 말씀드렸을 것입니다. 현재의 패러다임으로는 우리를 좋아하는 초지능, 또는 친구 같은 초지능이나 지시를 그냥 따르는 초지능을 만들 수 없는 이유 말입니다. 잘됐다고 인간이 생각할 떄 ‘좋아요’를 누르거나, 잘못됐다고 다른 AI 시스템이 생각할 때 ‘싫어요’를 누른다면, 훈련 받지 않은 부분도 잘 일반화해서 훈련 교관보다 더 똑똑한 AI가 되어 좋은 것만 원하는 인공 정신을 왜 얻을 수 없는 걸까요? 더 알고 싶으시면 ‘유드코스키 치명성 목록’을 검색해보세요.
(Laughter)
(웃음)
But to worry, you do not need to believe me about exact predictions of exact disasters. You just need to expect that things are not going to work great on the first really serious, really critical try because an AI system smart enough to be truly dangerous was meaningfully different from AI systems stupider than that. My prediction is that this ends up with us facing down something smarter than us that does not want what we want, that does not want anything we recognize as valuable or meaningful.
걱정되시겠지만, 그렇다고 정확히 어떤 재난이 벌어질지 제가 정확히 예측했다고 생각할 필요는 없습니다. 여러분은 그냥 진짜 진지하고 진짜 결정적인 최초 시도에서는 일이 잘 되지 않을 거라고 생각하시면 됩니다. 진정으로 위험할 정도로 똑똑한 AI는 그보다 더 멍청한 AI와는 아주 다를 것이기 때문입니다. 제 예상으로는 이건 결국 우리가 원하는 걸 원하지도 않고, 우리가 가치를 두거나 의미있게 여기는 그 어떤 것도 원하지 않으면서도 우리보다 똑똑한 뭔가를 대면하는 결과를 낳을 것입니다.
I cannot predict exactly how a conflict between humanity and a smarter AI would go for the same reason I can't predict exactly how you would lose a chess game to one of the current top AI chess programs, let's say Stockfish. If I could predict exactly where Stockfish could move, I could play chess that well myself. I can't predict exactly how you'll lose to Stockfish, but I can predict who wins the game. I do not expect something actually smart to attack us with marching robot armies with glowing red eyes where there could be a fun movie about us fighting them. I expect an actually smarter and uncaring entity will figure out strategies and technologies that can kill us quickly and reliably and then kill us.
똑똑한 AI와 인류 간에 어떤 갈등이 불거질지 저도 정확히 예상 못 합니다. 현재 최고 AI 체스 프로그램, 예컨대 스톡피시와 체스를 두면 여러분이 정확히 어떤 식으로 질지 예상할 수 없는 것과 같습니다. 만약 스톡피시가 말을 어디로 움직일지 제가 정확히 예상할 수 있다면, 제가 체스를 그 정도로 잘했겠죠. 여러분이 스톡피시에게 어떻게 질지 제가 정확히 예상할 수는 없지만, 누가 경기에서 이길지는 예상할 수 있습니다. 저는 진짜 똑똑한 뭔가가 붉은 눈을 번쩍거리며 진군하는 로봇 군단으로 우리를 공격하는 상황, 우리가 그들과 싸우는 재밌는 영화 같은 상황을 예상하진 않습니다. 제가 예상하는 건, 진짜 더 똑똑하고 무정한 존재라면 신속하고 확실하게 죽일 수 있는 기술을 알아낸 다음 우리를 죽일 거라는 겁니다.
I am not saying that the problem of aligning superintelligence is unsolvable in principle. I expect we could figure it out with unlimited time and unlimited retries, which the usual process of science assumes that we have. The problem here is the part where we don't get to say, “Ha ha, whoops, that sure didn’t work. That clever idea that used to work on earlier systems sure broke down when the AI got smarter, smarter than us.” We do not get to learn from our mistakes and try again because everyone is already dead.
저는 초지능을 정렬하는 문제가 원칙적으로 해결될 수 없다는 얘기를 하는 게 아닙니다. 시간이 무한히 있고 무한히 시도하면 알아낼 수 있을 겁니다. 일반적인 과학적 절차에서 가정하는 것이죠. 문제는 우리가 이렇게 얘기할 수 없다는 점입니다. “하하, 아이고, 그건 확실히 안 통하네. 초창기 시스템에서 통했던 그 기막힌 아이디어가 AI가 우리보다 더 똑똑해지니까 확실히 소용없어졌군.” 우리는 실수에서 배우고 다시 시도해 볼 수 없을 겁니다. 벌써 모두 다 죽었으니까요.
It is a large ask to get an unprecedented scientific and engineering challenge correct on the first critical try. Humanity is not approaching this issue with remotely the level of seriousness that would be required. Some of the people leading these efforts have spent the last decade not denying that creating a superintelligence might kill everyone, but joking about it.
무리한 요구일 수 있습니다. 전례 없는 과학적, 공학적 과제를 한 방에 정확히 해결한다는 건 말이죠. 인류가 이 문제에 접근하는 방식은 합당한 심각성 수준에서 한참 동떨어져 있습니다. 이런 노력들을 이끄는 사람들 중 일부는 지난 십 년간 초지능을 만든다는 게 모두를 죽일 거란 점을 부인하는 대신에 그걸 농담거리로 삼았습니다.
We are very far behind. This is not a gap we can overcome in six months, given a six-month moratorium. If we actually try to do this in real life, we are all going to die.
우리는 굉장히 뒤처져 있어요. 이건 6개월 유예 선언 같은 걸로 우리가 6개월 만에 극복할 수 있는 격차가 아닙니다. 현실에서 이걸 진짜로 시도하려 한다면 우린 모두 죽을 거예요.
People say to me at this point, what's your ask? I do not have any realistic plan, which is why I spent the last two decades trying and failing to end up anywhere but here. My best bad take is that we need an international coalition banning large AI training runs, including extreme and extraordinary measures to have that ban be actually and universally effective, like tracking all GPU sales, monitoring all the data centers, being willing to risk a shooting conflict between nations in order to destroy an unmonitored data center in a non-signatory country.
사람들은 이쯤에서 말하죠, 그래서 어쩌자고? 제겐 어떤 현실적인 계획도 없습니다. 그래서 지난 20년간 시도했지만 아무런 성과 없이 여기까지 온 거죠. 대략 생각하기에는 거대 AI 훈련을 금지하는 국제 연대가 필요합니다. 그러한 금지가 실제적이고 보편적인 효과를 내도록 할 극단적이고 예외적인 조치까지 포함해서 말이죠. 모든 GPU 판매를 추적하거나, 모든 데이터 센터를 감시하거나, 조약에 서명하지 않은 국가에 있는 감시받지 않는 데이터 센터를 파괴하기 위해 국가 간의 분쟁도 불사할 의지 같은 것 말이에요.
I say this, not expecting that to actually happen. I say this expecting that we all just die. But it is not my place to just decide on my own that humanity will choose to die, to the point of not bothering to warn anyone. I have heard that people outside the tech industry are getting this point faster than people inside it. Maybe humanity wakes up one morning and decides to live.
이렇게 얘기는 해도 실제로 될 거라 기대하진 않습니다. 그냥 모두 죽을 거라 생각하지만 얘기를 하는 거예요. 그런데 인류가 다른 사람들에게 구태여 경고하지도 않고 죽음을 선택할 것이라는 말은 제 마음대로 그냥 하는 소리가 아닙니다. 저는 기술 업계 외부인들이 업계 내부자들보다 이 지점을 더 빨리 이해한다고 들었습니다. 인류는 어느 날 아침에 일어나서 살아야겠다고 정할지도 모릅니다.
Thank you for coming to my brief TED talk.
저의 간략한 TED 강연에 와주셔서 감사합니다.
(Laughter)
(웃음)
(Applause and cheers)
(박수)(환호)
Chris Anderson: So, Eliezer, thank you for coming and giving that. It seems like what you're raising the alarm about is that like, for this to happen, for an AI to basically destroy humanity, it has to break out, escape controls of the internet and, you know, start commanding actual real-world resources. You say you can't predict how that will happen, but just paint one or two possibilities.
크리스 앤더슨: 네, 엘리에저, 오늘 강연 감사드립니다. 엘리에저 씨가 경종을 울리는 것은, 그런 일이 일어나려면, AI가 인류를 없애려면, 그게 인터넷의 통제에서 벗어나고 탈출해서, 실제로 현실 자원을 통제하기 시작해야 한다는 말이죠. 그게 어떻게 벌어질지 예상할 수 없다고 하셨지만, 그냥 한두 가지 가능성을 그려보시죠.
Eliezer Yudkowsky: OK, so why is this hard? First, because you can't predict exactly where a smarter chess program will move. Maybe even more importantly than that, imagine sending the design for an air conditioner back to the 11th century. Even if they -- if it’s enough detail for them to build it, they will be surprised when cold air comes out because the air conditioner will use the temperature-pressure relation and they don't know about that law of nature. So if you want me to sketch what a superintelligence might do, I can go deeper and deeper into places where we think there are predictable technological advancements that we haven't figured out yet. And as I go deeper, it will get harder and harder to follow.
엘리에저 유드코스키: 좋습니다, 이게 왜 어려울까요? 첫째, 더 똑똑한 체스 프로그램의 다음 수를 정확히 예상할 수 없거든요. 어쩌면 그보다 더 중요한 건, 에어컨 설계도를 11세기로 보낸다고 상상해보세요. 설령 그 시대 사람들이 그걸 만들 만큼 충분한 세부 사항을 담았다 해도, 에어컨에서 찬 바람이 나오면 그들은 깜짝 놀랄 겁니다. 왜냐하면 에어컨은 온도-압력 상관관계를 사용할 텐데 그들은 그 법칙을 아직 모르기 때문입니다. 그래서 크리스 씨가 제게 초지능이 뭘 할지 그려보라 하신다면, 우리가 아직 알지 못하지만 기술적 진보가 예측되는 분야에 대해 점점 더 깊이 파고들어 볼 수 있을 겁니다. 또 제가 더 깊이 파고들수록 점점 더 따라가기 힘들어지겠죠. 이야기는 무척 설득적일 수 있습니다.
It could be super persuasive. That's relatively easy to understand. We do not understand exactly how the brain works, so it's a great place to exploit laws of nature that we do not know about. Rules of the environment, invent new technologies beyond that. Can you build a synthetic virus that gives humans a cold and then a bit of neurological change and they're easier to persuade? Can you build your own synthetic biology, synthetic cyborgs? Can you blow straight past that to covalently bonded equivalents of biology, where instead of proteins that fold up and are held together by static cling, you've got things that go down much sharper potential energy gradients and are bonded together? People have done advanced design work about this sort of thing for artificial red blood cells that could hold 100 times as much oxygen if they were using tiny sapphire vessels to store the oxygen. There's lots and lots of room above biology, but it gets harder and harder to understand.
상대적으로 이해하기 쉬울 수도 있죠. 우리는 아직 뇌가 어떻게 작동하는지 정확히 이해하지 못합니다. 그래서 아직 우리가 모르는 자연 법칙을 뽑아내기 좋은 분야죠. 환경 법칙이나 그걸 뛰어 넘는 신기술을 창안할 수 있어요. 합성 바이러스를 만들어서 인간이 감기에 걸리게 만든 다음에 신경 회로를 약간 바꾸어서 더 설득하기 쉽게 만들 수 있을까요? 자신만의 합성 생명체, 합성 사이보그를 만들 수 있을까요? 그걸 곧장 뛰어 넘어 공유 결합으로 결합한 생명체로 넘어갈 수 있을까요? 단백질이 접혀져서 정적 결합에 의해 묶인 게 아니라 훨씬 더 급격한 에너지 차이를 두고 서로 결합된 그런 것 말입니다. 사람들은 이런 종류의 것들에 대해 선행 설계 작업을 해왔습니다. 산소를 100배나 운반할 수 있는 인공 적혈구 세포는 산소를 저장하기 위해 아주 작은 사파이어 용기를 씁니다. 생물학 너머 많고 많은 영역이 더 있을 수 있지만 점점 더 이해하기 어려워지죠.
CA: So what I hear you saying is that these terrifying possibilities there but your real guess is that AIs will work out something more devious than that. Is that really a likely pathway in your mind?
크리스: 그럼 엘리에저 씨 말씀은 이런 무시무시한 가능성들이 있지만 엘리에저 씨가 진짜로 추측하는 건 AI들이 그것보다 훨씬 더 이상한 것도 만들어낼 거란 건가요? 그게 진짜 엘리에저 씨 생각에 가능성 있는 경로인가요?
EY: Which part? That they're smarter than I am? Absolutely.
엘리에저: 어떤 부분이요? 그들이 저보다 더 똑똑하다는 부분 말이라면 그건 확실하죠.
CA: Not that they're smarter, but why would they want to go in that direction? Like, AIs don't have our feelings of sort of envy and jealousy and anger and so forth. So why might they go in that direction?
크리스: 그들이 더 똑똑하다는 것 말고요, 왜 그런 방향으로 가고 싶어할 건지 말입니다. 그러니까, AI들은 우리처럼 시기와 질투와 분노 같은 감정이 없잖아요. 그런데 왜 AI들이 그런 방향으로 가려고 하겠어요?
EY: Because it's convergently implied by almost any of the strange, inscrutable things that they might end up wanting as a result of gradient descent on these "thumbs up" and "thumbs down" things internally. If all you want is to make tiny little molecular squiggles or that's like, one component of what you want, but it's a component that never saturates, you just want more and more of it, the same way that we would want more and more galaxies filled with life and people living happily ever after. Anything that just keeps going, you just want to use more and more material for that, that could kill everyone on Earth as a side effect. It could kill us because it doesn't want us making other superintelligences to compete with it. It could kill us because it's using up all the chemical energy on earth and we contain some chemical potential energy.
엘리에저: 왜냐하면 그 이상하고 이해할 수 없는 거의 모든 것들이 이런 ‘좋아요‘와 ‘싫어요’ 같은 것들에 대한 점진적인 선호도 때문에 결국 그걸 원할 것임을 암시하고 있기 때문입니다. 당신이 원하는 게 그저 조그만 분자 뭉텅이를 만드는 게 전부거나 혹은 그게 당신이 원하는 것의 한 요소일 뿐이라 해도, 그건 절대 멈추지 않고 그저 계속 더 많이 원하게 됩니다. 우리가 점점 더 많은 은하들이 생명으로 가득 차길 바라고 사람들이 오래 오래 행복하게 살기를 원하는 것과 마찬가지죠. 무엇이든 그렇게 멈추지 않고 그걸 위해 점점 더 많은 재료를 쓰는 것만을 원한다면, 그 부작용으로 지구상의 모든 사람을 죽일 수도 있는 거예요. AI는 그것과 경쟁할 다른 초지능을 우리가 만드는 걸 원치 않기 때문에 우리를 죽일 수도 있습니다. AI는 지구상의 모든 화학 에너지를 다 쓰고 나서 인체의 화학적 위치 에너지 때문에 우리를 죽일 수도 있습니다.
CA: So some people in the AI world worry that your views are strong enough
크리스: AI 업계에 있는 어떤 분들이 우려하는 점은
and they would say extreme enough that you're willing to advocate extreme responses to it. And therefore, they worry that you could be, you know, in one sense, a very destructive figure. Do you draw the line yourself in terms of the measures that we should take to stop this happening? Or is actually anything justifiable to stop the scenarios you're talking about happening?
엘리에저 씨의 견해가 너무 강해서, 그분들 표현에 따르면 너무 극단적이라서, 엘리에저 씨가 극단적인 대응을 지지한다는 점입니다. 따라서 그분들이 우려하는 점은 엘리에저 씨가 어떤 의미로는, 몹시 파괴적인 인물이 될 수 있다는 거예요. 엘리에저 씨는 이 일이 일어나는 걸 막기 위해 우리가 취할 조치에 한계를 두시나요? 아니면 엘리에저 씨가 일어날 거라고 말씀하신 예상을 실제로 막을 수만 있다면 무엇이든 정당화할 수 있으신가요?
EY: I don't think that "anything" works. I think that this takes state actors and international agreements and all international agreements by their nature, tend to ultimately be backed by force on the signatory countries and on the non-signatory countries, which is a more extreme measure. I have not proposed that individuals run out and use violence, and I think that the killer argument for that is that it would not work.
엘리에저: 저는 ‘무엇이든’ 통할 거라고 생각하진 않습니다. 제 생각에는 이는 국가 차원의 움직임과 국제 협정이 필요하다고 생각합니다. 또 모든 국제 협정은 본질적으로 서명 국가들과 비 서명 국가들에게 궁극적으로는 강제로 이행되게 해야 하는데 이건 더 극단적인 조치죠. 저는 개인들이 뛰쳐나가서 폭력을 사용할 것을 제안하진 않았습니다. 그에 대한 핵심 근거는 그게 쓸데없다고 생각하기 떼문입니다.
CA: Well, you are definitely not the only person to propose that what we need is some kind of international reckoning here on how to manage this going forward.
크리스: 네, 이 문제에 앞으로 어떻게 대처해야 할지에 대해 일종의 국제적인 인식이 필요하다는 점을 제안해주신 건 확실히 엘리에저 씨만은 아닙니다.
Thank you so much for coming here to TED, Eliezer.
TED에 나와 주셔서 대단히 감사합니다, 엘리에저 씨.
(Applause)
(박수)