Since 2001, I have been working on what we would now call the problem of aligning artificial general intelligence: how to shape the preferences and behavior of a powerful artificial mind such that it does not kill everyone.
С 2001 года я работаю над тем, что сейчас можно назвать проблемой выверки общего искусственного интеллекта — как сформировать предпочтения и поведение мощного искусственного разума таким образом, чтобы он не поубивал всех нас.
I more or less founded the field two decades ago, when nobody else considered it rewarding enough to work on. I tried to get this very important project started early so we'd be in less of a drastic rush later. I consider myself to have failed.
Я, можно сказать, создал это направление двадцать лет назад, когда все остальные считали это неблагодарным трудом. Я хотел начать эту важную работу как можно раньше, чтобы избежать спешки на следующих этапах. Похоже, я не справился.
(Laughter)
(Смех)
Nobody understands how modern AI systems do what they do. They are giant, inscrutable matrices of floating point numbers that we nudge in the direction of better performance until they inexplicably start working. At some point, the companies rushing headlong to scale AI will cough out something that's smarter than humanity. Nobody knows how to calculate when that will happen. My wild guess is that it will happen after zero to two more breakthroughs the size of transformers.
Никто не понимает, как работают современные системы ИИ. Огромные непонятные матрицы из чисел с плавающей запятой, которые мы подталкиваем в нужном направлении, пока они необъяснимым образом не начинают работать. В один прекрасный момент компании, торопящиеся масштабно внедрить ИИ, выдадут нам нечто, что будет умнее человечества. Никто не может предсказать, когда это произойдёт. Мне кажется, что ещё 0–2 открытия, подобного трансформерам, и это случится.
What happens if we build something smarter than us that we understand that poorly? Some people find it obvious that building something smarter than us that we don't understand might go badly. Others come in with a very wide range of hopeful thoughts about how it might possibly go well.
Что будет, если мы создадим нечто умнее нас самих, совершенно не понимая этого? Для некоторых очевидно, что создание того, что умнее нас и чего мы не понимаем, ничем хорошим не кончится. Другие же питают различные надежды на то, что, возможно, всё будет хорошо.
Even if I had 20 minutes for this talk and months to prepare it, I would not be able to refute all the ways people find to imagine that things might go well. But I will say that there is no standard scientific consensus for how things will go well. There is no hope that has been widely persuasive and stood up to skeptical examination. There is nothing resembling a real engineering plan for us surviving that I could critique. This is not a good place in which to find ourselves.
Даже если бы я готовился к этому выступлению несколько месяцев и у меня было бы 20 минут, я не смог бы опровергнуть все эти воображаемые сценарии того, как всё будет хорошо. Скажу лишь одно: научного консенсуса об успешном исходе не существует. Ни одна из этих надежд не была достаточно убедительной и не выдержала критического рассмотрения. У нас даже нет настоящего плана выживания в этой ситуации, который я мог бы раскритиковать. Это незавидная ситуация.
If I had more time, I'd try to tell you about the predictable reasons why the current paradigm will not work to build a superintelligence that likes you or is friends with you, or that just follows orders. Why, if you press "thumbs up" when humans think that things went right or "thumbs down" when another AI system thinks that they went wrong, you do not get a mind that wants nice things in a way that generalizes well outside the training distribution to where the AI is smarter than the trainers. You can search for "Yudkowsky list of lethalities" for more.
Будь у меня побольше времени, я бы рассказал вам о предсказуемых причинах того, почему текущая парадигма не подходит для создания суперинтеллекта, который нас любит, дружелюбно настроен или просто выполняет приказы. Почему, если мы жмём «Нравится», когда человек считает, что дела идут хорошо, или «Не нравится», когда другой ИИ считает, что они идут плохо, в результате не создаётся разум, желающий всем добра и хорошо работающий вне обучающих программ даже там, где ИИ умнее тренеров. Подробнее об этом можно почитать в моём «Списке летальных исходов».
(Laughter)
(Смех)
But to worry, you do not need to believe me about exact predictions of exact disasters. You just need to expect that things are not going to work great on the first really serious, really critical try because an AI system smart enough to be truly dangerous was meaningfully different from AI systems stupider than that. My prediction is that this ends up with us facing down something smarter than us that does not want what we want, that does not want anything we recognize as valuable or meaningful.
Но чтобы начать волноваться, вам необязательно верить моим точным предсказаниям грядущих катастроф. Вам достаточно понимать, что ничего хорошего не выйдет, когда будет предпринята первая серьёзная, критическая попытка, потому что система ИИ, которая умна настолько, чтобы быть опасной, будет значительно отличаться от систем, которые были глупее неё. Моё предсказание таково: нам придётся противостоять чему-то умнее нас, которое при этом не разделяет наших желаний, стремлений и ценностей.
I cannot predict exactly how a conflict between humanity and a smarter AI would go for the same reason I can't predict exactly how you would lose a chess game to one of the current top AI chess programs, let's say Stockfish. If I could predict exactly where Stockfish could move, I could play chess that well myself. I can't predict exactly how you'll lose to Stockfish, but I can predict who wins the game. I do not expect something actually smart to attack us with marching robot armies with glowing red eyes where there could be a fun movie about us fighting them. I expect an actually smarter and uncaring entity will figure out strategies and technologies that can kill us quickly and reliably and then kill us.
Не могу точно сказать, как будет выглядеть конфликт между человечеством и таким ИИ, по той же причине, по которой нельзя предсказать, как именно вы проиграете в шахматы одной из программ ИИ, например Stockfish. Если бы я точно знал, какой ход сделает Stockfish, я бы и сам играл в шахматы не хуже. Не могу сказать точно, как вы проиграете в игре с Stockfish, но могу предсказать, кто победит. Я не думаю, что нечто разумное нападёт на нас с войсками роботов с красными горящими глазами, хотя из нашего с ними сражения получился бы классный фильм. Я считаю, что нечто умнее нас и при этом безразличное разработает стратегии и технологии, способные нас легко и просто убить, и затем убьёт нас.
I am not saying that the problem of aligning superintelligence is unsolvable in principle. I expect we could figure it out with unlimited time and unlimited retries, which the usual process of science assumes that we have. The problem here is the part where we don't get to say, “Ha ha, whoops, that sure didn’t work. That clever idea that used to work on earlier systems sure broke down when the AI got smarter, smarter than us.” We do not get to learn from our mistakes and try again because everyone is already dead.
Я не говорю, что проблему выверки суперинтеллекта невозможно решить в принципе. Я думаю, мы решили бы её, если бы имели бесконечное количество времени и попыток, как предполагает стандартный научный процесс. Но штука в том, что у нас не будет возможности сказать: «Ха-ха, в этот раз не получилось! Та классная идея, которая работала для более ранних систем, не применима к этому ИИ, который стал умнее». Мы не сможем учиться на своих ошибках, потому что все уже умрут.
It is a large ask to get an unprecedented scientific and engineering challenge correct on the first critical try. Humanity is not approaching this issue with remotely the level of seriousness that would be required. Some of the people leading these efforts have spent the last decade not denying that creating a superintelligence might kill everyone, but joking about it.
В принципе невозможно решить беспрецедентную научную и техническую задачу правильно с первой попытки. Человечество смотрит на эту проблему, даже близко не походя к ней с той серьёзностью, которая тут требуется. Некоторые из тех, кто возглавляет эту работу, в последнее десятилетие не опровергают возможность создания суперинтеллекта, способного всех погубить, а шутят об этом.
We are very far behind. This is not a gap we can overcome in six months, given a six-month moratorium. If we actually try to do this in real life, we are all going to die.
Мы сильно отстаём. И это не задержка, которую можно наверстать за полгода, если будет шестимесячный мораторий. Если мы действительно попытаемся сделать это таким образом, мы все умрём.
People say to me at this point, what's your ask? I do not have any realistic plan, which is why I spent the last two decades trying and failing to end up anywhere but here. My best bad take is that we need an international coalition banning large AI training runs, including extreme and extraordinary measures to have that ban be actually and universally effective, like tracking all GPU sales, monitoring all the data centers, being willing to risk a shooting conflict between nations in order to destroy an unmonitored data center in a non-signatory country.
Обычно все спрашивают меня, чего я добиваюсь. У меня нет никаких реалистичных планов, и именно поэтому последние 20 лет я безуспешно пытаюсь прийти к какому-либо результату, отличному от текущего. Я считаю, что наш лучший шанс — это международная коалиция, запрещающая крупные проекты по обучению ИИ. Нам также нужны крайние и чрезвычайные меры по достижению универсальной эффективности этого запрета, например, отслеживание всех продаж GPU, мониторинг всех центров обработки данных, принятие риска международного вооружённого конфликта с целью уничтожения неконтролируемого центра данных в стране, не подписавшей договор.
I say this, not expecting that to actually happen. I say this expecting that we all just die. But it is not my place to just decide on my own that humanity will choose to die, to the point of not bothering to warn anyone. I have heard that people outside the tech industry are getting this point faster than people inside it. Maybe humanity wakes up one morning and decides to live.
Я говорю это, не веря, что это на самом деле случится. Я говорю это, считая, что мы все просто умрём. Но у меня нет права единолично решить, что человечество выберет смерть, поэтому я должен хотя бы предостеречь. Говорят, что люди за пределами отрасли высоких технологий более восприимчивы к этой идее, чем люди в ней. Возможно, однажды человечество проснётся и выберет жизнь.
Thank you for coming to my brief TED talk.
Спасибо, что выслушали моё краткое выступление TED.
(Laughter)
(Смех)
(Applause and cheers)
(Аплодисменты и одобрительные возгласы)
Chris Anderson: So, Eliezer, thank you for coming and giving that. It seems like what you're raising the alarm about is that like, for this to happen, for an AI to basically destroy humanity, it has to break out, escape controls of the internet and, you know, start commanding actual real-world resources. You say you can't predict how that will happen, but just paint one or two possibilities.
Крис Андерсон: Элиезер, спасибо за ваше выступление. Я правильно понимаю, что вы хотите предостеречь нас, что ИИ может уничтожить человечество, если он высвободится из-под контроля Интернета и начнёт управлять реальными жизненными ресурсами? Вы говорите, что не можете предсказать, как это произойдёт, но приведите нам несколько возможных сценариев.
Eliezer Yudkowsky: OK, so why is this hard? First, because you can't predict exactly where a smarter chess program will move. Maybe even more importantly than that, imagine sending the design for an air conditioner back to the 11th century. Even if they -- if it’s enough detail for them to build it, they will be surprised when cold air comes out because the air conditioner will use the temperature-pressure relation and they don't know about that law of nature. So if you want me to sketch what a superintelligence might do, I can go deeper and deeper into places where we think there are predictable technological advancements that we haven't figured out yet. And as I go deeper, it will get harder and harder to follow.
Элиезер Юдковский: Да. Почему это сложно? Во-первых, потому что мы не знаем, какой ход сделает умная шахматная программа. Возможно, даже важнее вот что: представьте, если мы перенесём чертёж кондиционера в XI век. Даже если его соберут там — если чертёж будет достаточно подробным — они очень удивятся, когда из него подует холодом, потому что в основе кондиционера лежит зависимость температура-давление, а им не знаком такой природный закон. Поэтому, если вы хотите, чтобы я описа́л, что может сделать суперинтеллект, я могу углубиться в то, какие предсказуемые технические достижения могут произойти, о которых мы ещё не знаем. И чем глубже я буду копать, тем сложнее это будет для понимания.
It could be super persuasive. That's relatively easy to understand. We do not understand exactly how the brain works, so it's a great place to exploit laws of nature that we do not know about. Rules of the environment, invent new technologies beyond that. Can you build a synthetic virus that gives humans a cold and then a bit of neurological change and they're easier to persuade? Can you build your own synthetic biology, synthetic cyborgs? Can you blow straight past that to covalently bonded equivalents of biology, where instead of proteins that fold up and are held together by static cling, you've got things that go down much sharper potential energy gradients and are bonded together? People have done advanced design work about this sort of thing for artificial red blood cells that could hold 100 times as much oxygen if they were using tiny sapphire vessels to store the oxygen. There's lots and lots of room above biology, but it gets harder and harder to understand.
Возможно, ИИ будет очень убедительным. Это достаточно просто понять. Мы точно не знаем, как работает мозг, поэтому это хороший старт для изучения неизвестных нам законов природы. Правила среды. Изобрести новые технологии. Можно ли создать искусственный вирус простуды и внести неврологические изменения, чтобы человека было легче убедить? Можно ли создать новую искусственную биологию, синтетических киборгов? Можно ли пронестись сразу к ковалентно связанным эквивалентам биологии, где вместо белков, которые сворачиваются и удерживаются статической связью, мы получим вещества с более резким градиентом потенциальной энергии и соединяющиеся друг с другом? Уже была проделана огромная работа по разработке таких моделей, например искусственные эритроциты, которые удерживают в 100 раз больше кислорода, используя микроскопические сапфирные сосуды для его хранения. В сфере биологии для ИИ огромный простор, но это очень сложно для понимания.
CA: So what I hear you saying is that these terrifying possibilities there but your real guess is that AIs will work out something more devious than that. Is that really a likely pathway in your mind?
КА: То есть вы говорите, что существуют страшные возможные сценарии, но вы считаете, что ИИ разработает что-то более хитрое. На ваш взгляд, это действительно вероятный сценарий?
EY: Which part? That they're smarter than I am? Absolutely.
ЭЮ: Что именно? Что они умнее меня? Без сомнения.
CA: Not that they're smarter, but why would they want to go in that direction? Like, AIs don't have our feelings of sort of envy and jealousy and anger and so forth. So why might they go in that direction?
КА: Не то что они умнее, а что они захотят пойти именно этим путём? Ведь ИИ не наделён чувствами зависти, ревности, злости и так далее. Тогда зачем ему идти этим путём?
EY: Because it's convergently implied by almost any of the strange, inscrutable things that they might end up wanting as a result of gradient descent on these "thumbs up" and "thumbs down" things internally. If all you want is to make tiny little molecular squiggles or that's like, one component of what you want, but it's a component that never saturates, you just want more and more of it, the same way that we would want more and more galaxies filled with life and people living happily ever after. Anything that just keeps going, you just want to use more and more material for that, that could kill everyone on Earth as a side effect. It could kill us because it doesn't want us making other superintelligences to compete with it. It could kill us because it's using up all the chemical energy on earth and we contain some chemical potential energy.
ЭЮ: Потому что это подразумевается почти всеми странными, непостижимыми желаниями, которые могут возникнуть у него в результате градиентного спуска по «Нравится» и «Не нравится». Если единственная цель — создать малюсенькие молекулярные загогулинки, или если это один из компонентов цели, которого постоянно недостаточно, вам нужно ещё и ещё, так же, как нам хотелось бы создавать галактики, наполненные жизнью, и людей, живущих долго и счастливо. Для любого бесконечного процесса вам понадобится всё больше и больше материи, и побочным эффектом может стать смерть всего живого на земле. ИИ может уничтожить нас, чтобы мы не создали другие суперинтеллекты, с которыми ему придётся соперничать. Он может уничтожить нас, так как использует всю химическую энергию Земли, а в нас тоже есть потенциальная химическая энергия.
CA: So some people in the AI world worry that your views are strong enough and they would say extreme enough that you're willing to advocate extreme responses to it. And therefore, they worry that you could be, you know, in one sense, a very destructive figure. Do you draw the line yourself in terms of the measures that we should take to stop this happening? Or is actually anything justifiable to stop the scenarios you're talking about happening?
КА: Некоторых представителей мира ИИ, возможно, беспокоит то, что ваши взгляды настолько категоричны и даже настолько радикальны, что вы готовы выступать за радикальные меры. И поэтому, возможно, вас считают в какой-то мере разрушительной силой. Вы сами устанавливаете какие-то границы на меры, которые нам нужно предпринимать? Или вы считаете любую меру оправданной для того, чтобы предотвратить эти сценарии?
EY: I don't think that "anything" works. I think that this takes state actors and international agreements and all international agreements by their nature, tend to ultimately be backed by force on the signatory countries and on the non-signatory countries, which is a more extreme measure. I have not proposed that individuals run out and use violence, and I think that the killer argument for that is that it would not work.
ЭЮ: Ну не любую. Я считаю, что необходимо участие государственных властей и международных соглашений. А все международные соглашения, по своей сути, обычно подкреплены силой как со стороны подписавших его стран, так и со стороны не подписавших, что является радикальной мерой. Я не призываю людей выходить на улицы и прибегать к насилию, и основная причина в том, что это не поможет.
CA: Well, you are definitely not the only person to propose that what we need is some kind of international reckoning here on how to manage this going forward.
КА: Ну, вы точно не единственный, кто говорит, что нам нужен какой-то международный план того, что с этим делать в будущем.
Thank you so much for coming here to TED, Eliezer.
Большое спасибо, что поговорили с нами, Элиезер.
(Applause)
(Аплодисменты)