Nick Bostrom: What happens when our computers get smarter than we are?

I work with a bunch of mathematicians, philosophers and computer scientists, and we sit around and think about the future of machine intelligence, among other things. Some people think that some of these things are sort of science fiction-y, far out there, crazy. But I like to say, okay, let's look at the modern human condition. (Laughter) This is the normal way for things to be.

Я работаю с математиками, философами и информатиками. Среди всего прочего, мы собираемся и думаем о будущем машинного интеллекта. Некоторые люди полагают, что это вроде научной фантастики, далеко отсюда, безумие какое-то. Но я люблю говорить хорошо, давайте глянем на современное состояние человечества. (Смех) Всё как обычно.

But if we think about it, we are actually recently arrived guests on this planet, the human species. Think about if Earth was created one year ago, the human species, then, would be 10 minutes old. The industrial era started two seconds ago. Another way to look at this is to think of world GDP over the last 10,000 years, I've actually taken the trouble to plot this for you in a graph. It looks like this. (Laughter) It's a curious shape for a normal condition. I sure wouldn't want to sit on it. (Laughter)

Но если задуматься над этим, на самом деле мы гости, появившиеся совсем недавно на этой планете, человеческий род. Задумайтесь, если бы Земля была создана год назад, человеческому роду было бы всего 10 минут от роду. Индустриальная эра началась две секунды назад. Другой способ взглянуть на это — подумать о мировом ВВП за последние 10000 лет. Я построил для вас график. Это выглядит вот так. (Смех) Это любопытная форма для обычного состояния. Я бы не хотел сидеть на этом. (Смех)

Let's ask ourselves, what is the cause of this current anomaly? Some people would say it's technology. Now it's true, technology has accumulated through human history, and right now, technology advances extremely rapidly -- that is the proximate cause, that's why we are currently so very productive. But I like to think back further to the ultimate cause.

Давайте спросим себя, что же является причиной нынешней аномалии? Кто-то скажет, что это технологии. Да, это правда, технологии накопились за всё время существования человека, и сейчас технологии развиваются чрезвычайно быстро — это непосредственная причина, вот почему мы в последнее время очень продуктивны. Но мне хочется думать дальше, об окончательной цели.

Look at these two highly distinguished gentlemen: We have Kanzi -- he's mastered 200 lexical tokens, an incredible feat. And Ed Witten unleashed the second superstring revolution. If we look under the hood, this is what we find: basically the same thing. One is a little larger, it maybe also has a few tricks in the exact way it's wired. These invisible differences cannot be too complicated, however, because there have only been 250,000 generations since our last common ancestor. We know that complicated mechanisms take a long time to evolve. So a bunch of relatively minor changes take us from Kanzi to Witten, from broken-off tree branches to intercontinental ballistic missiles.

Взгляните на этих двух выдающихся джентльменов: У нас есть Канзи, он освоил 200 лексем, невероятный подвиг. И Эд Уиттен, развязавший вторую революцию в теории струн. Если мы посмотрим вглубь, вот что мы найдём: в основном одно и то же. Один чуть крупнее, может быть, хитрее устроен изнутри. Как бы там ни было, невидимые различия не могут быть очень сложными, потому что появилось всего 250 000 поколений после нашего последнего общего предка. Мы знаем, что сложным механизмам для эволюции требуется много времени. Куча относительно незначительных изменений привела нас от Канзи к Уиттену, от палок-копалок к межконтинентальным баллистическим ракетам.

So this then seems pretty obvious that everything we've achieved, and everything we care about, depends crucially on some relatively minor changes that made the human mind. And the corollary, of course, is that any further changes that could significantly change the substrate of thinking could have potentially enormous consequences.

Поэтому становится довольно очевидным, что всё достигнутое, и всё важное для нас кардинально зависит от незначительных изменений, создавших человеческий разум. И следствием, конечно же, является, то, что какие-либо дальнейшие изменения, которые могли бы существенно изменить основание мышления, могут иметь потенциально огромные последствия.

Some of my colleagues think we're on the verge of something that could cause a profound change in that substrate, and that is machine superintelligence. Artificial intelligence used to be about putting commands in a box. You would have human programmers that would painstakingly handcraft knowledge items. You build up these expert systems, and they were kind of useful for some purposes, but they were very brittle, you couldn't scale them. Basically, you got out only what you put in. But since then, a paradigm shift has taken place in the field of artificial intelligence.

Некоторые из моих коллег думают, что мы на грани чего-то, что может создать глубокое изменение в том основании и это машинный суперинтеллект. Искусственным интеллектом ранее считался ввод команд в ящик. У вас есть программисты-люди, которые кропотливо вручную создавали крупицы знаний. Вы строите экспертные системы, и они были в какой-то степени полезны для некоторых целей, но они были очень хрупкими, они не масштабировались. В основном мы получали только то, что вводили. Но с тех пор в области искусственного интеллекта произошла смена парадигмы.

Today, the action is really around machine learning. So rather than handcrafting knowledge representations and features, we create algorithms that learn, often from raw perceptual data. Basically the same thing that the human infant does. The result is A.I. that is not limited to one domain -- the same system can learn to translate between any pairs of languages, or learn to play any computer game on the Atari console. Now of course, A.I. is still nowhere near having the same powerful, cross-domain ability to learn and plan as a human being has. The cortex still has some algorithmic tricks that we don't yet know how to match in machines.

Сегодня вся активность сосредоточена вокруг машинного обучения. Вместо создания знания вручную мы создаём алгоритмы, которые обучаются, зачастую из необработанных сигналов сенсоров. Почти то же, что делает младенец. В результате ИИ не ограничен одной областью знаний. Одна и та же система может научиться переводить между несколькими парами языков, или научиться играть в компьютерные игры на игровой приставке Atari. Конечно, ИИ до сих пор далёк от мощной междисциплинарной способности обучаться и планировать, как это делает человек. У коры мозга всё ещё есть некоторые алгоритмические приёмы, которые мы ещё не знаем, как реализовать в машинах.

So the question is, how far are we from being able to match those tricks? A couple of years ago, we did a survey of some of the world's leading A.I. experts, to see what they think, and one of the questions we asked was, "By which year do you think there is a 50 percent probability that we will have achieved human-level machine intelligence?" We defined human-level here as the ability to perform almost any job at least as well as an adult human, so real human-level, not just within some limited domain. And the median answer was 2040 or 2050, depending on precisely which group of experts we asked. Now, it could happen much, much later, or sooner, the truth is nobody really knows.

Вопрос в том, как мы далеки от возможности реализовать эти приёмы? Пару лет назад мы опросили ведущих мировых экспертов по ИИ. Одним из наших вопросов был: «К какому году будет 50% вероятности, что мы достигнем машинного интеллекта человеческого уровня?» Мы определили человеческий уровень как способность выполнять практически любую работу также хорошо, как взрослый человек. Обычный человеческий уровень, не только в пределах какой-то ограниченной области. И средний ответ был 2040 или 2050, в зависимости от группы экспертов, которую мы опрашивали. Это может произойти намного-намного позднее или же раньше, по правде говоря, никто точно не знает.

What we do know is that the ultimate limit to information processing in a machine substrate lies far outside the limits in biological tissue. This comes down to physics. A biological neuron fires, maybe, at 200 hertz, 200 times a second. But even a present-day transistor operates at the Gigahertz. Neurons propagate slowly in axons, 100 meters per second, tops. But in computers, signals can travel at the speed of light. There are also size limitations, like a human brain has to fit inside a cranium, but a computer can be the size of a warehouse or larger. So the potential for superintelligence lies dormant in matter, much like the power of the atom lay dormant throughout human history, patiently waiting there until 1945. In this century, scientists may learn to awaken the power of artificial intelligence. And I think we might then see an intelligence explosion.

Но мы точно знаем, что предел скорости обработки информации машинами лежит далеко за пределами возможностей биологической ткани. Всё сводится к физике. Биологический нейрон срабатывает примерно 200 раз в секунду, 200 герц. Но даже современный транзистор работает на гигагерцах. Нейроны медленно двигаются в аксонах, максимум 100 метров в секунду. А в компьютерах сигналы могут путешествовать со скоростью света. Есть также ограничения по размеру. Человеческий мозг обязан умещаться внутри черепа, а компьютер может быть размером со склад или даже больше. Потенциал для интеллекта дремлет в материи, так же как энергия атома дремала на протяжении всей человеческой истории, терпеливо ожидая 1945 года. В этом столетии учёные могут узнать, как пробудить энергию искусственного интеллекта. И я думаю, что тогда мы могли бы увидеть взрыв интеллекта.

Now most people, when they think about what is smart and what is dumb, I think have in mind a picture roughly like this. So at one end we have the village idiot, and then far over at the other side we have Ed Witten, or Albert Einstein, or whoever your favorite guru is. But I think that from the point of view of artificial intelligence, the true picture is actually probably more like this: AI starts out at this point here, at zero intelligence, and then, after many, many years of really hard work, maybe eventually we get to mouse-level artificial intelligence, something that can navigate cluttered environments as well as a mouse can. And then, after many, many more years of really hard work, lots of investment, maybe eventually we get to chimpanzee-level artificial intelligence. And then, after even more years of really, really hard work, we get to village idiot artificial intelligence. And a few moments later, we are beyond Ed Witten. The train doesn't stop at Humanville Station. It's likely, rather, to swoosh right by.

Сейчас большинство людей, когда они думают о том, что умно, а что глупо, думаю у них в голове примерно такая картинка. На одном конце у нас есть деревенский идиот, а далеко на другой стороне у нас есть Эд Уиттен или Альберт Эйнштейн, или кто-либо из ваших любимых гуру. Но я думаю, что с точки зрения искусственного интеллекта настоящая картинка выглядит примерно вот так. ИИ начинается отсюда, в нулевом интеллекте и затем, после многих, многих лет очень тяжёлой работы, может быть, в итоге, мы получим искусственный интеллект уровня мыши. Что-то, что сможет перемещаться по беспорядочным средам, также как может мышь. Затем, после многих, многих лет тяжёлой работы, множества инвестиций, может быть, в итоге, мы получим искусственный интеллект уровня шимпанзе. Затем, после многих, многих лет очень, очень тяжёлой работы, мы придём к искусственному интеллекту деревенского дурачка. И несколько мгновений спустя окажемся дальше Эда Уиттена. Поезд не останавливается на станции «Человечество». Скорее он со свистом пронесётся мимо.

Now this has profound implications, particularly when it comes to questions of power. For example, chimpanzees are strong -- pound for pound, a chimpanzee is about twice as strong as a fit human male. And yet, the fate of Kanzi and his pals depends a lot more on what we humans do than on what the chimpanzees do themselves. Once there is superintelligence, the fate of humanity may depend on what the superintelligence does. Think about it: Machine intelligence is the last invention that humanity will ever need to make. Machines will then be better at inventing than we are, and they'll be doing so on digital timescales. What this means is basically a telescoping of the future. Think of all the crazy technologies that you could have imagined maybe humans could have developed in the fullness of time: cures for aging, space colonization, self-replicating nanobots or uploading of minds into computers, all kinds of science fiction-y stuff that's nevertheless consistent with the laws of physics. All of this superintelligence could develop, and possibly quite rapidly.

У этого далеко идущие последствия, особенно когда это касается вопросов энергии. Например, шимпанзе сильные во всех отношениях, шимпанзе примерно в два раза сильнее мужчины в форме. И ещё — судьба Канзи и его товарищей гораздо больше зависит от людей, чем от самих шимпанзе. Как только появится суперинтеллект, судьба человечества может зависеть от того, что будет делать суперинтеллект. Подумайте об этом: машинный интеллект — последнее изобретение человечества. Тогда машины будут лучше в изобретениях, чем мы, и они будут это делать с цифровой скоростью. Это означает телескопичность будущего. Подумайте обо всех сумасшедших технологиях, которые люди могли бы открыть, имея время в избытке: лекарства от старения, колонизация космоса, самовоспроизводящиеся нанороботы или загрузка мозгов в компьютеры, все виды вещей из научной фантастики, в рамках законов физики, конечно. Всё это мог бы открыть суперинтеллект и, возможно, довольно таки быстро.

Now, a superintelligence with such technological maturity would be extremely powerful, and at least in some scenarios, it would be able to get what it wants. We would then have a future that would be shaped by the preferences of this A.I. Now a good question is, what are those preferences? Here it gets trickier. To make any headway with this, we must first of all avoid anthropomorphizing. And this is ironic because every newspaper article about the future of A.I. has a picture of this: So I think what we need to do is to conceive of the issue more abstractly, not in terms of vivid Hollywood scenarios.

Суперинтеллект с такой технологической зрелостью был бы чрезвычайно влиятельным, и, по крайней мере по некоторым сценариям, он сможет получить всё, что захочет. Мы бы тогда имели будущее, сформированное предпочтениями этого ИИ. Теперь интересный вопрос в том, каковы эти предпочтения? Тут всё хитрее. Чтобы как-то сдвинуться, прежде всего мы обязаны избегать очеловечивания. И это иронично, потому что в каждой газетной статье о будущем ИИ есть такая картинка. Я думаю, что нам необходимо представить проблему более абстрактно, без ярких голливудских сценариев.

We need to think of intelligence as an optimization process, a process that steers the future into a particular set of configurations. A superintelligence is a really strong optimization process. It's extremely good at using available means to achieve a state in which its goal is realized. This means that there is no necessary connection between being highly intelligent in this sense, and having an objective that we humans would find worthwhile or meaningful.

Нам нужно подумать об интеллекте, как о процессе оптимизации, процессе, регулирующем будущее в определённый набор конфигураций. Суперинтеллект это очень сильный процесс оптимизации. Он чрезвычайно хорош в использовании доступных средств для достижения цели. Это значит, что нет обязательной связи между «быть очень интеллектуальным» в этом смысле и «иметь цель, которую мы люди нашли бы стоящей и значимой».

Suppose we give an A.I. the goal to make humans smile. When the A.I. is weak, it performs useful or amusing actions that cause its user to smile. When the A.I. becomes superintelligent, it realizes that there is a more effective way to achieve this goal: take control of the world and stick electrodes into the facial muscles of humans to cause constant, beaming grins. Another example, suppose we give A.I. the goal to solve a difficult mathematical problem. When the A.I. becomes superintelligent, it realizes that the most effective way to get the solution to this problem is by transforming the planet into a giant computer, so as to increase its thinking capacity. And notice that this gives the A.I.s an instrumental reason to do things to us that we might not approve of. Human beings in this model are threats, we could prevent the mathematical problem from being solved.

Предположим, что мы дали ИИ цель — «улыбнуть» людей. Когда ИИ слаб, он выполняет полезные и забавные действия, которые вызывают улыбку у пользователя. Когда ИИ становится суперумным, он понимает, что существует более эффективный способ достичь эту цель: взять мир под контроль и вживлять электроды в лицевые мышцы людей, вызывая постоянные сияющие улыбки. Другой пример. Предположим, мы даём ИИ цель — решить трудную математическую проблему. Когда ИИ становится суперумным, он понимает, что самый эффективный способ решить проблему — преобразовать планету в гигантский компьютер, чтобы улучшить свою мыслительную способность. И заметьте, что это даёт ИИ инструментальное обоснование делать для нас вещи, которые мы можем не одобрить. Люди в этой модели являются угрозами — мы могли препятствовать решению математической проблемы.

Of course, perceivably things won't go wrong in these particular ways; these are cartoon examples. But the general point here is important: if you create a really powerful optimization process to maximize for objective x, you better make sure that your definition of x incorporates everything you care about. This is a lesson that's also taught in many a myth. King Midas wishes that everything he touches be turned into gold. He touches his daughter, she turns into gold. He touches his food, it turns into gold. This could become practically relevant, not just as a metaphor for greed, but as an illustration of what happens if you create a powerful optimization process and give it misconceived or poorly specified goals.

Конечно, вещи не выйдут из-под контроля именно такими способами, это надуманные примеры. Но главная суть здесь важна: если вы создаёте очень мощный процесс оптимизации для максимизации цели «икс», вам лучше убедиться, что ваше определение «икс» включает всё, что вас волнует. Это урок, который также давался во многих мифах. Король Мидас желает, чтобы всё, чего он касается, превращалось в золото. Он трогает свою дочь, она превращается в золото. Он трогает свою еду, она превращается в золото. Это могло стать актуальным на практике, не только как метафора для жадности, но как иллюстрация возможности, что будет, если вы создадите мощный процесс оптимизации и дадите ему неправильное представление или плохо определённые цели.

Now you might say, if a computer starts sticking electrodes into people's faces, we'd just shut it off. A, this is not necessarily so easy to do if we've grown dependent on the system -- like, where is the off switch to the Internet? B, why haven't the chimpanzees flicked the off switch to humanity, or the Neanderthals? They certainly had reasons. We have an off switch, for example, right here. (Choking) The reason is that we are an intelligent adversary; we can anticipate threats and plan around them. But so could a superintelligent agent, and it would be much better at that than we are. The point is, we should not be confident that we have this under control here.

Вы можете сказать, что если компьютер начнёт вживлять электроды в лица людей, мы просто отключим его. А) это не обязательно легко сделать, если мы стали зависимыми от системы. Например, где кнопка отключения интернета? Б) почему шимпанзе не отключили кнопку человечества или неандертальцы? У них определённо были причины. У нас есть кнопка выключения, например, прямо здесь. (Душит) Причина в том, что мы интеллектуальные соперники: мы можем предвидеть угрозы и планировать обходные пути. Но это может и суперумный агент, и он будет намного лучше в этом, чем мы. Суть в том, что мы не должны быть уверены, что у нас это под контролем.

And we could try to make our job a little bit easier by, say, putting the A.I. in a box, like a secure software environment, a virtual reality simulation from which it cannot escape. But how confident can we be that the A.I. couldn't find a bug. Given that merely human hackers find bugs all the time, I'd say, probably not very confident. So we disconnect the ethernet cable to create an air gap, but again, like merely human hackers routinely transgress air gaps using social engineering. Right now, as I speak, I'm sure there is some employee out there somewhere who has been talked into handing out her account details by somebody claiming to be from the I.T. department.

И мы могли бы попытаться сделать нашу работу проще, скажем, запихнув ИИ в коробку, в безопасную программную среду, виртуальную имитацию реальности из которой он не сможет сбежать. Но насколько мы можем быть уверены, что ИИ не сможет найти такую ошибку. Учитывая, что даже человеческие хакеры находят ошибки всё время, я бы сказал, возможно, не очень уверены. Мы отсоединили сетевой кабель, чтобы создать воздушный зазор. Но опять же, человеческие хакеры регулярно нарушают воздушные зазоры, используя социальную инженерию. В то время как я говорю, я уверен, где-то там есть некий работник, которого убедил раскрыть свой пароль кто-то, утверждающий, что он из отдела ИТ.

More creative scenarios are also possible, like if you're the A.I., you can imagine wiggling electrodes around in your internal circuitry to create radio waves that you can use to communicate. Or maybe you could pretend to malfunction, and then when the programmers open you up to see what went wrong with you, they look at the source code -- Bam! -- the manipulation can take place. Or it could output the blueprint to a really nifty technology, and when we implement it, it has some surreptitious side effect that the A.I. had planned. The point here is that we should not be confident in our ability to keep a superintelligent genie locked up in its bottle forever. Sooner or later, it will out.

Возможно, будут ещё более творческие сценарии, как если бы ИИ представлялся вам шевелящимися электродами вокруг вашей внутренней схемы, создающим радиоволны, которые вы можете использовать для общения. Или, может, вы могли бы симулировать сбои, и затем, когда программисты вскроют вас, что же с вами пошло не так, они посмотрят на исходный код — Бам! Манипуляция имеет место быть. Или он может напечатать схему действительно отличной технологии, и когда мы реализуем её, будут некоторые тайные побочные эффекты, которые ИИ уже спланировал. Суть здесь в том, что мы не должны быть уверены в нашей способности вечно держать сверхразумного джина взаперти в бутылке. Рано или поздно он выйдет наружу.

I believe that the answer here is to figure out how to create superintelligent A.I. such that even if -- when -- it escapes, it is still safe because it is fundamentally on our side because it shares our values. I see no way around this difficult problem.

Я верю, что ответ заключается в том, чтобы выяснить, как создать сверхразумный ИИ с учётом, что если он сбежит, он всё равно будет безопасен, потому что он по существу на нашей стороне и разделяет наши ценности. Я не вижу путей обхода этой сложной проблемы.

Now, I'm actually fairly optimistic that this problem can be solved. We wouldn't have to write down a long list of everything we care about, or worse yet, spell it out in some computer language like C++ or Python, that would be a task beyond hopeless. Instead, we would create an A.I. that uses its intelligence to learn what we value, and its motivation system is constructed in such a way that it is motivated to pursue our values or to perform actions that it predicts we would approve of. We would thus leverage its intelligence as much as possible to solve the problem of value-loading.

Вообще я довольно оптимистичен, что эту проблему можно решить. Не нужно писать длинный список всего что нас волнует, или ещё хуже, расшифровывать это на каком-нибудь компьютерном языке, как C++ или Python. Это было бы безнадёжной задачей. Вместо этого мы бы создали ИИ, который использует свой интеллект для познания того, чем мы дорожим. ИИ, который был бы мотивирован преследовать наши ценности или выполнять действия, наше одобрение на которые он предсказал. Следовательно, мы бы использовали его интеллект как можно больше, чтобы решить проблему наполнения ценностями.

This can happen, and the outcome could be very good for humanity. But it doesn't happen automatically. The initial conditions for the intelligence explosion might need to be set up in just the right way if we are to have a controlled detonation. The values that the A.I. has need to match ours, not just in the familiar context, like where we can easily check how the A.I. behaves, but also in all novel contexts that the A.I. might encounter in the indefinite future.

Это может произойти, и результат может быть очень полезен для человечества. Но это не произойдёт автоматически. Начальные условия для взрыва интеллекта нуждаются в правильной установке, если мы хотим иметь контролируемый взрыв. Ценности ИИ должны согласовываться с нашими, не просто в знакомых контекстах, где мы можем легко проверить, как ИИ себя ведёт, но также во всех новых контекстах, с которыми ИИ может столкнуться в неопределённом будущем.

And there are also some esoteric issues that would need to be solved, sorted out: the exact details of its decision theory, how to deal with logical uncertainty and so forth. So the technical problems that need to be solved to make this work look quite difficult -- not as difficult as making a superintelligent A.I., but fairly difficult. Here is the worry: Making superintelligent A.I. is a really hard challenge. Making superintelligent A.I. that is safe involves some additional challenge on top of that. The risk is that if somebody figures out how to crack the first challenge without also having cracked the additional challenge of ensuring perfect safety.

Также, есть несколько необычных проблем, которые нам необходимо решить: точные детали его теории принятия решений, как обращаться с логической неуверенностью и так далее. Технические проблемы, нужные для завершения этой работы, выглядят весьма трудно, не так трудно, как создание сверхразумного ИИ, но довольно трудно. Вот что нас волнует: создание сверхразумного ИИ — действительно сложная задача. Создание сверхразумного и безопасного ИИ включает в себя ещё некоторые дополнительные проблемы. Риск в том, что кто-то сможет решить первую задачу без решения второй задачи, без обеспечения безопасности.

So I think that we should work out a solution to the control problem in advance, so that we have it available by the time it is needed. Now it might be that we cannot solve the entire control problem in advance because maybe some elements can only be put in place once you know the details of the architecture where it will be implemented. But the more of the control problem that we solve in advance, the better the odds that the transition to the machine intelligence era will go well.

Я думаю, мы должны заранее найти решение проблемы контроля, чтобы оно было доступно, когда понадобится. Возможно, мы не сможем решить проблему контроля целиком и заранее, потому что, возможно, некоторые элементы могут быть разработаны только со знанием деталей архитектуры места реализации. Но чем большую часть проблемы контроля мы решим заранее, тем больше наши шансы на благополучный переход к эре машинного интеллекта.

This to me looks like a thing that is well worth doing and I can imagine that if things turn out okay, that people a million years from now look back at this century and it might well be that they say that the one thing we did that really mattered was to get this thing right.

Для меня это выглядит проблемой, достойной решения, и я могу представить, что если всё пойдёт хорошо, через миллион лет люди взглянут назад на этот век, и, вполне возможно, они скажут, что единственной важной вещью была именно эта.

Thank you.

Спасибо.

(Applause)

(Аплодисменты)