Yejin Choi: Why AI is incredibly smart and shockingly stupid

So I'm excited to share a few spicy thoughts on artificial intelligence.

Рада поделиться с вами мыслями, вызывающими неоднозначную реакцию,

But first, let's get philosophical by starting with this quote by Voltaire, an 18th century Enlightenment philosopher, who said, "Common sense is not so common." Turns out this quote couldn't be more relevant to artificial intelligence today. Despite that, AI is an undeniably powerful tool, beating the world-class "Go" champion, acing college admission tests and even passing the bar exam.

об искусственном интеллекте. Но для начала давайте пофилософствуем, начав с цитаты Вольтера, философа-просветителя XVIII века, который сказал: «Здравый смысл присущ отнюдь не всем». Оказывается, эта цитата сегодня как нельзя кстати подходит к теме ИИ. Несмотря на это, ИИ — бесспорно, мощный инструмент, который победил мирового чемпиона по игре в го, блестяще сдаёт вступительные экзамены в ВУЗы и даже экзамены на адвоката.

I’m a computer scientist of 20 years, and I work on artificial intelligence. I am here to demystify AI. So AI today is like a Goliath. It is literally very, very large. It is speculated that the recent ones are trained on tens of thousands of GPUs and a trillion words. Such extreme-scale AI models, often referred to as "large language models," appear to demonstrate sparks of AGI, artificial general intelligence. Except when it makes small, silly mistakes, which it often does. Many believe that whatever mistakes AI makes today can be easily fixed with brute force, bigger scale and more resources. What possibly could go wrong?

Я уже 20 лет работаю в области компьютерных наук и занимаюсь искусственным интеллектом. Я хочу развеять мифы об ИИ. ИИ сегодня подобен Голиафу. Он огромен в буквальном смысле слова. Считается, что новые модели тренируют на сотнях тысяч графических процессоров и триллионах слов. Кажется, что такие гигантские модели ИИ, часто называемые «большими языковыми моделями», демонстрируют возможности AGI, универсального искусственного интеллекта. Однако бывает, что он делает маленькие нелепые ошибки, и это случается часто. Многие считают, что какие бы ошибки ни делал ИИ сегодня, ситуацию можно легко исправить методом решения в лоб, пользуясь бóльшим масштабом и бóльшими ресурсами. Что же тут может пойти не так?

So there are three immediate challenges we face already at the societal level. First, extreme-scale AI models are so expensive to train, and only a few tech companies can afford to do so. So we already see the concentration of power. But what's worse for AI safety, we are now at the mercy of those few tech companies because researchers in the larger community do not have the means to truly inspect and dissect these models. And let's not forget their massive carbon footprint and the environmental impact.

Уже сегодня мы как общество столкнулись с тремя непосредственными проблемами. Во-первых, гигантские модели ИИ очень дорого обучать, так что только всего несколько IT-компаний могут себе это позволить, и мы уже наблюдаем концентрацию власти. Но, что ещё хуже в плане безопасности ИИ, сегодня мы находимся во власти этих немногих технологических компаний, потому что исследователи из более широкого сообщества не располагают средствами для тщательного изучения и анализа этих моделей. И давайте не забывать про их большие углеродные выбросы и воздействие на окружающую среду.

And then there are these additional intellectual questions. Can AI, without robust common sense, be truly safe for humanity? And is brute-force scale really the only way and even the correct way to teach AI?

Кроме того, есть много дополнительных интеллектуальных вопросов. Может ли ИИ, не обладая здравым смыслом, быть поистине безопасным для человечества? И действительно ли масштаб и метод решения в лоб — единственный и правильный способ обучения ИИ?

So I’m often asked these days whether it's even feasible to do any meaningful research without extreme-scale compute. And I work at a university and nonprofit research institute, so I cannot afford a massive GPU farm to create enormous language models. Nevertheless, I believe that there's so much we need to do and can do to make AI sustainable and humanistic. We need to make AI smaller, to democratize it. And we need to make AI safer by teaching human norms and values. Perhaps we can draw an analogy from "David and Goliath," here, Goliath being the extreme-scale language models, and seek inspiration from an old-time classic, "The Art of War," which tells us, in my interpretation, know your enemy, choose your battles, and innovate your weapons.

Меня часто спрашивают, можно ли провести какое-либо содержательное исследование без экстремальных вычислений. Я работаю в университете и некоммерческом научно-исследовательском институте и не могу себе позволить огромный кластер GPU для гигантских языковых моделей. Тем не менее, я считаю, что нам необходимо проделать много работы, чтобы ИИ не наносил ущерба окружающей среде и был гуманистическим. Нам нужно, чтобы модели ИИ имели меньший размер и были бы демократизированы. И нам нужно сделать ИИ более безопасным, обучив его нашим нормам и ценностям. Мы могли бы провести параллель с Давидом и Голиафом, где Голиаф — это языковая модель экстремального масштаба, и искать вдохновение в классическом трактате «Искусство войны», который учит нас (в моей интерпретации): знай своего врага, выбирай битвы и обновляй оружие.

Let's start with the first, know your enemy, which means we need to evaluate AI with scrutiny. AI is passing the bar exam. Does that mean that AI is robust at common sense? You might assume so, but you never know.

Давайте начнём с первого: знай своего врага. Это значит, что мы должны тщательно анализировать ИИ. ИИ сдаёт адвокатский экзамен. Значит ли это, что ИИ обладает здравым смыслом? Вы можете это предположить, но вы никогда не будете знать наверняка.

So suppose I left five clothes to dry out in the sun, and it took them five hours to dry completely. How long would it take to dry 30 clothes? GPT-4, the newest, greatest AI system says 30 hours. Not good. A different one. I have 12-liter jug and six-liter jug, and I want to measure six liters. How do I do it? Just use the six liter jug, right? GPT-4 spits out some very elaborate nonsense.

Предположим, я оставила пять платьев сушиться на солнце, и потребовалось пять часов, чтобы они полностью высохли. Сколько времени потребуется на то, чтобы высушить 30 платьев? GPT-4, самая новая и лучшая система ИИ, считает, что 30 часов. Плохой ответ. Ещё один пример. У меня есть 12-литровый и 6-литровый кувшины, и я хочу отмерить шесть литров. Как это сделать? Просто взять 6-литровый кувшин, не так ли? GPT-4 выдаёт какую-то невероятную чушь.

(Laughter)

(Смех)

Step one, fill the six-liter jug, step two, pour the water from six to 12-liter jug, step three, fill the six-liter jug again, step four, very carefully, pour the water from six to 12-liter jug. And finally you have six liters of water in the six-liter jug that should be empty by now.

Шаг 1: наполнить 6-литровый кувшин, Шаг 2: перелить воду из 6-литрового в 12-литровый кувшин, Шаг 3: ещё раз наполнить 6-литровый кувшин, Шаг 4: очень осторожно перелить воду из 6-литрового в 12-литровый кувшин. Под конец у вас есть шесть литров воды в 6-литровом кувшине, который на самом деле теперь пуст.

(Laughter)

(Смех)

OK, one more. Would I get a flat tire by bicycling over a bridge that is suspended over nails, screws and broken glass? Yes, highly likely, GPT-4 says, presumably because it cannot correctly reason that if a bridge is suspended over the broken nails and broken glass, then the surface of the bridge doesn't touch the sharp objects directly.

Вот ещё один пример. Спустится ли шина на моём велосипеде, если я проеду по мосту, подвешенному над гвоздями, шурупами и битым стеклом? Очень вероятно, что да, отвечает GPT-4, вероятно из-за неспособности правильно рассудить, что хотя мост и подвешен над битыми гвоздями и стеклом, поверхность моста не соприкасается непосредственно с острыми предметами.

OK, so how would you feel about an AI lawyer that aced the bar exam yet randomly fails at such basic common sense? AI today is unbelievably intelligent and then shockingly stupid.

Так какого же вы мнения об адвокате-ИИ, который сдал на отлично адвокатский тест, но от случая к случаю проваливает такие простые тесты на здравый смысл? В настоящее время ИИ одновременно и невероятно умён, и поразительно глуп.

(Laughter)

(Смех)

It is an unavoidable side effect of teaching AI through brute-force scale. Some scale optimists might say, “Don’t worry about this. All of these can be easily fixed by adding similar examples as yet more training data for AI." But the real question is this. Why should we even do that? You are able to get the correct answers right away without having to train yourself with similar examples. Children do not even read a trillion words to acquire such a basic level of common sense.

Это неизбежный побочный эффект обучения ИИ с помощью масштаба и метода решения в лоб. Некоторые оптимисты, сторонники масштаба, возможно, скажут: «Не беспокойся. Всё это можно легко исправить, добавив подобные примеры в качестве обучающего материала для ИИ». Но вот настоящий вопрос: зачем нам это? Вы можете мгновенно дать правильный ответ без необходимости упражняться на подобных примерах. Даже детям не нужно прочитать триллион слов, чтобы развить такой базовый уровень здравого смысла.

So this observation leads us to the next wisdom, choose your battles. So what fundamental questions should we ask right now and tackle today in order to overcome this status quo with extreme-scale AI? I'll say common sense is among the top priorities.

Это приводит нас к следующей мудрой мысли: выбирай битвы. Так какие же базовые вопросы нам нужно задать себе и решить прямо сейчас, чтобы преодолеть этот статус кво с ИИ гигантского масштаба? Я бы сказала, что здравый смысл обладает приоритетом.

So common sense has been a long-standing challenge in AI. To explain why, let me draw an analogy to dark matter. So only five percent of the universe is normal matter that you can see and interact with, and the remaining 95 percent is dark matter and dark energy. Dark matter is completely invisible, but scientists speculate that it's there because it influences the visible world, even including the trajectory of light. So for language, the normal matter is the visible text, and the dark matter is the unspoken rules about how the world works, including naive physics and folk psychology, which influence the way people use and interpret language.

Здравый смысл — это давняя проблема для ИИ. Чтобы объяснить, почему, позвольте мне провести параллель с тёмной материей. Только 5% Вселенной — обычная материя, которую можно видеть, с которой можно взаимодействовать. Остальные 95% — это тёмная материя и тёмная энергия. Тёмная материя абсолютно невидима, но учёные считают, что она есть, потому что она влияет на видимый мир, включая даже траекторию света. В случае с языком обычная материя — это видимый текст, а тёмная материя — это негласные правила о том, как работает мир, включая интуитивную физику и народную психологию, которые влияют на то, как люди используют и понимают язык.

So why is this common sense even important? Well, in a famous thought experiment proposed by Nick Bostrom, AI was asked to produce and maximize the paper clips. And that AI decided to kill humans to utilize them as additional resources, to turn you into paper clips. Because AI didn't have the basic human understanding about human values. Now, writing a better objective and equation that explicitly states: “Do not kill humans” will not work either because AI might go ahead and kill all the trees, thinking that's a perfectly OK thing to do. And in fact, there are endless other things that AI obviously shouldn’t do while maximizing paper clips, including: “Don’t spread the fake news,” “Don’t steal,” “Don’t lie,” which are all part of our common sense understanding about how the world works.

Так почему же здравый смысл так важен? В известном мысленном эксперименте, предложенном Ником Бостромом, ИИ попросили максимально увеличить производство скрепок для бумаги. Этот ИИ решил убить людей и использовать их в качестве дополнительных ресурсов, решил превратить вас в скрепки для бумаги. Потому что у ИИ не было элементарного человеческого понимания о ценностях. Не сработает и лучшая постановка цели и уравнение, которое прямо скажет: «Не убивай людей», потому что ИИ может решить истребить все деревья, думая, что это абсолютно нормально. Есть бесконечное множество других вещей, которые ИИ явно не стоит делать, увеличивая производство скрепок. Например: не распространять ложные новости, не воровать, не врать. Это часть нашего здравого смысла, понимания того, как работает мир.

However, the AI field for decades has considered common sense as a nearly impossible challenge. So much so that when my students and colleagues and I started working on it several years ago, we were very much discouraged. We’ve been told that it’s a research topic of ’70s and ’80s; shouldn’t work on it because it will never work; in fact, don't even say the word to be taken seriously. Now fast forward to this year, I’m hearing: “Don’t work on it because ChatGPT has almost solved it.” And: “Just scale things up and magic will arise, and nothing else matters.”

Однако в сфере ИИ десятилетиями здравый смысл считался практически недостижимой задачей. До такой степени, что когда я вместе со своими студентами и коллегами начала работать над этим несколько лет назад, нас отговаривали. Нам говорили, что это тема исследований 70-х и 80-х. Не стоит работать над этим, так как это невозможно. Даже не заикайтесь об этом, если хотите, чтобы вас воспринимали серьёзно. А в этом году я слышу: «Не работайте над этим, потому что ChatGPT уже почти решил эту проблему». «Увеличивайте масштабы, и как по волшебству всё разрешится. А остальное неважно».

So my position is that giving true common sense human-like robots common sense to AI, is still moonshot. And you don’t reach to the Moon by making the tallest building in the world one inch taller at a time. Extreme-scale AI models do acquire an ever-more increasing amount of commonsense knowledge, I'll give you that. But remember, they still stumble on such trivial problems that even children can do.

В моём понимании, наделить ИИ истинным здравым смыслом, как у человека — это всё ещё слишком амбициозная задача. И нельзя дотянуться до Луны, увеличивая высоту самого высокого небоскрёба в мире каждый раз на сантиметр. Гигантские модели ИИ постепенно обучаются здравому смыслу, согласна. Но помните, что они всё ещё спотыкаются на простых задачах, которые под силу даже ребёнку.

So AI today is awfully inefficient. And what if there is an alternative path or path yet to be found? A path that can build on the advancements of the deep neural networks, but without going so extreme with the scale.

Так что в настоящее время ИИ ужасно неэффективен. Существует ли другой путь, который нам ещё предстоит найти? Путь, основанный на достижениях глубоких нейронных сетей, без крайностей с увеличением масштаба.

So this leads us to our final wisdom: innovate your weapons. In the modern-day AI context, that means innovate your data and algorithms. OK, so there are, roughly speaking, three types of data that modern AI is trained on: raw web data, crafted examples custom developed for AI training, and then human judgments, also known as human feedback on AI performance. If the AI is only trained on the first type, raw web data, which is freely available, it's not good because this data is loaded with racism and sexism and misinformation. So no matter how much of it you use, garbage in and garbage out. So the newest, greatest AI systems are now powered with the second and third types of data that are crafted and judged by human workers. It's analogous to writing specialized textbooks for AI to study from and then hiring human tutors to give constant feedback to AI. These are proprietary data, by and large, speculated to cost tens of millions of dollars. We don't know what's in this, but it should be open and publicly available so that we can inspect and ensure [it supports] diverse norms and values. So for this reason, my teams at UW and AI2 have been working on commonsense knowledge graphs as well as moral norm repositories to teach AI basic commonsense norms and morals. Our data is fully open so that anybody can inspect the content and make corrections as needed because transparency is the key for such an important research topic.

Это подводит нас к последней мудрости: обновлять оружие. В современном контексте ИИ это значит обновлять данные и алгоритмы. Грубо говоря, существует три вида данных, на которых обучается ИИ: первичные данные из интернета, специальные примеры, разработанные для обучения ИИ, и человеческие суждения, известные как обратная связь человека по поводу эффективности ИИ. Если ИИ обучается только на первичных данных из Интернета, находящихся в свободном доступе, это плохо, потому что эти данные полны расизма, сексизма и дезинформации. Так что неважно, сколько данных вы берёте: мусор на входе, мусор на выходе. Новейшие и лучшие системы ИИ сегодня обучаются на данных второго и третьего типа, которые создаются и оцениваются человеческим персоналом. Это можно сравнить с написанием специализированных учебников для ИИ с последующей постоянной обратной связью от человеческих репетиторов. Это по большому счёту частные данные с предполагаемой стоимостью в десятки миллионов долларов. Мы не знаем, что там, но они должны быть открытыми, чтобы можно было проверять их и убеждаться в том, что они соответствуют ряду ценностей. Поэтому моя команда из UW и AI2 работает над графами знаний здравого смысла и хранилищами моральных норм, чтобы обучать ИИ основам здравого смысла, норм и морали. Наши данные абсолютно открыты, и любой может их проверить и исправить при необходимости, потому что прозрачность очень важна для такой важной темы исследований.

Now let's think about learning algorithms. No matter how amazing large language models are, by design they may not be the best suited to serve as reliable knowledge models. And these language models do acquire a vast amount of knowledge, but they do so as a byproduct as opposed to direct learning objective. Resulting in unwanted side effects such as hallucinated effects and lack of common sense. Now, in contrast, human learning is never about predicting which word comes next, but it's really about making sense of the world and learning how the world works. Maybe AI should be taught that way as well.

А теперь давайте подумаем над алгоритмами обучения. Неважно, насколько хороши большие языковые модели, по своему дизайну они могут быть не самой лучшей моделью надёжных знаний. Да, эти языковые модели приобретают огромное количество знаний, но это знание — побочный продукт, а не результат прямой образовательной цели, что ведёт к нежелательным побочным эффектам, таким как эффект галлюцинации и недостаток здравого смысла. Для сравнения, обучение человека ставит целью не предсказать следующее слово, а понять окружающий мир и то, как он работает. Возможно, ИИ следует обучать по такому же принципу.

So as a quest toward more direct commonsense knowledge acquisition, my team has been investigating potential new algorithms, including symbolic knowledge distillation that can take a very large language model as shown here that I couldn't fit into the screen because it's too large, and crunch that down to much smaller commonsense models using deep neural networks. And in doing so, we also generate, algorithmically, human-inspectable, symbolic, commonsense knowledge representation, so that people can inspect and make corrections and even use it to train other neural commonsense models.

Стремясь более прямо обучать здравому смыслу, моя команда изучает новые потенциальные алгоритмы, в том числе символическую дистилляцию данных, когда берётся очень большая языковая модель, как показано здесь, настолько большая, что она не поместилась у меня на экране, и сокращается до моделей здравого смысла гораздо меньшего размера, использующих глубокие нейронные сети. В процессе посредством алгоритма мы создаём представление знаний, которое может проверяться человеком: символическое и со здравым смыслом, чтобы человек мог проверять, исправлять и использовать его для обучения других нейронных сетей со здравым смыслом.

More broadly, we have been tackling this seemingly impossible giant puzzle of common sense, ranging from physical, social and visual common sense to theory of minds, norms and morals. Each individual piece may seem quirky and incomplete, but when you step back, it's almost as if these pieces weave together into a tapestry that we call human experience and common sense.

В более широком смысле мы решая этот гигантский и, казалось бы, неразрешимый пазл, связанный со здравым смыслом, начиная с физического, социального и визуального здравого смысла и заканчивая теорией сознания, норм и морали. Каждый отдельно взятый элемент может казаться причудливым и неполным, но, если отступить назад, кажется что эти элементы сплетаются в единый узор человеческого опыта и здравого смысла.

We're now entering a new era in which AI is almost like a new intellectual species with unique strengths and weaknesses compared to humans. In order to make this powerful AI sustainable and humanistic, we need to teach AI common sense, norms and values.

Мы на рубеже новой эпохи, в которой ИИ похож на новый биологический вид, обладающий интеллектом, с уникальными сильными и слабыми сторонами по сравнению с человеком. Чтобы этот мощный ИИ не наносил ущерба окружающей среде и был гуманистическим, нам надо обучать ИИ здравому смыслу, нормам и ценностям.

Thank you.

Спасибо.

(Applause)

(Аплодисменты)

Chris Anderson: Look at that. Yejin, please stay one sec. This is so interesting, this idea of common sense. We obviously all really want this from whatever's coming. But help me understand. Like, so we've had this model of a child learning. How does a child gain common sense apart from the accumulation of more input and some, you know, human feedback? What else is there?

Крис Андерсон: Вот это да. Еджин, задержитесь, пожалуйста, на секунду. Какая интересная идея со здравым смыслом. Мы, разумеется, хотим этого, что бы нас ни ожидало впереди. Но помогите мне понять. Есть модель с ребёнком, который учится. Как ребёнок приобретает здравый смысл, помимо накопления большого количества входных данных и обратной связи с людьми? Что ещё нужно для этого?

Yejin Choi: So fundamentally, there are several things missing, but one of them is, for example, the ability to make hypothesis and make experiments, interact with the world and develop this hypothesis. We abstract away the concepts about how the world works, and then that's how we truly learn, as opposed to today's language model. Some of them is really not there quite yet.

Еджин Чой: В корне не хватает нескольких вещей, но одна из них, например, это способность строить гипотезу и проверять её опытным путём, взаимодействовать с миром и развивать эту гипотезу. Мы абстрагируемся от понятий о том, как функционирует мир, и тогда мы действительно учимся, в отличие от сегодняшних языковых моделей. Некоторые из них действительно ещё не на том уровне.

CA: You use the analogy that we can’t get to the Moon by extending a building a foot at a time. But the experience that most of us have had of these language models is not a foot at a time. It's like, the sort of, breathtaking acceleration. Are you sure that given the pace at which those things are going, each next level seems to be bringing with it what feels kind of like wisdom and knowledge.

КА: Вы использовали аналогию, что нельзя достичь Луны, надстраивая здание по чуть-чуть. Но большинство из нас видят, что эти языковые модели растут с какой-то головокружительной скоростью. Вы уверены, что с той скоростью, с которой идёт развитие, каждый новый уровень не несёт с собой новую мудрость и знания?

YC: I totally agree that it's remarkable how much this scaling things up really enhances the performance across the board. So there's real learning happening due to the scale of the compute and data.

ЕЧ: Я полностью согласна с тем, что увеличение масштабов потрясающе улучшает результаты по всем параметрам. Происходит настоящее обучение благодаря масштабу вычислений и данных.

However, there's a quality of learning that is still not quite there. And the thing is, we don't yet know whether we can fully get there or not just by scaling things up. And if we cannot, then there's this question of what else? And then even if we could, do we like this idea of having very, very extreme-scale AI models that only a few can create and own?

Тем не менее, качество обучения ещё не достигло необходимого уровня. Проблема в том, что мы ещё не знаем, сможем ли мы достичь такого уровня, просто увеличивая масштаб. А если не можем, то вопрос остаётся: что дальше? И даже если бы мы могли это сделать, нравится ли нам идея экстремально большой модели ИИ, которую только немногие могут создать и владеть ею?

CA: I mean, if OpenAI said, you know, "We're interested in your work, we would like you to help improve our model," can you see any way of combining what you're doing with what they have built?

КА: Если бы компания OpenAI заинтересовались вашей работой, и попросила вас помочь им улучшить их модель, видите ли вы возможность применения того, что вы делаете, к тому, что они построили?

YC: Certainly what I envision will need to build on the advancements of deep neural networks. And it might be that there’s some scale Goldilocks Zone, such that ... I'm not imagining that the smaller is the better either, by the way. It's likely that there's right amount of scale, but beyond that, the winning recipe might be something else. So some synthesis of ideas will be critical here.

ЕЧ: Безусловно, в моём видении, нам нужно опираться на достижения глубоких нейронных сетей. Возможно, существует какой-то идеальный масштаб, который ... Я, кстати, не считаю, что меньший размер обязательно лучше. Скорее всего, есть какой-то идеальный масштаб, за пределами которого успех может достигаться другими способами. Так что синтез идей будет здесь очень важен.

CA: Yejin Choi, thank you so much for your talk.

КА: Еджин Чой, спасибо вам за ваше выступление.

(Applause)

(Аплодисменты)

So I'm excited to share a few spicy thoughts on artificial intelligence.

Рада поделиться с вами мыслями, вызывающими неоднозначную реакцию,

(Laughter)

(Смех)

(Laughter)

(Смех)

OK, so how would you feel about an AI lawyer that aced the bar exam yet randomly fails at such basic common sense? AI today is unbelievably intelligent and then shockingly stupid.

(Laughter)

(Смех)

Thank you.

Спасибо.

(Applause)

(Аплодисменты)

YC: I totally agree that it's remarkable how much this scaling things up really enhances the performance across the board. So there's real learning happening due to the scale of the compute and data.

CA: I mean, if OpenAI said, you know, "We're interested in your work, we would like you to help improve our model," can you see any way of combining what you're doing with what they have built?