Yejin Choi: Why AI is incredibly smart and shockingly stupid

So I'm excited to share a few spicy thoughts on artificial intelligence. But first, let's get philosophical by starting with this quote by Voltaire, an 18th century Enlightenment philosopher, who said, "Common sense is not so common." Turns out this quote couldn't be more relevant to artificial intelligence today. Despite that, AI is an undeniably powerful tool, beating the world-class "Go" champion, acing college admission tests and even passing the bar exam.

Je suis ravie de partager mes réflexions sur l’intelligence artificielle. Mais tout d’abord, plongeons dans la philosophie en commençant par cette citation de Voltaire, un philosophe des Lumières du 18e siècle, qui disait : « Le bon sens n’est pas monnaie courante ». Il s’avère que cette citation ne pourrait pas être plus pertinente pour l’intelligence artificielle actuelle. Toutefois, l’IA est un outil indéniablement puissant, qui permet de battre le champion mondial de Go, de réussir l’examen d’entrée à l’université et même de passer l’examen du barreau.

I’m a computer scientist of 20 years, and I work on artificial intelligence. I am here to demystify AI. So AI today is like a Goliath. It is literally very, very large. It is speculated that the recent ones are trained on tens of thousands of GPUs and a trillion words. Such extreme-scale AI models, often referred to as "large language models," appear to demonstrate sparks of AGI, artificial general intelligence. Except when it makes small, silly mistakes, which it often does. Many believe that whatever mistakes AI makes today can be easily fixed with brute force, bigger scale and more resources. What possibly could go wrong?

Je suis informaticienne depuis 20 ans et je me consacre à l’intelligence artificielle. Je suis ici pour démystifier l’IA. L’IA de nos jours est comme un Goliath. Elle est littéralement très, très vaste. Les modèles récents seraient entraînés sur des dizaines de milliers de processeurs graphiques et mille milliards de mots. Ces modèles d’IA à échelle extrême, appelés “grand modèles de langage”, semblent manifester des signes d’IGA, l’intelligence générale artificielle. Sauf quand elle commet de petites erreurs stupides, ce qui est souvent le cas. Beaucoup estiment que les erreurs de l’IA actuelle se règlent aisément par la force brute, une échelle accrue et plus de ressources. Qu’est-ce qui pourrait mal tourner ?

So there are three immediate challenges we face already at the societal level. First, extreme-scale AI models are so expensive to train, and only a few tech companies can afford to do so. So we already see the concentration of power. But what's worse for AI safety, we are now at the mercy of those few tech companies because researchers in the larger community do not have the means to truly inspect and dissect these models. And let's not forget their massive carbon footprint and the environmental impact.

Au niveau sociétal, on est déjà confrontés à trois défis immédiats. D’abord, l’entraînement de modèles d’IA à grande échelle est très cher, et seules quelques entreprises technologiques peuvent se le permettre. On y voit déjà une concentration de pouvoir. Le pire pour la sécurité de l’IA, on est à la merci de ces quelques géants de la technologie parce que la communauté de chercheurs est dans l’incapacité d’inspecter et d’analyser correctement ces modèles. Et n’oublions pas leur énorme empreinte carbone et leur impact sur l’environnement.

And then there are these additional intellectual questions. Can AI, without robust common sense, be truly safe for humanity? And is brute-force scale really the only way and even the correct way to teach AI?

Il y a aussi d’autres questions intellectuelles. L’IA, sans un bon sens solide, est-elle vraiment sûre pour l’humanité ? Et l’échelle de force brute est-elle vraiment la seule et la meilleure façon d’entraîner l’IA ?

So I’m often asked these days whether it's even feasible to do any meaningful research without extreme-scale compute. And I work at a university and nonprofit research institute, so I cannot afford a massive GPU farm to create enormous language models. Nevertheless, I believe that there's so much we need to do and can do to make AI sustainable and humanistic. We need to make AI smaller, to democratize it. And we need to make AI safer by teaching human norms and values. Perhaps we can draw an analogy from "David and Goliath," here, Goliath being the extreme-scale language models, and seek inspiration from an old-time classic, "The Art of War," which tells us, in my interpretation, know your enemy, choose your battles, and innovate your weapons.

On me demande souvent ces temps-ci s’il est possible de faire une recherche significative sans calcul à échelle extrême. Étant universitaire et membre d’un centre de recherche à but non lucratif, je ne possède pas de ferme géante de GPU pour créer d’énormes modèles de langage. Cependant, on doit s’occuper de plusieurs choses pour rendre l’IA durable et humaniste. On doit réduire la taille de l’IA pour la démocratiser et rendre l’IA plus sûre en lui inculquant des normes et des valeurs humaines. On peut faire ici l’analogie avec “David et Goliath”, Goliath étant les modèles de langage à échelle extrême, on peut s’inspirer d’un vieux classique, “L’art de la guerre”, qui parle, selon mon interprétation, de connaître son ennemi, choisir ses batailles et d’innover dans ses armes.

Let's start with the first, know your enemy, which means we need to evaluate AI with scrutiny. AI is passing the bar exam. Does that mean that AI is robust at common sense? You might assume so, but you never know.

Commençons par le premier, connaître son ennemi, ce qui signifie qu’on doit évaluer l’IA avec rigeur. L’IA réussit l’examen du barreau. Cela signifie-t-il que l’IA maîtrise le bon sens ? On pourrait le croire, mais on ne sait jamais.

So suppose I left five clothes to dry out in the sun, and it took them five hours to dry completely. How long would it take to dry 30 clothes? GPT-4, the newest, greatest AI system says 30 hours. Not good. A different one. I have 12-liter jug and six-liter jug, and I want to measure six liters. How do I do it? Just use the six liter jug, right? GPT-4 spits out some very elaborate nonsense.

Supposons que je laisse cinq vêtements sécher au soleil et qu’ils mettent cinq heures pour sécher complètement. Combien de temps faudra-t-il pour faire sécher 30 vêtements ? Selon GPT-4, la meilleure IA actuelle, cela nécessite environ 30 heures. C’est mauvais. Une autre question. J’ai une cruche de 12 litres et une de six litres, et je veux mesurer six litres. Comment faire ? Utiliser la cruche de six litres ? GPT-4 sort une absurdité très élaborée.

(Laughter)

(Rires)

Step one, fill the six-liter jug, step two, pour the water from six to 12-liter jug, step three, fill the six-liter jug again, step four, very carefully, pour the water from six to 12-liter jug. And finally you have six liters of water in the six-liter jug that should be empty by now.

Un, remplir la cruche de six litres. Deux, verser l’eau de la cruche de six litres dans celle de 12, trois, remplir à nouveau la cruche de six litres, quatre, verser doucement l’eau de la cruche de six dans celle de 12. Enfin, vous obtenez six litres d’eau dans la cruche de six litres qui devrait être vide à présent.

(Laughter)

(Rires)

OK, one more. Would I get a flat tire by bicycling over a bridge that is suspended over nails, screws and broken glass? Yes, highly likely, GPT-4 says, presumably because it cannot correctly reason that if a bridge is suspended over the broken nails and broken glass, then the surface of the bridge doesn't touch the sharp objects directly.

Encore une autre. Est-ce que je crèverais en vélo en traversant un pont suspendu au-dessus de clous, de vis et de morceaux de verre ? Oui, absolument, selon GPT-4, en raison de sa faible aptitude à raisonner que si un pont est suspendu au-dessous de clous et de verre brisés, sa surface n’est pas en contact direct avec les objets pointus.

OK, so how would you feel about an AI lawyer that aced the bar exam yet randomly fails at such basic common sense? AI today is unbelievably intelligent and then shockingly stupid.

Que diriez-vous d’une IA avocate qui réussit l’examen du barreau mais échoue sur des questions évidentes de bon sens ? L’IA actuelle est super intelligente mais incroyablement stupide.

(Laughter)

(Rires)

It is an unavoidable side effect of teaching AI through brute-force scale. Some scale optimists might say, “Don’t worry about this. All of these can be easily fixed by adding similar examples as yet more training data for AI." But the real question is this. Why should we even do that? You are able to get the correct answers right away without having to train yourself with similar examples. Children do not even read a trillion words to acquire such a basic level of common sense.

C’est un effet inhérent à l’entraînement de l’IA par l’échelle de la force brute. Ceux qui en sont optimistes rassurent : « Ne vous inquiétez pas. On peut facilement corriger tout ça en ajoutant des exemples similaires pour enrichir les données d’entraînement de l’IA. » Mais en vérité, quel en est l’intérêt ? Vous pouvez obtenir les bonnes réponses instantanément sans entraînement avec des exemples similaires. Les enfants n’ont même pas besoin de lire mille milliards de mots pour acquérir les bases du bon sens.

So this observation leads us to the next wisdom, choose your battles. So what fundamental questions should we ask right now and tackle today in order to overcome this status quo with extreme-scale AI? I'll say common sense is among the top priorities.

Ce constat nous amène à la sagesse suivante : choisir ses batailles. Quelles questions essentielles doit-on alors poser et aborder aujourd’hui pour dépasser ce statu quo d’IA à échelle extrême ? Je dirai que le bon sens est l’une des priorités.

So common sense has been a long-standing challenge in AI. To explain why, let me draw an analogy to dark matter. So only five percent of the universe is normal matter that you can see and interact with, and the remaining 95 percent is dark matter and dark energy. Dark matter is completely invisible, but scientists speculate that it's there because it influences the visible world, even including the trajectory of light. So for language, the normal matter is the visible text, and the dark matter is the unspoken rules about how the world works, including naive physics and folk psychology, which influence the way people use and interpret language.

Le bon sens est un problème de longue date dans le domaine de l’IA. Pour l’expliquer, laissez-moi faire une analogie avec la matière noire. Seuls 5% de l’univers sont de la matière normale que l’on peut voir et avec laquelle on peut intéragir, et les 95 % restants sont de la matière noire et de l’énergie noire. La matière noire est totalement invisible, mais les scientifiques estiment qu’elle influence le monde visible, y compris la trajectoire de la lumière. Donc pour le langage, la matière normale est le texte visible, et la matière noire les règles tacites sur le fonctionnement du monde, y compris la physique de base et la psychologie populaire, ce qui influe sur la façon dont les gens utilisent et interprètent le langage.

So why is this common sense even important? Well, in a famous thought experiment proposed by Nick Bostrom, AI was asked to produce and maximize the paper clips. And that AI decided to kill humans to utilize them as additional resources, to turn you into paper clips. Because AI didn't have the basic human understanding about human values. Now, writing a better objective and equation that explicitly states: “Do not kill humans” will not work either because AI might go ahead and kill all the trees, thinking that's a perfectly OK thing to do. And in fact, there are endless other things that AI obviously shouldn’t do while maximizing paper clips, including: “Don’t spread the fake news,” “Don’t steal,” “Don’t lie,” which are all part of our common sense understanding about how the world works.

Pourquoi ce bon sens est-il si important ? Dans une célèbre expérience mentale proposée par Nick Bostrom, l’IA était chargée de maximiser la fabrication des trombones. L’IA a décidé de tuer des humains comme ressources supplémentaires, et les transformer en trombones. L’IA n’avait pas la compréhension basique des valeurs humaines. Même écrire un objectif meilleure et une équation qui spécifie : « Ne pas tuer les humains » ne marchera pas non plus, car l’IA pourrait tuer tous les arbres, en pensant que c’est parfaitement acceptable. En fait, il y a une infinité de choses que l’IA devrait évidemment éviter en fabriquant les trombones, notamment : ne pas diffuser de fausses nouvelles, ne pas voler, ne pas mentir. Tout ça relève de notre bon sens quant au fonctionnement du monde.

However, the AI field for decades has considered common sense as a nearly impossible challenge. So much so that when my students and colleagues and I started working on it several years ago, we were very much discouraged. We’ve been told that it’s a research topic of ’70s and ’80s; shouldn’t work on it because it will never work; in fact, don't even say the word to be taken seriously. Now fast forward to this year, I’m hearing: “Don’t work on it because ChatGPT has almost solved it.” And: “Just scale things up and magic will arise, and nothing else matters.”

Or, depuis des lustres, le domaine de l’IA a considéré le bon sens comme un défi quasi impossible à relever. À tel point que lorsque mes étudiants, mes collègues et moi-même avons entrepris de travailler dessus il y a plusieurs années, nous étions très découragés. On nous a dit que c’était un sujet de recherche des années 70 et 80, de ne pas s’y ateler car ça ne marcherait jamais. En fait, cela ne mérite pas la moindre attention. Mais voilà que cette année, on me dit : « Inutile de s’en occuper, ChatGPT a presque résolu le problème. » et « Passez à l’échelle supérieure et le tour est joué, c’est tout ce qui importe. »

So my position is that giving true common sense human-like robots common sense to AI, is still moonshot. And you don’t reach to the Moon by making the tallest building in the world one inch taller at a time. Extreme-scale AI models do acquire an ever-more increasing amount of commonsense knowledge, I'll give you that. But remember, they still stumble on such trivial problems that even children can do.

Alors, selon moi, doter l’IA d’un véritable bon sens à l’instar des humains demeure un rêve lointain. Et on n’atteint pas la lune en montant le plus haut bâtiment du monde d’un centimètre à la fois. Les modèles d’IA à échelle extrême accumulent une quantité considérable de connaissances de bon sens. Je vous l’accorde. Mais notez qu’ils restent coincés sur des problèmes triviaux que des enfants peuvent résoudre.

So AI today is awfully inefficient. And what if there is an alternative path or path yet to be found? A path that can build on the advancements of the deep neural networks, but without going so extreme with the scale.

L’IA actuelle est donc sacrément médiocre. Et s’il y avait une alternative ou une voie non encore explorée ? Une voie qui s’appuie sur les progrès des réseaux neuronaux profonds, mais sans aller aussi loin dans l’échelle.

So this leads us to our final wisdom: innovate your weapons. In the modern-day AI context, that means innovate your data and algorithms. OK, so there are, roughly speaking, three types of data that modern AI is trained on: raw web data, crafted examples custom developed for AI training, and then human judgments, also known as human feedback on AI performance. If the AI is only trained on the first type, raw web data, which is freely available, it's not good because this data is loaded with racism and sexism and misinformation. So no matter how much of it you use, garbage in and garbage out. So the newest, greatest AI systems are now powered with the second and third types of data that are crafted and judged by human workers. It's analogous to writing specialized textbooks for AI to study from and then hiring human tutors to give constant feedback to AI. These are proprietary data, by and large, speculated to cost tens of millions of dollars. We don't know what's in this, but it should be open and publicly available so that we can inspect and ensure [it supports] diverse norms and values. So for this reason, my teams at UW and AI2 have been working on commonsense knowledge graphs as well as moral norm repositories to teach AI basic commonsense norms and morals. Our data is fully open so that anybody can inspect the content and make corrections as needed because transparency is the key for such an important research topic.

Cela nous amène à notre dernière sagesse : innover dans ses armes. Dans le contexte moderne de l’IA, cela implique d’innover dans les données et les algorithmes. Il existe, en gros, trois types de données sur lesquelles l’IA moderne est entraînée : les données web brutes, les échantillons sur mesure utilisés pour entraîner l’IA et les évaluations humaines, ou retour d’information humain sur les performances de l’IA. Entraîner l’IA sur le premier type seulement, les données web brutes, librement accessibles, est problématique car ces données sont truffées de racisme, de sexisme et de désinformation. Peu importe leur quantité, les résultats sont liés à la qualité des données. Les systèmes d’IA les plus performants sont donc alimentés par les deuxième et troisième types de données qui sont conçues et évaluées par des humains. C’est comme si l’IA recevait des manuels spécialisés à étudier et qu’on sollicitait des tuteurs humains pour lui donner une évaluation continue. Il s’agit de données propriétaires qui, dans l’ensemble, coûteraient des dizaines de millions de dollars. On ignore leur contenu, mais elles devraient être ouvertes au public, pour inspection et s’assurer de leur conformité aux normes et valeurs. Ainsi, mes équipes à l’UW et à AI2 ont élaboré des graphes de connaissances du bon sens ainsi que des recueils de normes morales pour inculquer à l’IA les normes et les valeurs morales élémentaires. Nos données sont accessibles à tous, ce qui permet d’explorer leur contenu et de corriger ce qui doit l’être, car la transparence est essentielle pour une recherche aussi importante.

Now let's think about learning algorithms. No matter how amazing large language models are, by design they may not be the best suited to serve as reliable knowledge models. And these language models do acquire a vast amount of knowledge, but they do so as a byproduct as opposed to direct learning objective. Resulting in unwanted side effects such as hallucinated effects and lack of common sense. Now, in contrast, human learning is never about predicting which word comes next, but it's really about making sense of the world and learning how the world works. Maybe AI should be taught that way as well.

Passons aux algorithmes d’apprentissage. Quelle que soit la puissance des grands modèles de langage, par conception, leur fiabilité en tant que modèles de connaissances pourrait être limitée. Ces modèles de langage possèdent certes une grande masse de connaissances, mais ils l’ont acquises en sous-produit et non en objectif d’apprentissage direct. Cela engendre des effets indésirables tels que les hallucinations et l’absence de bon sens. En revanche, l’apprentissage humain va au-delà de la prédiction de mots, il s’agit de comprendre le monde et d’apprendre comment il fonctionne. On devrait peut-être aussi l’enseigner à l’IA.

So as a quest toward more direct commonsense knowledge acquisition, my team has been investigating potential new algorithms, including symbolic knowledge distillation that can take a very large language model as shown here that I couldn't fit into the screen because it's too large, and crunch that down to much smaller commonsense models using deep neural networks. And in doing so, we also generate, algorithmically, human-inspectable, symbolic, commonsense knowledge representation, so that people can inspect and make corrections and even use it to train other neural commonsense models.

Dans sa recherche d’une acquisition plus directe de connaissances mon équipe explore de nouveaux algorithmes potentiels, y compris la distillation de connaissances symboliques qui prend un grand modèle de langage, comme illustré ici. trop grand pour être affiché à l’écran, et le réduit en des modèles de bon sens beaucoup plus petits à l’aide des réseaux neuronaux profonds. Ainsi, nous générons également, grâce à cet algorithme, une représentation symbolique des connaissances de bon sens, afin que les gens l’inspectent et la corrigent, et s’en servent même pour entraîner d’autres modèles neuronaux de bon sens.

More broadly, we have been tackling this seemingly impossible giant puzzle of common sense, ranging from physical, social and visual common sense to theory of minds, norms and morals. Each individual piece may seem quirky and incomplete, but when you step back, it's almost as if these pieces weave together into a tapestry that we call human experience and common sense.

De manière plus générale, on s’est attaqué à ce puzzle géant apparemment impossible de bon sens, qui va de l’aspect physique, social et visuel à la théorie de l’esprit, aux normes et à la morale. Chaque élément individuel peut sembler étrange et incomplet, mais en prenant de la distance, il semble que ces pièces s’entrelacent pour former une tapisserie que nous appelons l’expérience humaine et le bon sens.

We're now entering a new era in which AI is almost like a new intellectual species with unique strengths and weaknesses compared to humans. In order to make this powerful AI sustainable and humanistic, we need to teach AI common sense, norms and values.

On est à présent dans une nouvelle ère où l’IA ressemble presque à une nouvelle forme d’intelligence avec des forces et des faiblesses uniques par rapport à l’homme. Pour que cette IA puissante soit durable et humaniste, on doit lui enseigner le bon sens, les normes et les valeurs

Thank you.

Je vous remercie.

(Applause)

(Applaudissements)

Chris Anderson: Look at that. Yejin, please stay one sec. This is so interesting, this idea of common sense. We obviously all really want this from whatever's coming. But help me understand. Like, so we've had this model of a child learning. How does a child gain common sense apart from the accumulation of more input and some, you know, human feedback? What else is there?

Chris Anderson : Regardez ! Yejin, restez une seconde, s’il vous plaît. C’est très intéressant, cette idée de bon sens. Quoi qu’il advienne, c’est notre objectif commun. Mais éclairez-moi. Imaginons ce modèle d’apprentissage chez un enfant. Comment un enfant acquiert-il du bon sens en dehors de l’accumulation d’informations et d’une certaine évaluation humaine ? Qu’y a-t-il d’autre ?

Yejin Choi: So fundamentally, there are several things missing, but one of them is, for example, the ability to make hypothesis and make experiments, interact with the world and develop this hypothesis. We abstract away the concepts about how the world works, and then that's how we truly learn, as opposed to today's language model. Some of them is really not there quite yet.

Yejin Choi : Fondamentalement, il manque plusieurs choses, comme par exemple, la capacité de faire des hypothèses et des expériences, d’intéragir avec le monde et de développer cette hypothèse. On fait abstraction des concepts relatifs au fonctionnement du monde, et c’est ainsi qu’on apprend vraiment, par rapport aux modèles de langage actuel. Certains d’entre eux ne sont pas encore tout à fait au point.

CA: You use the analogy that we can’t get to the Moon by extending a building a foot at a time. But the experience that most of us have had of these language models is not a foot at a time. It's like, the sort of, breathtaking acceleration. Are you sure that given the pace at which those things are going, each next level seems to be bringing with it what feels kind of like wisdom and knowledge.

CA : Vous dites qu’on ne peut pas aller sur la Lune en agrandissant un bâtiment mètre par mètre. Mais notre expérience avec la plupart de ces modèles de langage est loin d’être progressive C’est plutôt une accélération stupéfiante. Êtes-vous sûr qu’à la vitesse à laquelle les choses avancent, chaque nouveau niveau semble nous apporter un peu plus de sagesse et de connaissance ?

YC: I totally agree that it's remarkable how much this scaling things up really enhances the performance across the board. So there's real learning happening due to the scale of the compute and data.

YC : Il est frappant de voir à quel point cette accroissement de l’échelle améliore vraiment les performances dans tous les aspects. Il se produit donc un réel apprentissage grâce à l’échelle de calcul et de données.

However, there's a quality of learning that is still not quite there. And the thing is, we don't yet know whether we can fully get there or not just by scaling things up. And if we cannot, then there's this question of what else? And then even if we could, do we like this idea of having very, very extreme-scale AI models that only a few can create and own?

Mais la qualité de l’apprentissage n’est pas toujours satisfaisante. En fait, on ne sait pas encore si on peut y parvenir en augmentant seulement l’échelle. Et si on n’y arrive pas, alors que faire d’autre ? Même si nous le pouvons, l’idée d’avoir des modèles d’IA à échelle tout à fait extrême que seuls quelques-uns peuvent créer et posséder nous convient-elle ?

CA: I mean, if OpenAI said, you know, "We're interested in your work, we would like you to help improve our model," can you see any way of combining what you're doing with what they have built?

CA : Je veux dire, si OpenAI disait, « Votre travail nous intéresse, nous aimerions votre aide pour améliorer notre modèle », voyez-vous un moyen de combiner ce que vous faites avec ce qu’ils ont construit ?

YC: Certainly what I envision will need to build on the advancements of deep neural networks. And it might be that there’s some scale Goldilocks Zone, such that ... I'm not imagining that the smaller is the better either, by the way. It's likely that there's right amount of scale, but beyond that, the winning recipe might be something else. So some synthesis of ideas will be critical here.

YC : J’imagine qu’il faudra s’appuyer sur les progrès des réseaux neuronaux profonds. Et il se peut qu’il y ait une zone à échelle Boucles d’or comme ça... D’ailleurs, je n’imagine pas que plus petit signifie meilleur. Il y a une bonne quantité d’échelle, mais au-delà, la recette gagnante pourrait être autre chose. Une synthèse d’idées sera donc critique ici.

CA: Yejin Choi, thank you so much for your talk.

CA : Yejin Choi, merci pour votre exposé.

(Applause)

(Applaudissements)

(Laughter)

(Rires)

(Laughter)

(Rires)

OK, so how would you feel about an AI lawyer that aced the bar exam yet randomly fails at such basic common sense? AI today is unbelievably intelligent and then shockingly stupid.

Que diriez-vous d’une IA avocate qui réussit l’examen du barreau mais échoue sur des questions évidentes de bon sens ? L’IA actuelle est super intelligente mais incroyablement stupide.

(Laughter)

(Rires)

Thank you.

Je vous remercie.

(Applause)

(Applaudissements)

YC: I totally agree that it's remarkable how much this scaling things up really enhances the performance across the board. So there's real learning happening due to the scale of the compute and data.

CA: I mean, if OpenAI said, you know, "We're interested in your work, we would like you to help improve our model," can you see any way of combining what you're doing with what they have built?