So I'm excited to share a few spicy thoughts on artificial intelligence. But first, let's get philosophical by starting with this quote by Voltaire, an 18th century Enlightenment philosopher, who said, "Common sense is not so common." Turns out this quote couldn't be more relevant to artificial intelligence today. Despite that, AI is an undeniably powerful tool, beating the world-class "Go" champion, acing college admission tests and even passing the bar exam.
Ik wil een paar pittige gedachten over kunstmatige intelligentie met je delen. Maar laten we eerst eens filosofisch worden door te beginnen met een citaat van Voltaire, een 18e-eeuwse verlichtingsfilosoof die zei: ”Gezond verstand is niet zo gewoon.” Relevanter kan dit citaat niet zijn voor de huidige kunstmatige intelligentie. Desondanks is AI een onmiskenbaar krachtig instrument, dat de wereldkampioen ‘Go’ verslaat, toelatingsexamens van universiteiten haalt en zelfs slaagt voor het balie-examen.
I’m a computer scientist of 20 years, and I work on artificial intelligence. I am here to demystify AI. So AI today is like a Goliath. It is literally very, very large. It is speculated that the recent ones are trained on tens of thousands of GPUs and a trillion words. Such extreme-scale AI models, often referred to as "large language models," appear to demonstrate sparks of AGI, artificial general intelligence. Except when it makes small, silly mistakes, which it often does. Many believe that whatever mistakes AI makes today can be easily fixed with brute force, bigger scale and more resources. What possibly could go wrong?
Ik ben al 20 jaar computerwetenschapper en ik werk aan kunstmatige intelligentie. Ik ben hier om AI op te helderen. AI is tegenwoordig als een reus. Het is letterlijk heel erg groot. Men speculeert dat de nieuwste versies getraind zijn op tienduizenden GPU’s. en een biljoen woorden. Zulke extreem grote AI-modellen, vaak ‘grote taalmodellen’ genoemd, lijken vonken van AGI te tonen, kunstmatige algemene intelligentie. Behalve als het domme foutjes maakt, wat het vaak doet. Velen geloven dat de fouten die AI maakt, makkelijk te herstellen zijn met kracht, grotere schaal en meer middelen. Wat kan er nou fout gaan?
So there are three immediate challenges we face already at the societal level. First, extreme-scale AI models are so expensive to train, and only a few tech companies can afford to do so. So we already see the concentration of power. But what's worse for AI safety, we are now at the mercy of those few tech companies because researchers in the larger community do not have the means to truly inspect and dissect these models. And let's not forget their massive carbon footprint and the environmental impact.
Er zijn drie uitdagingen waar we nu al maatschappelijk mee om moeten gaan. Ten eerste zijn AI-modellen dermate duur om te trainen, dat maar een paar technische bedrijven zich dat kunnen veroorloven. We zien dus nu al waar de macht zit. Maar erger voor de AI-veiligheid is, dat we nu overgeleverd zijn aan de genade van die paar bedrijven, omdat onderzoekers in de grotere gemeenschap niet de middelen hebben om deze modellen goed te inspecteren en te ontleden. Laten we ook hun grote ecologische voetafdruk niet vergeten en hun impact op het milieu.
And then there are these additional intellectual questions. Can AI, without robust common sense, be truly safe for humanity? And is brute-force scale really the only way and even the correct way to teach AI?
Dan zijn er nog van die intellectuele vragen. Is AI, zonder gezond verstand, echt veilig voor de mensheid? En is brute kracht op deze schaal echt de enige manier of zelfs de juiste manier om AI trainen?
So I’m often asked these days whether it's even feasible to do any meaningful research without extreme-scale compute. And I work at a university and nonprofit research institute, so I cannot afford a massive GPU farm to create enormous language models. Nevertheless, I believe that there's so much we need to do and can do to make AI sustainable and humanistic. We need to make AI smaller, to democratize it. And we need to make AI safer by teaching human norms and values. Perhaps we can draw an analogy from "David and Goliath," here, Goliath being the extreme-scale language models, and seek inspiration from an old-time classic, "The Art of War," which tells us, in my interpretation, know your enemy, choose your battles, and innovate your weapons.
Mij is vaak gevraagd of het wel haalbaar is om zinvol onderzoek te doen zonder heel grootschalige rekenkracht. En ik werk bij een universiteit en een non-profit onderzoeksinstituut, dus ik kan geen batterij GPU’s betalen om gigantische taalmodellen te maken, Toch geloof ik dat we nog veel meer moeten doen en kunnen doen om AI duurzaam en menselijk te maken. We moeten AI kleiner maken om het te democratiseren. En we moeten AI veiliger maken door het menselijke normen en waarden aan te leren. Je zou het kunnen vergelijken met ‘David en Goliath’, met Goliath als de grootschalige taalmodellen, die inspiratie zoekt bij een oude klassieker, ′<i>The Art of War’</i>, die ons volgens mij vertelt, dat je je vijanden moet kennen, je gevechten kiest en je wapens verbetert.
Let's start with the first, know your enemy, which means we need to evaluate AI with scrutiny. AI is passing the bar exam. Does that mean that AI is robust at common sense? You might assume so, but you never know.
Laten we beginnen met de eerste: ken je vijanden, wat betekent dat we AI kritisch moeten evalueren. AI slaagt voor het balie-examen. Betekent dat dat AI een gezond verstand heeft? Je zou dat kunnen denken, maar je weet het maar nooit.
So suppose I left five clothes to dry out in the sun, and it took them five hours to dry completely. How long would it take to dry 30 clothes? GPT-4, the newest, greatest AI system says 30 hours. Not good. A different one. I have 12-liter jug and six-liter jug, and I want to measure six liters. How do I do it? Just use the six liter jug, right? GPT-4 spits out some very elaborate nonsense.
Stel dat ik vijf kledingstukken in de zon heb laten drogen, en het duurde 5 uur voordat ze helemaal droog waren. Hoe lang zou het duren met 30 kledingstukken? GPT-4, het nieuwste en beste AI-systeem zegt 30 uur. Fout. Een andere. Ik heb een kan van 12 liter en een kan van 6 liter, en ik wil graag 6 liter meten. Hoe doe ik dat? Gebruik gewoon de kan van 6 liter, toch? GPT-4 spuugt uitgebreid onzin uit.
(Laughter)
(Gelach)
Step one, fill the six-liter jug, step two, pour the water from six to 12-liter jug, step three, fill the six-liter jug again, step four, very carefully, pour the water from six to 12-liter jug. And finally you have six liters of water in the six-liter jug that should be empty by now.
Stap 1: vul de kan van 6 liter, stap 2: giet het water van die kan in de kan van 12 liter, stap 3: vul de kan van 6 liter nog een keer, stap 4: giet het water voorzichtig van die kan in de kan van 12 liter, en uiteindelijk heb je zes liter water in de kan van zes liter die nu leeg zou moeten zijn.
(Laughter)
(Gelach)
OK, one more. Would I get a flat tire by bicycling over a bridge that is suspended over nails, screws and broken glass? Yes, highly likely, GPT-4 says, presumably because it cannot correctly reason that if a bridge is suspended over the broken nails and broken glass, then the surface of the bridge doesn't touch the sharp objects directly.
Oké, nog eentje. Krijg ik een lekke band als ik over een brug fiets die over spijkers, schroeven en gebroken glas hangt? Ja, zeer waarschijnlijk, zegt GPT-4, vermoedelijk omdat het niet goed kan beredeneren dat bij een brug die over gebroken spijkers en glas hangt, het brugdek de scherpe voorwerpen niet rechtstreeks aanraakt.
OK, so how would you feel about an AI lawyer that aced the bar exam yet randomly fails at such basic common sense? AI today is unbelievably intelligent and then shockingly stupid.
Wat vind je dan van een AI-advocaat die slaagde voor het balie-examen maar toch faalt bij zulke algemene kennis? AI is tegenwoordig ongelofelijk intelligent en toch verbazingwekkend dom.
(Laughter)
(Gelach)
It is an unavoidable side effect of teaching AI through brute-force scale. Some scale optimists might say, “Don’t worry about this. All of these can be easily fixed by adding similar examples as yet more training data for AI." But the real question is this. Why should we even do that? You are able to get the correct answers right away without having to train yourself with similar examples. Children do not even read a trillion words to acquire such a basic level of common sense.
Het is een onvermijdelijk bijeffect als je AI traint met brute kracht. Sommige optimisten zeggen: “Maak je geen zorgen. Dat los je makkelijk op door het met soortgelijke voorbeelden te voeden als extra trainingsgegevens voor AI.” Maar de echte vraag is: waarom zou je dat überhaupt doen? Jij kunt het correcte antwoord zo geven zonder jezelf te hoeven trainen met soortgelijke voorbeelden. Kinderen lezen echt geen biljoenen woorden om zo’n basisniveau van gezond verstand te krijgen.
So this observation leads us to the next wisdom, choose your battles. So what fundamental questions should we ask right now and tackle today in order to overcome this status quo with extreme-scale AI? I'll say common sense is among the top priorities.
Dus deze observatie leidt ons naar de volgende wijsheid: kies je gevechten. Welke fundamentele vragen zou je nu moeten stellen en aanpakken om deze status quo te overwinnen met AI op extreme schaal? Ik denk dat gezond verstand een van de topprioriteiten is.
So common sense has been a long-standing challenge in AI. To explain why, let me draw an analogy to dark matter. So only five percent of the universe is normal matter that you can see and interact with, and the remaining 95 percent is dark matter and dark energy. Dark matter is completely invisible, but scientists speculate that it's there because it influences the visible world, even including the trajectory of light. So for language, the normal matter is the visible text, and the dark matter is the unspoken rules about how the world works, including naive physics and folk psychology, which influence the way people use and interpret language.
Gezond verstand is al een tijd een uitdaging voor AI. Om uit te leggen waarom, wil ik het vergelijken met donkere materie. Slechts vijf procent van het universum is normale materie die je kunt zien en waar je iets mee kan. De resterende 95 procent is donkere materie en donkere energie. Donkere materie is onzichtbaar, maar wetenschappers speculeren dat het er is om de zichtbare wereld te beïnvloeden. zelfs inclusief de baan van het licht. Voor taal is de normale materie de zichtbare tekst, en de donkere materie zijn de onbesproken regels over hoe de wereld in elkaar zit, inclusief de volksnatuurkunde en volkspsychologie, die de manier beïnvoeden waarop men de taal gebruikt en interpreteert.
So why is this common sense even important? Well, in a famous thought experiment proposed by Nick Bostrom, AI was asked to produce and maximize the paper clips. And that AI decided to kill humans to utilize them as additional resources, to turn you into paper clips. Because AI didn't have the basic human understanding about human values. Now, writing a better objective and equation that explicitly states: “Do not kill humans” will not work either because AI might go ahead and kill all the trees, thinking that's a perfectly OK thing to do. And in fact, there are endless other things that AI obviously shouldn’t do while maximizing paper clips, including: “Don’t spread the fake news,” “Don’t steal,” “Don’t lie,” which are all part of our common sense understanding about how the world works.
Waarom is gezond verstand überhaupt belangrijk? In een bekend gedachte-experiment waar Nick Bostrom mee kwam, werd AI gevraagd om zoveel mogelijk paperclips te produceren. En die AI besloot mensen te doden om ze als extra grondstof te gebruiken, om paperclips van je te maken. Omdat AI niet de basiskennis had van de menselijke waarden. Het schrijven van een betere doelstelling en vergelijking die expliciet zegt: “Dood geen mensen” zal ook niet werken, omdat AI dan alle bomen gaat vellen, omdat het denkt dat dat prima is. En in feite zijn er ontelbaar veel dingen die AI zeker niet moet doen als ze paperclips maximaliseren, inclusief: Verspreid geen nepnieuws, Steel niet, Lieg niet, wat allemaal onderdeel is van ons gezond verstand over hoe de wereld werkt.
However, the AI field for decades has considered common sense as a nearly impossible challenge. So much so that when my students and colleagues and I started working on it several years ago, we were very much discouraged. We’ve been told that it’s a research topic of ’70s and ’80s; shouldn’t work on it because it will never work; in fact, don't even say the word to be taken seriously. Now fast forward to this year, I’m hearing: “Don’t work on it because ChatGPT has almost solved it.” And: “Just scale things up and magic will arise, and nothing else matters.”
Het AI-veld heeft echter decennialang gezond verstand gezien als een bijna onmogelijke uitdaging. Zozeer zelfs dat toen mijn studenten, collega’s en ik er enkele jaren geleden mee begonnen, we erg ontmoedigd waren. Er was ons verteld dat onderzoek is gedaan in de jaren 70 en 80; “niet aan werken omdat het toch nooit gaat werken; noem het woord liever niet om serieus genomen te worden”. Nu snel vooruit naar dit jaar, Ik hoor: “Stop er maar mee, omdat ChatGPT het al bijna heeft opgelost.” En: ”Schaal het gewoon op, dan ontstaat magie.” En: “Niets anders doet ertoe.”
So my position is that giving true common sense human-like robots common sense to AI, is still moonshot. And you don’t reach to the Moon by making the tallest building in the world one inch taller at a time. Extreme-scale AI models do acquire an ever-more increasing amount of commonsense knowledge, I'll give you that. But remember, they still stumble on such trivial problems that even children can do.
Mijn standpunt is dat het geven van gezond verstand aan AI, menselijk gezond verstand aan robots, nog steeds een grote stap zal zijn. En je komt niet op de maan door het hoogste gebouw van de wereld steeds een stukje hoger te maken. AI-modellen op extreme schaal krijgen steeds meer gezond verstand, dat geef ik toe. Maar ze hebben nog steeds moeite met alledaagse problemen die zelfs kinderen kunnen oplossen.
So AI today is awfully inefficient. And what if there is an alternative path or path yet to be found? A path that can build on the advancements of the deep neural networks, but without going so extreme with the scale.
De huidige AI is vreselijk inefficiënt. En stel dat er een alternatieve route is of een route die nog niet gevonden is? Een route die kan voortbouwen op de verbeterde diepe neurale netwerken, maar zonder die extreme grootschaligheid.
So this leads us to our final wisdom: innovate your weapons. In the modern-day AI context, that means innovate your data and algorithms. OK, so there are, roughly speaking, three types of data that modern AI is trained on: raw web data, crafted examples custom developed for AI training, and then human judgments, also known as human feedback on AI performance. If the AI is only trained on the first type, raw web data, which is freely available, it's not good because this data is loaded with racism and sexism and misinformation. So no matter how much of it you use, garbage in and garbage out. So the newest, greatest AI systems are now powered with the second and third types of data that are crafted and judged by human workers. It's analogous to writing specialized textbooks for AI to study from and then hiring human tutors to give constant feedback to AI. These are proprietary data, by and large, speculated to cost tens of millions of dollars. We don't know what's in this, but it should be open and publicly available so that we can inspect and ensure [it supports] diverse norms and values. So for this reason, my teams at UW and AI2 have been working on commonsense knowledge graphs as well as moral norm repositories to teach AI basic commonsense norms and morals. Our data is fully open so that anybody can inspect the content and make corrections as needed because transparency is the key for such an important research topic.
Dat brengt ons bij de laatste wijsheid: vernieuw je wapens. In de hedendaagse AI-context gaat dat over het vernieuwen van je gegevens en algoritmen. Er zijn grofweg drie soorten gegevens waarop moderne AI wordt getraind: onbewerkte webgegevens, speciaal voor AI ontwikkelde voorbeelden, en vervolgens beoordelingen door de mens, ook wel bekend als menselijke feedback op AI-prestaties. Als AI alleen getraind wordt met de eerste soort, onbewerkte webgegevens, die vrij verkrijgbaar zijn, is dat niet goed, omdat dat vol zit met racisme, seksisme en desinformatie. Dus hoeveel je er ook van gebruikt, troep erin is troep eruit. De nieuwste en beste AI-systemen draaien nu op het tweede en derde soort gegevens die gemaakt en beoordeeld zijn door menselijke werknemers. Vergelijkbaar met het schrijven van gespecialiseerde studieboeken voor AI en het aannemen van menselijke mentoren om constant feedback te geven aan AI. Dit zijn bedrijfseigen gegevens, waarvan men denkt dat ze tientallen miljoenen dollars kosten. We weten niet wat erin zit, maar het zou openbaar moeten zijn, zodat je kunt garanderen dat aan diverse normen en waarden voldaan wordt. Dus daarom hebben mijn teams bij UW en AI2 gewerkt aan grafieken met gezond verstand en aan databanken met morele waarden om AI basisnormen en gezond verstand bij te brengen. Onze gegevens zijn openbaar zodat iedereen de inhoud kan inspecteren en kan corrigeren waar nodig omdat transparantie de sleutel is voor zo’n belangrijk onderzoeksonderwerp.
Now let's think about learning algorithms. No matter how amazing large language models are, by design they may not be the best suited to serve as reliable knowledge models. And these language models do acquire a vast amount of knowledge, but they do so as a byproduct as opposed to direct learning objective. Resulting in unwanted side effects such as hallucinated effects and lack of common sense. Now, in contrast, human learning is never about predicting which word comes next, but it's really about making sense of the world and learning how the world works. Maybe AI should be taught that way as well.
Wat betreft het aanleren van algoritmes: hoe verbazingwekkend groot taalmodellen ook zijn, door hun ontwerp zijn ze wellicht niet het meest geschikt als betrouwbare kennisbank. En deze taalmodellen verkrijgen een enorme hoeveelheid kennis, maar krijgen ze via een bijproduct in tegenstelling tot een direct leerdoel. Met ongewenste bijwerkingen als hallucinerende effecten tot gevolg en een gebrek aan gezond verstand. Maar bij menselijk leren gaat het nooit om het voorspellen welk woord er volgt, maar vooral om het zinvol te maken en om hoe de wereld werkt. Misschien moet AI ook op die manier onderwezen worden.
So as a quest toward more direct commonsense knowledge acquisition, my team has been investigating potential new algorithms, including symbolic knowledge distillation that can take a very large language model as shown here that I couldn't fit into the screen because it's too large, and crunch that down to much smaller commonsense models using deep neural networks. And in doing so, we also generate, algorithmically, human-inspectable, symbolic, commonsense knowledge representation, so that people can inspect and make corrections and even use it to train other neural commonsense models.
Dus als een zoektocht naar directere kennisverwerving van gezond verstand, heeft mijn team geïnvesteerd in potentiële nieuwe algoritmes inclusief het distilleren van symbolische kennis dat een heel groot taalmodel kan hebben, zoals dit hier, dat niet op het scherm past, omdat het te groot is, en dat inkrimpen tot veel kleinere modellen met gezond verstand die diepe neurale netwerken gebruiken. Zo genereren we ook een algoritmische, door de mens te controleren, symbolische representatie met gezond verstand, zodat men het kan controleren en corrigeren en het zelfs gebruiken om andere neurale modellen te trainen.
More broadly, we have been tackling this seemingly impossible giant puzzle of common sense, ranging from physical, social and visual common sense to theory of minds, norms and morals. Each individual piece may seem quirky and incomplete, but when you step back, it's almost as if these pieces weave together into a tapestry that we call human experience and common sense.
Meer in het algemeen hebben we deze schijnbare onmogelijke gigantische puzzel van gezond verstand aangepakt, variërend van fysiek, sociaal en zichtbaar gezond verstand tot aan de theorie van gedachtes, normen en moralen. Elk afzonderlijk deel lijkt misschien eigenzinnig en onvolledig, maar als je een stap terug doet, lijkt het bijna alsof we deze stukjes tot een tapijt weven dat we menselijke ervaring en gezond verstand noemen.
We're now entering a new era in which AI is almost like a new intellectual species with unique strengths and weaknesses compared to humans. In order to make this powerful AI sustainable and humanistic, we need to teach AI common sense, norms and values.
We gaan een nieuw tijdperk in waar AI bijna lijkt op een nieuw intellectueel soort met unieke sterke en zwakke punten vergeleken met de mens. Om deze krachtige AI duurzaam en menselijk te maken, moeten we AI gezond verstand, normen en waarden leren.
Thank you.
Dank je wel.
(Applause)
(Applaus)
Chris Anderson: Look at that. Yejin, please stay one sec. This is so interesting, this idea of common sense. We obviously all really want this from whatever's coming. But help me understand. Like, so we've had this model of a child learning. How does a child gain common sense apart from the accumulation of more input and some, you know, human feedback? What else is there?
Chris Anderson: Moet je zien. Yejin, blijf alsjeblieft nog even. Dit is zo interessant, het idee van gezond verstand. Dat willen we natuurlijk, wat er ook komen gaat. Maar help me het te begrijpen. Dus je had dat model van een lerend kind. Hoe krijgt een kind gezond verstand los van het opstapelen van meer input en wat menselijke feedback? Wat is er nog meer?
Yejin Choi: So fundamentally, there are several things missing, but one of them is, for example, the ability to make hypothesis and make experiments, interact with the world and develop this hypothesis. We abstract away the concepts about how the world works, and then that's how we truly learn, as opposed to today's language model. Some of them is really not there quite yet.
Yejin Choi: Fundamenteel ontbreken er dus verschillende dingen, maar een ervan is het vermogen om hypotheses te maken en experimenten uit te voeren, omgaan met de wereld en die hypotheses te ontwikkelen. We leiden de concepten af van hoe de wereld werkt. Zo leren we echt, in tegenstelling tot het huidige taalmodel. Ze zijn er nog niet helemaal.
CA: You use the analogy that we can’t get to the Moon by extending a building a foot at a time. But the experience that most of us have had of these language models is not a foot at a time. It's like, the sort of, breathtaking acceleration. Are you sure that given the pace at which those things are going, each next level seems to be bringing with it what feels kind of like wisdom and knowledge.
CA: Je gebruikt de analogie dat we de maan niet bereiken door een gebouw steeds op te hogen. Maar de ervaring die de meesten hebben met deze taalmodellen is niet beetje bij beetje. Het is meer een soort adembenemende versnelling. Weet je zeker dat, gezien het tempo waarin die dingen gaan, elk volgend niveau iets lijkt toe te voegen wat lijkt op wijsheid en kennis?
YC: I totally agree that it's remarkable how much this scaling things up
YC: Ik ben het er totaal mee eens
really enhances the performance across the board. So there's real learning happening due to the scale of the compute and data.
dat het opmerkelijk is hoeveel deze schaalvergroting de presentaties over de hele breedte verbetert. Er vindt dus echt leren plaats dankzij de schaal van de rekenkracht en gegevens.
However, there's a quality of learning that is still not quite there. And the thing is, we don't yet know whether we can fully get there or not just by scaling things up. And if we cannot, then there's this question of what else? And then even if we could, do we like this idea of having very, very extreme-scale AI models that only a few can create and own?
Toch is er de kwaliteit van het leren nog niet alles. En het punt is dat we nog niet weten of we zover kunnen komen door alles gewoon op te schalen. En als het niet lukt, dan luidt de vraag: hoe dan wél? En zelfs als we het zouden kunnen, is het dan aantrekkelijk van AI-modellen op zeer, zeer extreme schaal dat maar enkelen die kunnen maken en bezitten?
CA: I mean, if OpenAI said, you know, "We're interested in your work, we would like you to help improve our model," can you see any way of combining what you're doing with what they have built?
CA: Als Open AI zegt: “We zijn geïnteresseerd in je werk, we willen je graag helpen met het verbeteren van ons model”, zie je dan een manier om te combineren wat je doet met wat zij gemaakt hebben?
YC: Certainly what I envision will need to build on the advancements of deep neural networks. And it might be that there’s some scale Goldilocks Zone, such that ... I'm not imagining that the smaller is the better either, by the way. It's likely that there's right amount of scale, but beyond that, the winning recipe might be something else. So some synthesis of ideas will be critical here.
YC: Wat ik me voorstel, zou zeker moeten voortbouwen op de vorderingen van diepe neurale netwerken. En misschien is een <i>Goldilocks Zone</i> op schaal, zodat ... Ik denk trouwens ook niet dat het is hoe kleiner, hoe beter. Waarschijnlijk is er een optimale schaal, maar het winnende idee kan ook iets anders zijn. Dus combinaties van ideeën zijn van belang.
CA: Yejin Choi, thank you so much for your talk.
CA: Yejin Choi, erg bedankt voor je presentatie.
(Applause)
(Applaus)