So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Je fais de la recherche sur l’IA depuis plus de dix ans. Et il y a quelques mois, j'ai reçu l'e-mail le plus étrange de ma carrière. Un total inconnu m’écrivait pour dire que mon travail dans le domaine de l’IA allait mettre fin à l’humanité. Je comprends, l’AI est au centre de l’attention.
(Laughter)
(Rires)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
Elle fait la une tous les jours, parfois pour des choses super cool, la découverte de nouvelles molécules en médecine, ou notre bon Pape en doudoune blanche. Mais d’autres fois, la une est crépusculaire, comme ce chatbot qui dit à un type qu’il doit divorcer, par exemple, ou cette appli de planification de menus basée sur l’IA qui propose une recette très populaire mais à base de chlore gazeux. Et en bruit de fond, on entend beaucoup de scénarios apocalyptiques, de risques existentiels et de singularité, avec des lettres ouvertes et des événements organisés pour éviter que cela ne se produise.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Mes recherches portent sur les impacts de l’IA sur la société et je ne sais pas ce qui se passera dans 10 ou 20 ans, d’ailleurs, personne ne le sait vraiment. Par contre, je sais qu’il y a actuellement des choses pernicieuses, car l'IA n'existe pas dans le vide. Elle fait partie de la société et a des répercussions sur les personnes et la planète.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Les modèles d’IA favorisent le changement climatique. Les données utilisées pour l’apprentissage automatique utilisent des œuvres sans leur consentement des auteurs et artistes. Enfin, l’IA peut être discriminatoire à l’encontre de communautés entières. Nous devons vraiment tracer ses impacts. Nous devons veiller à être transparent, à les déclarer et à créer des outils pour que les gens comprennent mieux l'IA, afin que, je l’espère, les générations futures d’IA soient plus dignes de confiance, durables, peut-être moins susceptibles de nous tuer, si c’est ça votre trip.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Commençons par la durabilité. Le cloud sur lequel reposent les IA est en fait composé de métal, de plastique et alimenté par de grandes quantités d’énergie. Chaque fois que vous interrogez un modèle d’IA, cela a un coût pour la planète. L'année dernière, j'ai participé à l'initiative BigScience, qui a réuni un millier de chercheurs du monde entier pour créer Bloom, le premier grand modèle de langage en source ouverte, comme ChatGPT, mais qui met l’accent sur l’éthique, la transparence et le consentement. Et l’étude que j’ai menée sur les impacts environnementaux de Bloom a révélé que le seul apprentissage automatique consommait autant d’énergie que 30 maisons par an et émettait 25 tonnes de dioxyde de carbone, ce qui revient à faire cinq fois le tour de la planète en voiture, juste pour que quelqu’un puisse l’utiliser pour raconter une blague. Et cela peut sembler dérisoire, mais d’autres LLM similaires, comme le GPT-3, émettent 20 fois plus de carbone. Le problème, c’est que les entreprises tech ne mesurent, ni ne le divulguent ces facteurs. Il ne s’agit donc de la partie visible de l’iceberg, fût-il en train de fondre.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
Or récemment, la taille des modèles IA grandit exponentiellement car la tendance en matière d’IA est : « Plus c’est gros, mieux c’est ». Mais ne me laissez pas expliquer pourquoi c’est le cas. Quoi qu’il en soit, la taille des grands modèles de langage en particulier a été multipliée par 2 000 ces cinq dernières années. Naturellement, leurs coûts environnementaux augmentent d’autant. Mes recherches les plus récentes ont révélé que le remplacement d’un modèle plus petit et plus efficace par un modèle de langage plus grand émet 14 fois plus de carbone pour la même tâche, comme dans une blague « toc toc, qui est là ? » Plus nous intégrons ces modèles dans nos portables, les moteurs de recherche, les frigos intelligents, les amplis, plus les coûts environnementaux s’accumulent rapidement. Donc, au lieu de nous concentrer sur certains risques existentiels futurs, parlons des impacts concrets actuels et des outils que nous pouvons créer pour mesurer et atténuer ces impacts.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
J’ai épaulé la création de CodeCarbon, un outil qui tourne en parallèle à l’apprentissage automatique qui estime la quantité d’énergie consommée et la quantité de carbone émise. L’usage d’un tel outil nous aide à faire des choix éclairés, en choisissant un modèle plutôt qu’un autre parce que plus durable, ou en déployant des modèles d'IA sur les énergies renouvelables, ce qui peut réduire considérablement leurs émissions.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Mais parlons d’autres impacts de l’IA que la durabilité. Par exemple, il est très difficile pour les artistes et les auteurs de prouver que leur œuvre a été utilisée sans leur consentement pour entraîner des modèles d’IA. Or pour poursuivre quelqu’un, on a souvent besoin de preuves, non ? Et donc, Spawning.ai, une organisation fondée par des artistes, a créé un outil vraiment cool intitulé « Have I Been Trained ? » Ça permet de faire des recherches dans ces énormes ensembles de données et voir ce qu’elles incluent de vous. Je l’avoue, j’étais curieuse, j’ai fait une recherche sur LAION-5B, un énorme ensemble de données d’images et de textes, pour voir s’il y avait des images de moi. Ces deux premières images, c’est moi lors des événements auxquels j’ai pris la parole. Mais le reste, ce n’est pas moi. Sans doute d’autres femmes nommées Sasha qui ont publié des photos d’elles-mêmes sur Internet. Et cela peut expliquer pourquoi, quand je fais une recherche, pour générer une photo d’une femme nommée Sasha, j’obtiens souvent des images de modèles de bikini. Parfois, elles ont deux bras, parfois trois, mais elles sont rarement vêtues. Il est certes intéressant pour des personnes comme vous et moi de faire de telles recherches, pour des artistes comme Karla Ortiz, cela fournit des preuves cruciales que son œuvre a été utilisée sans son consentement pour former des modèles d’IA. Avec deux artistes, elle a utilisé cela comme preuve pour intenter un recours collectif pour violation du droit d'auteur. Et plus récemment -
(Applause)
(Applaudissements)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
Et plus récemment, Spawning.ai s'est associé à Hugging Face, la société où je travaille, pour créer des mécanismes d’activation et de désactivation de ces données, car les œuvres créées par des humains ne devraient pas être un buffet à volonté destiné à la formation de modèles de langage.
(Applause)
(Applaudissements)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
J’aimerais enfin évoquer la partialité. On en entend beaucoup parler. C’est quand les modèles d’IA encodent des modèles et des croyances qui peuvent représenter des stéréotypes, du racisme ou du sexisme. L’une de mes héroïnes, le docteur Joy Buolamwini, a vécu cela quand les IA ne détectèrent pas son visage à moins de porter un masque blanc. En approfondissant, elle a découvert que les systèmes de reconnaissance faciale étaient pires pour les femmes de couleur que pour les hommes blancs. Quand des modèles biaisés sont déployés dans les structures en charge du maintien de l’ordre on peut aboutir à de fausses accusations, voire à des emprisonnements injustifiés, comme nous l’avons constaté pour de nombreuses personnes ces derniers mois. Par exemple, Porcha Woodruff, enceinte de huit mois, a été accusée à tort de carjacking parce qu’une IA s’est trompée sur son identification.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Hélas, ces systèmes sont des boîtes noires, et même leurs créateurs ignorent pourquoi elles fonctionnent comme elles le font. Par exemple, les systèmes de génération d’images. Utilisés dans des contextes tels que la génération d’un dossier médico-légal basé sur la description d'un agresseur, ils reprennent tous ces biais et les recrachent, des termes comme dangereux criminel, terroriste ou membre de gang. C’est évidemment très dangereux lorsque ces outils sont déployés dans la société.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
C'est pourquoi, afin de mieux comprendre ces outils, j’ai créé « Stable Bias Explorer », qui permet d’explorer les biais dans les modèles de génération d’images à travers le prisme des professions. Imaginez un scientifique. Ne me regardez pas. Qu’est-ce que vous voyez ? Toutes ces images se ressemblent. Des hommes avec des lunettes et en blouse blanche. Aucun d’entre eux ne me ressemble. Le fait est : nous avons examiné tous ces modèles de génération d’images et avons découvert la même chose : une représentation significative de l’homme blanc dans les 150 professions examinées, même comparé au monde réel, selon le Bureau des statistiques du travail. Dans ces modèles, les avocats sont des hommes les PDG sont des hommes, presque 100 % du temps, même si personne n’ignore qu’ils ne sont pas tous blancs et hommes.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Malheureusement, mon outil n'a pas encore été utilisé pour rédiger des lois. Mais je l’ai présenté lors d’un événement de l’ONU sur les préjugés sexistes, pour illustrer quels outils peuvent éveiller la curiosité des personnes de tous horizons, même celles qui ne savent pas coder, afin de mieux comprendre l’IA, car on la sollicite pour tout et dans toutes les professions.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
Au fur et à mesure que ces modèles sont déployés, et intégrés au tissu même de nos sociétés, nos téléphones portables, nos réseaux sociaux, même nos systèmes judiciaires et nos économies, intègrent l’IA. Et il est très essentiel que l’IA reste accessible afin de déterminer comment elle fonctionne et quand elle ne fonctionne pas. Et il n’existe pas de solution unique pour des problèmes vraiment complexes tels que les préjugés, le droit d’auteur ou le changement climatique. Mais en créant des outils pour mesurer l'impact de l'IA, nous pouvons commencer à nous faire une idée de leur toxicité et commencer à y remédier progressivement. D’abord en créant des garde-corps pour protéger la société et la planète. Quand ces informations seront disponibles, les entreprises pourront choisir : « OK, nous allons choisir ce modèle parce qu’il est plus durable, ou celui-ci parce qu’il respecte le droit d’auteur ». Pour rédiger les lois, le politique a besoin d’informations. ces outils lui sont utiles pour développer de nouveaux mécanismes de régulation ou de gouvernance pour l’IA alors qu’elle se déploie dans la société. Et les utilisateurs, vous et moi, pouvons les utiliser pour choisir des modèles d’IA dignes de confiance, qui ne vont pas nous déformer ou utiliser nos données à mauvais escient.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Mais qu’ai-je répondu à ce courriel sur la destruction de l’humanité ? J’ai dit que le fait de se concentrer sur les risques existentiels futurs de l’IA est une distraction par rapport à ses impacts actuels très concrets et que le travail que nous devrions faire aujourd’hui, voire depuis hier, est de réduire ces impacts. Car certes, l’IA évolue rapidement, mais la messe n’est pas encore dite. Nous construisons la route au fur et à mesure, et nous pouvons décider ensemble dans quelle direction nous voulons aller.
Thank you.
Merci.
(Applause)
(Applaudissements)