So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Da più di 10 anni, sono una ricercatrice in ambito IA. Un paio di mesi fa, ho ricevuto l’email più strana della mia carriera. Uno sconosciuto a caso mi ha scritto che il mio lavoro nell’IA porrà fine all’umanità. Lo capisco, l’IA è un tema caldo in questo momento.
(Laughter)
(Risate)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
Fa notizia praticamente ogni giorno, a volte per cose interessanti, come la scoperta di nuove molecole in medicina o quel deepfake del Papa con indosso il piumino bianco. Altre volte, per cose negative, come quel chatbot che suggerì a un tizio di divorziare dalla moglie o quando un'app per pianificare i pasti proponeva una ricetta con gas di cloro. Abbiamo sentito parlare tutti di scenari apocalittici, di rischi individuali e collettivi con eventi organizzati e lettere pubbliche per assicurarsi che ciò non accada.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Lo studio l'impatto dell’IA sulla società. Non so cosa succederà tra 10 o 20 anni, nessuno lo sa. Ma quello che so, è che stanno succedendo cose brutte perché l’IA non è una realtà a sé. Fa parte della società e ha un impatto sulle persone e sul pianeta.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
I modelli di IA contribuiscono al cambiamento climatico. I dati di addestramento usano opere d’arte e libri di artisti e autori senza il loro consenso. Inoltre, la sua diffusione può discriminare intere comunità. Dobbiamo iniziare a monitorarne gli effetti. Con trasparenza, dobbiamo divulgare i dati e creare strumenti per permettere alle persone di capire meglio l’IA. Così facendo, le future generazioni di IA saranno più affidabili, sostenibili, forse meno propense a ucciderci, se è questo a preoccuparvi.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Partiamo dalla sostenibilità, dato che il cloud dove vivono i modelli di IA è fatto di metallo, plastica ed è alimentato da enormi quantità di energia. Ogni volta che interroghiamo l’IA, ciò comporta un costo per il pianeta. L’anno scorso ho partecipato all’iniziativa BigScience, che ha riunito migliaia di ricercatori da tutto il mondo per creare Bloom, il primo modello linguistico aperto di grandi dimensioni, come ChatGPT, ma con un’enfasi su etica, trasparenza e consenso. Il mio studio ha esaminato l'impatto ambientale di Bloom e ha rilevato che il solo addestramento consuma la stessa energia di 30 case in un anno intero ed emette 25 tonnellate di anidride carbonica, l'equivalente del fare cinque volte il giro del pianeta in auto. Tutto questo affinché lo si possa interrogare per una barzelletta. Potrebbe non sembrare molto, ma altri modelli linguistici come GPT-3, emettono 20 volte più carbonio. Le aziende tecnologiche non misurano queste cose, non le rivelano. Questa è solo la punta di un iceberg anche se è uno che si sta sciogliendo.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
Negli ultimi anni abbiamo visto modelli di IA crescere a dismisura perché la tendenza attuale è: "più grande è, meglio è". Non fatemi iniziare a spiegare perché è così. Abbiamo osservato soprattutto modelli linguistici di grandi dimensioni diventare 2.000 volte più grandi negli ultimi cinque anni. Anche i costi ambientali aumentano. Di recente, ho scoperto che passare da un modello piccolo e efficiente a un modello linguistico più grande emette 14 volte più carbonio, a parità di compito, tipo chiedere una barzelletta. Con l'integrazione di questi modelli nei cellulari, nei motori di ricerca, nei frigoriferi e negli altoparlanti intelligenti, i costi ambientali aumentano rapidamente. Quindi, invece di concentrarci su alcuni rischi esistenziali futuri, parliamo degli effetti attuali e tangibili e degli strumenti che possiamo creare per mitigare tali effetti.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Ho contribuito a creare CodeCarbon, uno strumento che durante l'esecuzione del codice è in grado di stimare la quantità di energia consumata e di carbonio emessa. Uno strumento così può aiutarci a fare scelte informate, come scegliere un modello perché è più sostenibile o implementare modelli di IA alle energie rinnovabili per ridurre drasticamente le emissioni.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Ma parliamo di altro, perché la sostenibilità non è l'unico aspetto da analizzare. Ad esempio, è stato davvero difficile per artisti e autori dimostrare che il lavoro di una vita è stato usato per addestrare modelli di IA senza il loro consenso. Per denunciare qualcuno, servono le prove, giusto? Per questo Spawning.ai, un'organizzazione fondata da artisti, ha creato uno strumento chiamato "Have I Been Trained?", per consentirci di consultare enormi set di dati per vedere se hanno qualcosa di nostro. Lo ammetto, ero curiosa. Ho cercato il LAION-5B, un enorme dataset di immagini e testo, per vedere se c'erano delle mie immagini. Nelle prime due immagini, sono io agli eventi dove ho partecipato. Nel resto delle immagini, non sono io. Forse sono di altre di nome Sasha che hanno pubblicato loro foto nel web. Questo forse spiega perché se interrogo un modello per generare la foto di una "Sasha", il più delle volte ottengo immagini di modelle in bikini. A volte hanno due braccia, a volte tre braccia, ma raramente indossano vestiti. Per persone come noi sicuramente è interessante cercare in questi set di dati, ma per artisti come Karla Ortiz questi forniscono una prova concreta del fatto che il lavoro della sua vita, viene usato senza il suo consenso per addestrare modelli di IA. Lei e altri due artisti hanno usato queste prove per intentare una causa collettiva contro le società di AI per violazione del copyright. Più recentemente,
(Applause)
(Applausi)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
Spawning.ai ha collaborato con la società per cui lavoro, Hugging Face, per creare meccanismi di opt-in e opt-out per la creazione di questi set di dati, perché le opere d'arte umane non dovrebbero essere un "all you can eat" per l'addestramento dei modelli di IA.
(Applause)
(Applausi)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
Infine, voglio parlare di bias. Probabilmente ne avete sentito parlare. Ossia quando i modelli di IA codificano strutture e idee che possono tradursi in stereotipi, razzismo e sessismo. La dott.ssa Joy Buolamwini, lo ha sperimentato in prima persona perché i sistemi di IA non rilevavano il suo viso finché non ha indossato una maschera bianca. Indagando, scoprì che i comuni sistemi di riconoscimento facciale sono peggiori per le donne POC che per uomini bianchi. Quando modelli tendenziosi come questo vengono usati dalle forze dell'ordine, si possono concretizzare in false accuse e perfino detenzioni illegittime, come abbiamo visto accadere a più persone negli ultimi mesi. Porcha Woodruff è stata accusata di furto d'auto ingiustamente, incinta di otto mesi, perché un sistema di IA l'ha erroneamente identificata.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Purtroppo, questi sistemi sono scatole nere e persino i creatori non sanno per certo perché funzionano in quel modo. Ad esempio, i sistemi generativi di immagini, se vengono usati per realizzare un identikit basato sulla descrizione di un criminale, prendono tutti questi bias e li restituiscono sotto termini come criminale pericoloso, terrorista o membro di una gang, il che rende molto pericoloso usare questi strumenti nella società.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Per comprendere al meglio questi strumenti, ho creato questo strumento chiamato "Stable Bias Explorer," che consente di scoprire i bias dei modelli generativi di immagini per quanto riguarda le professioni. Provate a immaginare uno scienziato. Non guardate me. Cosa avete immaginato? Forse in tanti avete pensato a uomini con occhiali e camici da laboratorio e nessuno di loro mi somiglia. Abbiamo esaminato diversi modelli e trovato un pattern ricorrente: una predominanza di uomini bianchi in tutte le 150 professioni che abbiamo esaminato. Anche confrontando con il mondo reale, con lo<i> "</i>US Labor Bureau of Statistics," questi modelli mostrano avvocati uomini e AD uomini, quasi il 100% delle volte, anche se sappiamo che non tutti sono bianchi e uomini.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Purtroppo, il mio strumento non è stato ancora usato per scrivere leggi, ma di recente l'ho presentato a un evento dell'ONU sui pregiudizi di genere come esempio di strumenti che permettono a chiunque, anche a chi non sa programmare, di confrontarsi con l'IA e di comprenderla. Noi abbiamo usato le professioni, si può usare qualsiasi cosa.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
Man mano che questi modelli vengono utilizzati, entrano a far parte della nostra società, dai cellulari ai feed, e persino i sistemi giudiziari e l'economia usano l'IA. È davvero importante che l'IA rimanga accessibile, per sapere sia come funziona sia quando non funziona. Non esiste una soluzione semplice a questioni complesse come i bias, il copyright o il cambiamento climatico. Ma creando strumenti per misurare gli effetti dell'IA, possiamo iniziare a farci un'idea di quanto siano gravi e affrontarli man mano che procediamo. Iniziamo a creare barriere per proteggere la società e il pianeta. Una volta ottenute queste informazioni, le aziende possono usarle per dire: "Sceglieremo questo modello perché è più sostenibile e questo modello perché rispetta il copyright". I legislatori che necessitano informazioni per redigere leggi possono usarli per sviluppare nuovi meccanismi di regolamentazione o di governance per l'IA man mano che trova impiego nella società. Noi utenti possiamo usare queste informazioni per scegliere modelli di IA di cui fidarsi, che non travisino informazioni e abusino dei nostri dati.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Cosa ho risposto a quell'e-mail che diceva che il mio lavoro distruggerà l'umanità? Ho detto che concentrarsi sui rischi esistenziali futuri dell'IA distrae dagli impatti presenti e tangibili e dal lavoro che dovremmo fare oggi, o ieri, per ridurre questi effetti. Sì, l'IA si sta muovendo rapidamente, ma non è una questione chiusa. Stiamo costruendo la strada mentre la percorriamo e possiamo decidere insieme in quale direzione vogliamo andare.
Thank you.
Grazie.
(Applause)
(Applausi)