So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Sunt cercetător în IA de peste un deceniu. Acum câteva luni, am primit cel mai ciudat e-mail de când lucrez. Un necunoscut mi-a scris că munca mea în IA va pune capăt omenirii. Înțeleg, IA e un subiect fierbinte acum.
(Laughter)
(Râsete)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
E pe prima pagină aproape zilnic, uneori despre chestii tare faine: a descoperit noi molecule pentru medicamente sau Papa ăla mișto cu geacă albă de puf. Alteori știrile au fost tare sumbre: chatbotul care i-a zis unui bărbat că ar trebui să divorțeze de soție, sau aplicația de planificare a meselor, care a propus o îmbietoare rețetă cu clor gazos. Am auzit, de asemenea, multe discuții despre scenarii apocaliptice, risc existențial și singularitate, cu scrisori deschise și evenimente organizate ca să prevenim așa ceva.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Sunt un cercetător care studiază efectele IA asupra societății și nu știu ce se va întâmpla peste 10 sau 20 de ani, nimeni nu știe concret. Ce știu e că sub ochii noștri se întâmplă niște lucruri tare urâte, pentru că IA nu e de sine stătătoare. Face parte din societate și afectează oamenii și planeta.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Modelele de IA contribuie la schimbările climatice, sunt instruite cu artă și cărți create de artiști și autori fără acordul acestora, iar implementarea IA poate discrimina comunități întregi. Trebuie să începem să-i urmărim efectele. Trebuie să fim transparenți, să le dezvăluim, să creăm instrumente, ca oamenii să înțeleagă IA mai bine, ca măcar viitoarele generații de modele de IA să fie mai de încredere, mai sustenabile, poate mai puțin probabil să ne ucidă, dacă asta vă preocupă.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Dar să începem cu sustenabilitatea, fiindcă norul pe care stau modelele de IA e de fapt din metal sau plastic și e alimentat cu cantități enorme de energie. Oricând îi cereți ceva unui model de IA, asta presupune un cost pentru planetă. Anul trecut am făcut parte din inițiativa BigScience, care a reunit o mie de cercetători din întreaga lume pentru a crea Bloom, primul model mare de limbaj cu sursă deschisă, ca ChatGPT, dar cu accent pe etică, transparență și consimțământ. Din studiul condus asupra efectelor lui Bloom asupra mediului, a reieșit că numai instruirea a consumat la fel de multă energie cât 30 de case într-un an și a emis 25 de tone de dioxid de carbon, ceea ce e ca și cum ai face înconjurul lumii cu mașina de 5 ori, doar ca cineva să folosească modelul ca să zică un banc sec. Asta poate părea că nu e mult, dar alte modele mari de limbaj similare, ca GPT-3, emit de 20 de ori mai mult carbon. Dar companiile tehnologice nu măsoară așa ceva, nu dezvăluie așa ceva. Asta e probabil doar vârful aisbergului, chiar dacă-i unul ce se topește.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
În ultimii ani am văzut cum modelele de IA cresc, pentru că în IA e la modă acum „mai mare înseamnă mai bine”. Nu mă faceți să zic de ce. În orice caz, am văzut mai ales modele mari de limbaj crescând de 2000 de ori în ultimii cinci ani. Evident, costurile lor de mediu au crescut pe măsură. Cel mai recent studiu ce l-am condus arată că înlocuind un model de limbaj mai mic și eficient cu altul mai mare, se emite de 14 ori mai mult carbon pentru aceeași sarcină, cum ar fi bancul ăla sec. Cum punem modelele astea în telefoane mobile și motoare de căutare, în frigidere și difuzoare inteligente, costurile de mediu cresc rapid. Deci, în loc să ne concentrăm asupra unor riscuri existențiale viitoare, să vorbim despre efectele concrete actuale și de instrumentele ce le putem crea ca să măsurăm și atenuăm aceste efecte.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Am ajutat la crearea CodeCarbon, un software ce rulează alături de codul de instruire al IA și estimează cantitatea de energie consumată și carbon emis. Un asemenea software ne ajută să luăm decizii bine informați: să alegem un model în locul altuia mai sustenabil sau să implementăm modele de IA folosind energie regenerabilă, ceea ce ar reduce drastic emisiile.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Dar să vorbim despre alte lucruri, pentru că IA nu are efecte doar asupra sustenabilității. De exemplu, artiștilor și autorilor le-a fost tare greu să demonstreze că munca lor de-o viață a fost folosită la instruirea modelelor IA fără să-și dea acordul. Dacă vrei să dai în judecată pe cineva, ai nevoie de dovezi, nu? Spawning.ai, o organizație fondată de artiști, a creat un instrument interesant numit „Am fost instruit?”. Cu el puteți să căutați în niște baze de date enorme, ca să vedeți ce date au despre voi. Recunosc, am fost curioasă. Am căutat în LAION-5B, o imensă bază de date de imagini și text, ca să văd dacă sunt imagini cu mine acolo. În primele două imagini sunt eu la evenimentele unde am vorbit. Dar în restul imaginilor nu sunt eu. Probabil sunt alte femei pe nume Sasha, care au pus fotografii cu ele pe internet. Asta probabil explică de ce dacă-i cer unui generator de imagini o poză cu o femeie numită Sasha, de cele mai multe ori îmi arată imagini cu modele în bikini. Uneori au două brațe, alteori au trei brațe, dar rareori au haine pe ele. Poate fi interesant pentru oameni obișnuiți ca noi să căutăm în aceste baze de date, dar pentru artiști precum Karla Ortiz, oferă dovezi cruciale că munca ei de-o viață, opera sa de artă, a fost folosită la instruirea modelelor de IA fără acordul ei. Ea și alți doi artiști au folosit asta ca probă într-o acțiune colectivă împotriva companiilor de IA pentru încălcarea drepturilor de autor. De curând...
(Applause)
(Aplauze)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
Recent, Spawning.ai a început un parteneriat cu Hugging Face, compania unde lucrez, ca să creeze căi de includere și excludere pentru aceste baze de date, fiindcă arta creată de oameni n-ar trebui să fie bufet suedez pentru instruirea modelelor de limbaj de IA.
(Applause)
(Aplauze)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
Ultimul subiect e discriminarea. Probabil ați auzit asta de multe ori. Oficial, înseamnă că modelele de IA codifică tipare și convingeri ce reprezintă stereotipuri, rasism sau sexism. Un idol al meu, Dr. Joy Buolamwini, a simțit-o pe propria piele, când și-a dat seama că sistemele de IA nu-i detectau fața dacă nu purta o mască albă. Aprofundând, a descoperit că sistemele de recunoaștere facială erau mult mai slabe pentru femeile de culoare decât pentru bărbații albi. Când astfel de modele părtinitoare se folosesc în scopul aplicării legii, asta poate duce la acuzații false, ba chiar arest injust, ceea ce li s-a întâmplat mai multor persoane în ultimele luni. Porcha Woodruff a fost acuzată pe nedrept de furt auto când era gravidă în 8 luni, fiindcă un sistem de IA a identificat-o în mod greșit.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Din păcate, aceste sisteme sunt opace și nici măcar creatorii lor nu pot zice exact cum funcționează. De exemplu, sistemele care generează imagini, dacă sunt folosite în situații precum generarea unui portret-robot pe baza descrierii infractorului, iau toate aceste prejudecăți și le perpetuează cu termeni ca <i>criminal periculos</i>, <i>terorist</i> sau <i>membru al bandei</i>, ceea ce, desigur, e super periculos când aceste instrumente sunt folosite în societate.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Pentru a înțelege mai bine aceste instrumente, am creat un program numit Stable Bias Explorer, ce permite explorarea prejudecăților modelelor ce generează imagini prin prisma profesiilor. Încercați să vă imaginați un om de știință. Nu vă uitați la mine. Ce vedeți? Foarte mulți de același fel, nu? Bărbați cu ochelari și halate de laborator. Și niciunul nu seamănă cu mine. Chestia e că ne-am uitat la toate aceste modele ce generează imagini și am găsit același lucru: culoarea albă și masculinitatea reprezentate semnificativ în toate cele 150 de profesii analizate. Chiar și comparat cu lumea reală, cu Biroul de Statistică a Muncii, aceste modele redau avocații ca bărbați și directorii executivi ca bărbați, aproape de fiecare dată, chiar dacă știm cu toții că nu sunt toți albi și bărbați.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Din păcate, programul meu încă n-a fost folosit în legislație, dar l-am prezentat recent la un eveniment ONU despre prejudecata de gen, ca exemplu de cum putem crea instrumente pentru toată lumea, chiar și pentru cei ce nu știu să programeze, ca să folosească și să înțeleagă mai bine IA, căci noi folosim profesii, dar voi puteți folosi orice termen vă interesează.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
Pe măsură ce aceste modele sunt implementate, devin îmbinate în structura noastră socială: mobilele, fluxurile rețelelor sociale, până și sistemele de justiție și economiile noastre conțin IA. E foarte important ca IA să rămână accesibilă, ca să știm când funcționează și când nu. Nu există o soluție unică pentru ceva așa complex ca discriminarea, drepturile de autor sau schimbările climatice. Dar creând instrumente pentru a măsura efectele IA, ne putem facem o idee despre cât de nocive sunt și le putem rezolva pe parcurs, putem crea mecanisme ca să protejăm societatea și planeta. Odată ce avem aceste informații, companiile le pot folosi pentru a decide: „Alegem modelul ăsta fiindcă e mai sustenabil, modelul ăsta fiindcă respectă drepturile de autor.” Legislatorii ce au nevoie de informații ca să elaboreze legi pot folosi instrumente ca să dezvolte noi mecanisme de reglementare sau guvernare a IA pe măsură ce e implementată în societate. Iar utilizatorii ca noi pot folosi informațiile ca să aleagă modele de IA în care pot avea încredere, să nu ne reprezinte greșit și să nu abuzeze de datele noastre.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Dar ce am răspuns la acel e-mail care zicea că munca mea va distruge omenirea? Am zis că dacă ne concentrăm pe riscurile existențiale viitoare ale IA, pierdem din vedere efectele sale actuale și concrete și munca ce trebuie făcută chiar acum, ba chiar de ieri, pentru a reduce aceste efecte. Fiindcă, da, IA se mișcă rapid, dar nu e definitivată. Construim drumul pe măsură ce-l parcurgem și putem decide colectiv în ce direcție vrem să mergem împreună.
Thank you.
Mulțumesc.
(Applause)
(Aplauze)