So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Sou uma pesquisadora de IA há mais de uma década. E há alguns meses, recebi o e-mail mais esquisito da minha carreira. Um estranho aleatório me escreveu, falando que meu trabalho com IA vai destruir a humanidade. Agora eu entendo, AI está bem popular agora.
(Laughter)
(Risos)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
Está nas manchetes praticamente todo dia, às vezes por coisas muito legais, como descobrir novas moléculas para a medicina ou aquele papa maneiro de casaco puffer branco. Mas em outras, as manchetes são bastante sombrias, como aquele chatbot dizendo ao cara que ele deveria se divorciar da esposa, ou o aplicativo com a IA de planejamento alimentar que propôs uma agradável receita usando gás cloro. Ao fundo, escutamos muito sobre cenários apocalípticos, riscos existenciais e singularidade, com cartas sendo escritas e eventos sendo organizados para garantir que isso não aconteça.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Agora sou uma pesquisadora que estuda os impactos da IA na sociedade e não sei o que vai acontecer em 10 ou 20 anos, e, na verdade, ninguém sabe. Mas o que eu sei é que tem algumas coisas muito desagradáveis acontecendo agora, porque a IA não existe isoladamente. Ela faz parte da sociedade e tem impactos nas pessoas e no planeta.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Modelos de IA podem contribuir para mudanças climáticas. Seus dados de treinamento usam arte e livros criados por artistas e autores sem o consentimento deles. E sua implantação pode discriminar comunidades inteiras. Mas precisamos começar a monitorar seus impactos. Temos que começar a ser transparentes, expor os impactos e criar ferramentas para que as pessoas entendam melhor a IA, para que as futuras gerações de modelos de IA sejam mais confiáveis, sustentáveis, talvez menos propensos a nos matar, se é isso que você pensa.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Vamos começar com sustentabilidade, porque aquela nuvem onde os modelos de IA vivem é, na verdade, feita de metal, plástico e alimentada por uma grande quantidade de energia. E cada consulta que você faz a um modelo de IA vem com um custo para o planeta. No ano passado, fiz parte da iniciativa BigScience, que reuniu milhares de pesquisadores de todo o mundo para criar o BLOOM, o primeiro grande modelo de linguagem de código aberto, como o ChatGPT, mas com ênfase em ética, transparência e consentimento. E o estudo que conduzi, que analisou os impactos ambientais do BLOOM, constatou que só treiná-lo gastava tanta energia quanto 30 casas durante um ano inteiro e emitia 25 toneladas de dióxido de carbono, que é como dar cinco voltas ao redor do planeta dirigindo um carro, só para alguém usar o modelo para contar uma piada de toc toc. E isso pode não parecer muito, mas outros grandes modelos de linguagem parecidos, como o GPT-3, emitem 20 vezes mais carbono. Mas as empresas de tecnologia não estão mensurando isso. Eles não estão divulgando. E isso é provavelmente só a ponta do iceberg, mesmo que esteja derretendo.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
E nos últimos anos, vimos os modelos de IA crescerem rapidamente em tamanho, porque a tendência atual da IA é: “quanto maior, melhor”. Mas, por favor, não me façam falar sobre o porquê. De todo modo, vimos especificamente grandes modelos de linguagem crescerem 2 mil vezes em tamanho nos últimos cinco anos. E, lógico, seus custos ambientais estão aumentando também. O trabalho mais recente que conduzi, constatou que trocar um modelo menor e mais eficiente por um modelo de linguagem maior emite 14 vezes mais carbono para a mesma tarefa. Como contar aquela piada de toc toc. E, à medida que colocamos esses modelos em celulares, mecanismos de busca, geladeiras inteligentes e alto-falantes, os custos ambientais estão aumentando muito rapidamente. Ao invés de focar em riscos existenciais futuros, vamos falar sobre os impactos tangíveis atuais e as ferramentas que podemos criar para mensurar e mitigar esses impactos.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Eu ajudei a criar o CodeCarbon, uma ferramenta que roda junto com o código de treinamento da IA e estima quanta energia ele consome e quanto carbono ele emite. E usar essa ferramenta pode ajudar a tomar decisões embasadas, como escolher um modelo em vez do outro por ser mais sustentável ou implantar modelos de IA em energia renovável, o que pode reduzir drasticamente as emissões.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Mas vamos falar sobre outras coisas, porque há outros impactos da IA além da sustentabilidade. Por exemplo, tem sido muito difícil para artistas e autores provar que o trabalho de suas vidas foi usado para treinar modelos de IA sem seu consentimento. E para processar alguém, geralmente precisa de provas, certo? A Spawning.ai, uma organização fundada por artistas, criou essa ferramenta muito legal chamada “Have I Been Trained?” e ela deixa você pesquisar nesse grande conjunto de dados e ver o que têm sobre você. Agora, eu admito, fiquei curiosa. Pesquisei no LAION-5B, um enorme conjunto de dados de imagens e texto, para ver se alguma imagem minha estava lá. Agora, nessas duas primeiras imagens sou eu, em eventos nos quais falei. Mas o resto das imagens, nenhuma delas é minha. Talvez sejam de outras mulheres chamadas Sasha que colocaram fotos de si mesmas na internet. E isso talvez explique por que, quando peço a um modelo de geração de imagens para gerar uma foto de uma mulher chamada Sasha, muitas das vezes obtenho imagens de modelos de biquínis. Às vezes elas têm dois braços, às vezes têm três braços, mas raramente estão de roupa. E embora possa ser interessante para pessoas como você e eu pesquisar nesses conjuntos de dados, para artistas como Karla Ortiz, isso fornece evidências cruciais de que o trabalho de sua vida, sua arte, foi usado para treinar modelos de IA sem seu consentimento, e ela e dois artistas usaram isso como prova para abrir uma ação coletiva contra empresas de IA por violação de direitos autorais. E, mais recentemente, --
(Applause)
(Aplausos)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
E, mais recentemente, a Spawning.ai fez uma parceria com a Hugging Face, a empresa em que trabalho, para criar mecanismos para consentir ou negar a criação desses conjuntos de dados. Porque obras de arte criadas por humanos não deveriam ser um buffet livre para treinar modelos de linguagem de IA.
(Applause)
(Aplausos)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
A última coisa sobre a qual quero falar é o viés. Você provavelmente ouve muito isso. Formalmente falando, é quando os modelos de IA codificam padrões e crenças que podem representar estereótipos ou racismo e sexismo. Uma das minhas heroínas, a Dra. Joy Buolamwini sentiu isso em primeira mão quando soube que os sistemas de IA sequer detectariam seu rosto a menos que ela usasse uma máscara branca. Indo mais a fundo, ela descobriu que os sistemas comuns de reconhecimento facial eram muito piores para mulheres negras do que para homens brancos. E, quando modelos enviesados como esse são implantados em ambientes policiais, podem resultar em falsas acusações, e até mesmo prisões injustas, o que já vimos acontecer com várias pessoas nos últimos meses. Como Porcha Woodruff, indevidamente acusada de roubo de carro aos oito meses de gravidez porque um sistema de IA a identificou incorretamente.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Infelizmente, esses sistemas são caixas-pretas, nem mesmo seus criadores sabem exatamente o porquê de funcionarem desse jeito. Por exemplo, para sistemas de geração de imagens, se eles são usados em contextos como geração de desenhos forenses com base na descrição de um infrator, eles pegam todos esses vieses e os retratam para termos como criminosos perigosos, terroristas ou membros de gangues, o que, obviamente, é muito perigoso quando essas ferramentas são implantadas na sociedade.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Para entender melhor essas ferramentas, criei essa ferramenta chamada Stable Bias Explorer, que permite explorar o viés dos modelos de geração de imagens através das lentes das profissões. Tente imaginar um cientista em sua mente. Não olhe para mim. O que você vê? Quase a mesma coisa, certo? Homens com óculos e jaleco. E nenhum deles se parece comigo. E o fato é que analisamos todos esses diferentes modelos de geração de imagens e encontramos a mesma coisa: representação significativa de brancura e masculinidade em todas as 150 profissões analisadas, comparadas à realidade, no Departamento de Estatística do Trabalho dos EUA. Esses modelos mostram advogados e CEOs como homens, quase 100% das vezes, embora todos saibamos que nem todos são brancos e homens.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Infelizmente, minha ferramenta ainda não foi usada para redigir legislação. Mas a apresentei recentemente em um evento da ONU sobre preconceito de gênero como um exemplo de como criar ferramentas para que pessoas de todas as esferas, mesmo aquelas que não sabem programar, se envolvam e entendam melhor a IA, porque usamos profissões, mas pode usar qualquer termo que seja do seu interesse.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
E à medida que esses modelos se implantam, incorporam-se à própria estrutura de nossas sociedades, nossos celulares, feeds de mídia social e até nossos sistemas judiciais e nossas economias têm IA neles. E é realmente importante, que a IA fique acessível para que saibamos como ela funciona e quando não funciona. E não há uma solução única para coisas realmente complexas, como vieses, direitos autorais ou mudanças do clima. Mas ao criar ferramentas para medir os impactos da IA, podemos começar a ter uma ideia de como eles são ruins e começar a abordá-los à medida em que avançamos. Comece a criar protetores para resguardar a sociedade e o planeta. E uma vez que tenhamos essas informações, as empresas podem usá-las para dizer: "Ok, vamos escolher esse modelo porque é mais sustentável, porque ele respeita os direitos autorais." Os legisladores que precisam mesmo de informações para fazer leis podem usar essas ferramentas para desenvolver novos mecanismos de regulamentação ou governança para a IA à medida que é implantada na sociedade. E usuários como você e eu podemos usar informações para escolher modelos de IA em que possamos confiar, para não nos deturpar e não usar indevidamente nossos dados.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Mas o que eu respondi ao e-mail que dizia que meu trabalho destruiria a humanidade? Disse que focar nos riscos existenciais futuros da IA é uma distração de seus impactos atuais e muito tangíveis e do trabalho que deveríamos estar fazendo agora, ou mesmo ontem, para reduzir esses impactos. Porque sim, a IA está se movendo rápido, mas não é um negócio fechado. Estamos construindo a estrada enquanto a percorremos e podemos decidir coletivamente em que direção queremos seguir juntos.
Thank you.
Obrigada.
(Applause)
(Aplausos)