So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Sou investigadora da IA há mais de 10 anos. Há uns meses, recebi o <i>e-mail</i> mais estranho da minha carreira. Um desconhecido qualquer escreveu-me a dizer que o meu trabalho na IA vai acabar com a Humanidade. Agora percebo, a IA está na berlinda, neste momento.
(Laughter)
(Risos)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
Aparece nos títulos dos jornais quase todos os dias, por vezes por causa de coisas muito fixes como descobrir novas moléculas para a medicina ou aquele Papa janota de casaco branco. Mas outras vezes os cabeçalhos têm sido muito sombrios, como aquele <i>chatbot </i>a dizer àquele tipo que devia divorciar-se da mulher ou a aplicação de planeamento de refeições em que a IA propõe uma receita que agrade a todos, com cloro. E, em segundo plano, ouvimos falar muito sobre cenários do dia do Juízo Final, risco existencial e singularidade. Escrevem-se cartas e organizam-se eventos para garantir que isso não acontece.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Eu sou uma investigadora que estuda os impactos da IA na sociedade, e não sei o que vai acontecer daqui a 10 ou 20 anos, e, na verdade, ninguém sabe. Mas o que sei é que estão a acontecer coisas muito desagradáveis neste momento, porque a IA não existe no vácuo. Faz parte da sociedade, e tem impacto nas pessoas e no planeta.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Os modelos da IA podem contribuir para a alteração climática. Os dados para a sua formação utilizam arte e livros criados por artistas e autores sem o consentimento deles. E a sua implantação pode discriminar comunidades inteiras. Precisamos de começar a acompanhar os seus impactos. Precisamos de começar a ser transparentes, a divulgá-los e a criar instrumentos para as pessoas compreenderem melhor a IA, para que as futuras gerações de modelos da IA sejam mais fiáveis, mais sustentáveis, talvez menos propensas a matar-nos, se é isso que vos preocupa.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Mas comecemos pela sustentabilidade, porque a nuvem em que vivem os modelos da IA é feita de metal, de plástico e é alimentada por grandes quantidades de energia. Cada vez que consultamos um modelo de IA, isso tem um custo para o planeta. No ano passado, fiz parte da iniciativa BigScience, que juntou mil investigadores de todo o mundo para criar o Bloom, o primeiro modelo linguístico aberto de grande dimensão, como o ChatGPT, mas com ênfase na ética, na transparência e no consentimento. O estudo que eu liderei e que analisou os impactos ambientais do Bloom concluiu que só para o treinar consumia tanta energia como 30 lares durante um ano inteiro e emitia 25 toneladas de dióxido de carbono, o mesmo que dar cinco voltas ao planeta, de carro, só para uma pessoa poder usar esse modelo para contar uma piada idiota. Isto pode não parecer muito importante, mas outros modelos linguísticos semelhantes de grande dimensão, como o GPT-3, emitem 20 vezes mais carbono. Mas a questão é que as empresas de tecnologia não estão a medir isto, não estão a divulgar isto. Provavelmente, isto é apenas a ponta do icebergue, mesmo que ele esteja a derreter-se.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
Nos últimos anos temos visto os modelos de IA aumentarem de tamanho porque a tendência atual na IA é “quanto maior melhor”. Mas não me façam começar a falar da razão por que é assim. Em todo o caso, temos visto grandes modelos linguísticos aumentarem 2000 vezes de tamanho nos últimos cinco anos. É claro que os custos ambientais também estão a aumentar. O trabalho mais recente que liderei concluiu que a substituição de um modelo mais pequeno e mais eficaz por um modelo de linguagem maior emite 14 vezes mais carbono para a mesma tarefa. É como contar aquela piada idiota. À medida que colocamos estes modelos nos telemóveis, nos motores de busca, nos frigoríficos e altifalantes inteligentes, os custos ambientais vão-se acumulando rapidamente. Então, em vez de nos concentrarmos em alguns riscos existenciais futuros, é melhor falarmos dos atuais impactos tangíveis e das ferramentas que podemos criar para medir e mitigar esses impactos.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Eu ajudei a criar o CodeCarbon, um instrumento que funciona em paralelo com o código de treino da IA que calcula a quantidade de energia que isso consome e a quantidade de carbono que emite. Usar um instrumento como este pode ajudar-nos a fazer escolhas, como escolher um modelo em vez de outro, por ser mais sustentável, ou implementar modelos de IA com energias renováveis,
But let's talk about other things
o que pode reduzir drasticamente as suas emissões.
because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Mas falemos de outras coisas porque há outros impactos da IA para além da sustentabilidade. Por exemplo, tem sido muito difícil os artistas e autores provarem que o trabalho da sua vida tem sido usado para treinar modelos de IA sem o consentimento deles. Se quiserem processar alguém, têm de precisar de provas, não é? Então, a Spawning.ai, uma organização fundada por artistas, criou um instrumento muito fixe chamado “Já fui treinado?” que permite pesquisar conjuntos enormes de dados para verem o que sabem sobre vocês. Confesso que fiquei curiosa. Pesquisei o LAION-5B, que é um conjunto enorme de dados de imagens e textos, para ver se lá havia algumas imagens minhas. Ora bem, nestas duas primeiras imagens, sou eu, em eventos em que falei. Mas, quanto ao resto das imagens, em nenhuma delas sou eu. Provavelmente, são de outras mulheres chamadas Sasha que puseram fotografias de si mesmas na Internet. Isto pode explicar porquê, quando consulto um modelo de geração de imagens para gerar uma fotografia de uma mulher chamada Sasha, muitas vezes obtenho imagens de modelos em biquíni. Por vezes têm dois braços, por vezes têm três braços, (Risos) mas raramente têm roupas vestidas. Embora possa ser interessante para pessoas como vocês e como eu pesquisar estes conjuntos de dados, para artistas como Karla Ortiz, isto fornece provas cruciais de que as obras de arte dela, foram usadas para treinar modelos de IA sem autorização, e ela e dois artistas usaram isso como prova para apresentar um processo judicial contra empresas de IA por violação dos direitos de autor. E mais recentemente...
(Applause)
(Aplausos)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
E, mais recentemente, a Spawning.ai associou-se à Hugging Face, a empresa onde trabalho, para criar mecanismos de inclusão e de exclusão para criar esses conjuntos de dados. Porque as obras de arte criadas pelos seres humanos não devem ser um bufete à discrição para treinar modelos linguísticos de IA.
(Applause)
(Aplausos)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
A última coisa de que quero falar é de preconceito. Provavelmente, ouvem falar disso muitas vezes. Formalmente falando, é quando os modelos de IA codificam padrões e crenças que podem representar estereótipos ou racismo e sexismo. Uma das minhas heroínas, a Dra. Joy Buolamwini, sentiu isto pessoalmente, quando percebeu que os sistemas de IA só detetavam o rosto dela se ela usasse uma máscara branca. Ao aprofundar isso, ela descobriu que os sistemas comuns de reconhecimento facial eram muito piores para as mulheres de cor do que para os homens brancos. Quando modelos preconceituosos como este são utilizados na aplicação da lei, isso pode resultar em falsas acusações, e até em prisões injustas, como vimos acontecer a várias pessoas nos últimos meses. Por exemplo, Porcha Woodruff foi acusada injustamente de roubo de automóvel quando estava grávida de oito meses, porque um sistema de IA a identificou erradamente.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Infelizmente, estes sistemas são caixas negras, e nem sequer os seus criadores conseguem dizer exatamente porque é que funcionam dessa maneira. Por exemplo, para os sistemas de geração de imagens, se forem usados em contextos como gerar um esboço forense com base na descrição de um criminoso, pegam em todos esses preconceitos e dão-nos resultados como criminoso perigoso, terrorista ou membros de um gangue, o que, claro, é muito perigoso quando estes instrumentos são utilizados na sociedade.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Para melhor compreender estes instrumentos, criei este instrumento chamado Explorador de Preconceitos Estáveis, que permite explorar o preconceito dos modelos de geração de imagens através das lentes de profissões. Assim, tentem imaginar um cientista, mas não olhem para mim. O que é que veem? Muito do mesmo, não é? Homens de óculos e batas de laboratório. Nenhum deles se parece comigo. A questão é que olhámos para todos estes diferentes modelos de geração de imagens e encontrámos muito do mesmo: uma representação significativa da brancura e da masculinidade nas 150 profissões que observámos. Mesmo se comparados com o mundo real, o Gabinete de Estatísticas do Trabalho dos EUA, estes modelos mostram os advogados como homens, os diretores executivos como homens, quase 100% das vezes, apesar de todos sabermos que nem todos são brancos ou homens.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Infelizmente, o meu instrumento ainda não foi usado para escrever legislação. Mas apresentei-o recentemente num evento da ONU sobre preconceito de género, como um exemplo de como podemos criar instrumentos para que pessoas de todos os quadrantes, mesmo as que não sabem programar, se envolvam e compreendam melhor a IA porque usámos profissões, mas vocês podem usar quaisquer termos que vos interessem.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
À medida que estes modelos estão a ser implementados, estão a ser entrelaçados no tecido das nossas sociedades, dos nossos telemóveis, das nossas redes sociais e até dos nossos sistemas de justiça e das nossas economias contêm IA. E é muito importante que a IA permaneça acessível para sabermos como funciona e quando não funciona. Não há uma solução única para coisas muito complexas, como preconceitos, direitos de autor ou alteração climática. Mas ao criar instrumentos para medir os impactos da IA, podemos começar a ter uma ideia de quão mau eles são e começar a resolvê-los à medida que vamos avançando, começar a criar barreiras de proteção para a sociedade e o planeta. Depois de termos estas informações, as empresas podem usá-la para dizer: “OK, vamos escolher este modelo porque é mais sustentável” ou “este modelo porque respeita os direitos de autor.” Os legisladores que precisam de informações para escrever as leis podem usar esses instrumentos para desenvolver novos mecanismos de regulamentação ou de governação para a IA, à medida que ela é implementada na sociedade. Os utilizadores como vocês e eu podemos usar essas informações para escolher modelos de IA em que podemos confiar, não para nos deturpar ou para usar indevidamente os nossos dados.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Mas o que é que eu respondi àquele <i>e-mail</i> que dizia que o meu trabalho vai destruir a Humanidade? Disse que focarmo-nos nos riscos existenciais futuros da IA é uma distração dos seus impactos atuais, muito tangíveis e do trabalho que devíamos estar a fazer neste momento, ou mesmo ontem, para reduzir esses impactos. Porque a IA está a mover-se rapidamente, mas não é um assunto acabado. Estamos a construir a estrada à medida que a percorremos, e podemos decidir coletivamente em que direção queremos seguir juntos.
Thank you.
Muito obrigada.
(Applause)
(Aplausos)