So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
He estado investigando sobre la IA durante más de una década y hace unos meses recibí el correo más extraño de mi carrera. Un extraño al azar me escribió diciéndome que mi trabajo en IA acabaría con la humanidad. Lo entiendo, la IA está tan de moda en este momento.
(Laughter)
(Risas)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
Aparece en los titulares casi todos los días, a veces por cosas realmente interesantes, como descubrir nuevas moléculas para la medicina o por ese Papa drogado vistiendo un abrigo de plumas blanco. Pero otras veces los titulares han sido muy oscuros, como el chatbot que le dice a un muchacho que debe divorciarse de su mujer o esa aplicación de planificación de comidas basada en IA que propone una receta con cloro gaseoso para complacer al público. En segundo plano, hemos oído hablar mucho sobre los escenarios apocalípticos, el riesgo existencial y la singularidad, y se han escrito cartas y se han organizado eventos para asegurarnos de que eso no suceda.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Soy investigadora y estudio los impactos de la IA en la sociedad, y no sé qué va a pasar dentro de 10 o 20 años, y nadie lo sabe realmente. Pero lo que sí sé es que están ocurriendo cosas bastante feas ahora mismo, porque la IA no existe en el vacío. Forma parte de la sociedad y tiene un impacto en las personas y en el planeta.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Los modelos de IA pueden contribuir al cambio climático. Sus datos de entrenamiento utilizan obras de arte y libros creados por artistas y escritores sin su consentimiento. Y su despliegue puede discriminar a comunidades enteras. Sin embargo, debemos empezar a rastrear sus impactos. Tenemos que empezar a ser transparentes, divulgarlos y crear herramientas para que las personas entiendan mejor la IA, de modo que, con suerte, las generaciones futuras de modelos de IA sean más confiables y sostenibles y, tal vez, tengan menos probabilidades de acabar con nosotros, si eso es lo que nos gusta.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Pero empecemos por la sostenibilidad, porque la nube en la que viven los modelos de IA está hecha de metal y plástico y funciona con enormes cantidades de energía. Además, cada vez que consultas un modelo de IA, ello supone un coste para el planeta. El año pasado formé parte de la iniciativa BigScience, que reunió a mil investigadores de todo el mundo para crear Bloom, el primer modelo de lenguaje amplio y abierto, como ChatGPT, pero con énfasis en la ética, la transparencia y el consentimiento. Y el estudio que dirigí para analizar los impactos ambientales de Bloom descubrió que solo entrenarlo consumía tanta energía como 30 hogares en un año entero y emitía 25 toneladas de dióxido de carbono, lo que es como conducir un automóvil cinco veces alrededor del planeta para que alguien pueda usar este modelo para contar un chiste. Y puede que no parezca mucho, pero otros modelos similares de lenguaje extenso, como el GPT-3, emiten 20 veces más carbono. Pero la cuestión es que las empresas de tecnología no están midiendo estas cosas. No lo están revelando. Esto es probablemente solo la punta del iceberg, aunque se esté derritiendo.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
Y en los últimos años hemos visto cómo los modelos de IA han aumentado de tamaño porque la tendencia actual de la IA es que “cuanto más grande, mejor”. Pero, por favor, no me hagan explicar por qué es así. Hemos visto cómo los grandes modelos lingüísticos, en particular, han crecido 2000 veces en los últimos cinco años. Y sus costes medioambientales también están aumentando. El trabajo más reciente que dirigí descubrió que cambiar un modelo más pequeño y eficiente por un modelo lingüístico más grande emite 14 veces más carbono para la misma tarea. Como contar ese chiste. Conforme incorporamos estos modelos a móviles, motores de búsqueda, frigoríficos y altavoces inteligentes, los costes ambientales se están acumulando rápidamente. Así que, en lugar de centrarnos en algunos riesgos existenciales futuros, hablemos de los impactos tangibles actuales y de las herramientas que podemos crear para medirlos y mitigarlos.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Ayudé a crear CodeCarbon, una herramienta que funciona en paralelo al código de entrenamiento de la IA que estima la cantidad de energía que consume y la cantidad de carbono que emite. Una herramienta así puede ayudarnos a tomar decisiones informadas, como elegir un modelo en lugar de otro porque es más sostenible, o implementar modelos de IA basados en energía renovable, que pueden reducir drásticamente sus emisiones.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Pero hablemos de otras cosas, porque la IA tiene otros impactos además de la sostenibilidad. Por ejemplo, a los artistas y escritores les ha costado mucho demostrar que el trabajo de toda su vida se ha utilizado para entrenar modelos de IA sin su consentimiento. Y si quieres demandar a alguien, sueles necesitar pruebas, ¿verdad? Así que Spawning.ai, una organización que fue fundada por artistas, creó esta herramienta realmente genial llamada “¿Me han entrenado?” Y te permite buscar en estos enormes conjuntos de datos para ver lo que tienen sobre ti. Ahora, lo admito, tenía curiosidad. Busqué en el LAION-5B, que es un enorme conjunto de datos de imágenes y texto, para ver si había alguna imagen mía en él. Esas dos primeras imágenes son mías de los eventos en los que he hablado. Pero el resto de las imágenes, ninguna de ellas es mía. Probablemente sean de otras mujeres llamadas Sasha que publicaron fotografías suyas en Internet. Y esto probablemente explique por qué, cuando consulto un modelo de generación de imágenes para generar una fotografía de una mujer llamada Sasha, la mayoría de las veces obtengo imágenes de modelos en bikini. A veces tienen dos brazos, a veces tienen tres brazos, pero rara vez llevan ropa puesta. Aunque puede resultar interesante para personas como tú y yo buscar en estos conjuntos de datos, para artistas como Karla Ortiz, esto proporciona una prueba crucial de que el trabajo de toda su vida, su obra de arte, se utilizó para entrenar a modelos de IA sin su consentimiento, y ella y dos artistas lo utilizaron como prueba para presentar una demanda colectiva contra empresas de IA por infracción de derechos de autor. Y más recientemente...
(Applause)
(Aplausos)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
Y, más recientemente, Spawning.ai se asoció con Hugging Face, la empresa en la que trabajo, para crear mecanismos de aceptación y exclusión para crear estos conjuntos de datos. Porque las obras de arte creadas por humanos no deberían servir de base para entrenar modelos lingüísticos basados en IA.
(Applause)
(Aplausos)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
Lo último de lo que quiero hablar es de los prejuicios. Probablemente oigan hablar mucho de esto. Formalmente hablando, es cuando los modelos de IA codifican patrones y creencias que pueden representar estereotipos o racismo y sexismo. Una de mis heroínas, la Dra. Joy Buolamwini, lo experimentó de primera mano cuando notó que los sistemas de IA ni siquiera detectaban su rostro a menos que llevara puesta una máscara blanca. Profundizando más, descubrió que los sistemas comunes de reconocimiento facial eran mucho peores para las mujeres de color que para los hombres blancos. Y cuando se utilizan modelos sesgados como este en las fuerzas del orden, esto puede dar lugar a acusaciones falsas e incluso a encarcelamientos injustos, algo que hemos visto ocurrir a varias personas en los últimos meses. Por ejemplo, Porcha Woodruff fue acusada injustamente de robo de vehículos cuando estaba embarazada de ocho meses porque un sistema de IA la identificó erróneamente.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Pero, lamentablemente, estos sistemas son cajas negras, y ni siquiera sus creadores pueden decir exactamente por qué funcionan de la manera en que lo hacen. Y, por ejemplo, en el caso de los sistemas de generación de imágenes, si se utilizan en contextos como generar un bosquejo forense a partir de la descripción de un agresor, toman todos esos sesgos y los vuelven a incluir en términos como criminal peligroso, terrorista o miembro de una banda, lo que, por supuesto, es muy peligroso cuando estas herramientas se utilizan en la sociedad.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Por eso, para entender mejor estas herramientas, creé una herramienta llamada Stable Bias Explorer, que permite explorar el sesgo de los modelos de generación de imágenes desde la perspectiva de las profesiones. Intenten imaginar a un científico. No me miren. ¿Qué ven? Más de lo mismo, ¿verdad? Hombres con gafas y batas de laboratorio. Y ninguno se parece a mí. Analizamos todos estos modelos de generación de imágenes diferentes y encontramos prácticamente lo mismo: una representación significativa de la blancura y la masculinidad en las 150 profesiones que analizamos, incluso si las comparamos con el mundo real, la Oficina de Estadísticas Laborales de EE. UU. Estos modelos muestran a los abogados como hombres y a los directores ejecutivos como hombres, casi el 100 % de las veces, aunque todos sabemos que no todos son hombres y blancos.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Lamentablemente, mi herramienta aún no se ha usado para redactar leyes. Sin embargo, hace poco la presenté en un evento de la ONU sobre los prejuicios de género como ejemplo de cómo crear herramientas para que personas de todos los ámbitos sociales, incluso aquellas que no saben programar, interactúen con la IA y la entiendan mejor, ya que utilizamos profesiones, pero pueden usar cualquier término que les interese.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
Y a medida que estos modelos se despliegan, se van integrando en la estructura misma de nuestras sociedades, nuestros teléfonos móviles, redes sociales e incluso nuestros sistemas de justicia y economías tienen IA. Y es muy importante que la IA siga siendo accesible para que sepamos cómo funciona y cuándo no funciona. Y no existe una solución única para problemas realmente complejos como los prejuicios, los derechos de autor o el cambio climático. Sin embargo, al crear herramientas para medir el impacto de la IA, podemos empezar a hacernos una idea de lo graves que son y empezar a abordarlos conforme avanzamos. Empecemos creando barreras para proteger a la sociedad y al planeta. Y una vez que dispongamos de esta información, las empresas podrán utilizarla para decir: De acuerdo, vamos a elegir este modelo porque es más sostenible, este modelo porque respeta los derechos de autor. Los legisladores que necesitan información para redactar leyes pueden utilizar estas herramientas para desarrollar nuevos mecanismos de regulación o gobernanza para la IA a medida que se vaya implantando en la sociedad. Y los usuarios como tú y yo podemos usar esta información para elegir modelos de IA en los que podamos confiar, no para tergiversarnos y hacer uso indebido de nuestros datos.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
¿Qué respondí a ese correo electrónico en el que se decía que mi trabajo destruiría a la humanidad? Dije que centrarse en los riesgos existenciales futuros de la IA es distraer la atención de sus impactos actuales, que son muy tangibles, y del trabajo que deberíamos hacer ahora mismo, o incluso ayer, para reducir estos impactos. Porque sí, la IA avanza con rapidez, pero no es un acuerdo cerrado. Construimos el camino a medida que lo recorremos y podemos decidir colectivamente en qué dirección queremos ir juntos.
Thank you.
Gracias.
(Applause)
(Aplausos)