So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Jadi saya telah menjadi peneliti AI selama lebih dari satu dekade. Dan beberapa bulan lalu, saya mendapat email paling aneh dalam karier saya. Seorang tak dikenal menulis email kepada saya mengatakan pekerjaan saya dalam bidang AI akan mengakhiri kemanusiaan. Sekarang saya paham, AI, sangat menarik sekarang.
(Laughter)
(Tawa)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
AI menjadi berita utama hampir setiap hari, kadang karena hal-hal yang sangat keren, seperti menemukan molekul baru untuk obat atau Uskup keren berjaket <i>puffer</i> putih. Namun, kadang berita utamanya bisa sangat menyeramkan, seperti <i>chatbot</i> yang menyarankan seorang pria untuk menceraikan istrinya atau aplikasi perencana makanan AI yang mengusulkan resep favorit orang-orang dengan tambahan gas klorin. Dan di balik semuanya, kita mendengar banyak skenario kiamat, risiko eksistensial, dan singularitas, dengan banyak surat ditulis dan acara diadakan untuk memastikan hal itu tidak terjadi.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Sekarang saya adalah peneliti yang mempelajari dampak AI pada masyarakat, dan saya tidak tahu apa yang akan terjadi dalam 10 atau 20 tahun, dan tidak ada yang benar-benar tahu. Namun, yang saya tahu adalah ada hal yang cukup buruk terjadi saat ini, karena AI tidak terjadi dalam ruang hampa. AI adalah bagian dari masyarakat dan berdampak pada manusia dan planet ini.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Model AI dapat berkontribusi pada perubahan iklim. Data pelatihan mereka menggunakan seni dan buku yang dibuat oleh seniman dan penulis tanpa persetujuan mereka. Dan penerapannya dapat mendiskriminasi seluruh komunitas. Namun, kita harus mulai melacak dampaknya. Kita perlu mulai bersikap transparan dan mengungkap AI dan menciptakan alat sehingga orang memahami AI lebih baik, sehingga mudah-mudahan jenis AI masa depan akan lebih dapat dipercaya, berkelanjutan, mungkin lebih minim risiko membunuh kita, jika itu kemauan Anda.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Namun, mari mulai dari keberlanjutan, karena <i>cloud</i> yang digunakan oleh model AI sebenarnya terbuat dari logam, plastik, dan didukung oleh energi berjumlah besar. Dan setiap kali Anda bertanya ke model AI, itu menimbulkan kerugian bagi planet ini. Tahun lalu, saya adalah bagian dari BigScience Initiative, yang menyatukan seribu peneliti dari seluruh dunia untuk membuat Bloom, model bahasa besar terbuka pertama, seperti ChatGPT, tetapi dengan penekanan pada etika, transparansi, dan persetujuan. Dan studi yang saya pimpin yang melihat dampak lingkungan Bloom menemukan bahwa hanya melatihnya menggunakan energi sebanyak 30 rumah dalam setahun penuh dan mengeluarkan 25 ton karbon dioksida, sama seperti mengendarai mobil Anda mengelilingi planet ini lima kali hanya agar orang bisa menggunakannya untuk lelucon <i>knock-knock.</i> Dan ini mungkin tidak terkesan banyak, tetapi model bahasa lain yang serupa, seperti GPT-3, memancarkan karbon 20 kali lebih banyak. Masalahnya, perusahaan teknologi tidak mengukur hal ini. Mereka menyembunyikannya. Jadi ini mungkin hanya puncak gunung es, walaupun itu sedang mencair.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
Dan dalam beberapa tahun terakhir, kami telah melihat model AI membeludak, karena tren AI saat ini adalah “lebih besar lebih baik.” Tapi tolong jangan menanyakan saya mengapa itu terjadi. Bagaimanapun, kami telah melihat model bahasa besar khususnya tumbuh 2.000 kali selama lima tahun terakhir. Dan tentu saja, dampak lingkungannya juga meningkat. Tugas terbaru yang saya pimpin menemukan bahwa mengganti model yang lebih kecil dan lebih efisien untuk model bahasa yang lebih besar memancarkan 14 kali lebih banyak karbon untuk tugas yang sama. Seperti lelucon knock-knock tadi. Dan saat kami memasukkan model-model ini ke ponsel, mesin pencari, kulkas, dan speaker pintar, dampak lingkungannya benar-benar menumpuk dengan cepat. Jadi alih-alih berfokus pada beberapa risiko eksistensial di masa depan, mari kita bicara tentang dampak nyatanya dan alat yang dapat kita buat untuk mengukur dan mengurangi dampak ini.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Saya membantu membuat CodeCarbon, alat yang bekerja paralel dengan kode pelatihan AI yang memperkirakan jumlah energi terpakai dan jumlah karbon yang dihasilkan. Dan dengan alat seperti ini membantu kita membuat pilihan bijak, seperti memilih sebuah model karena lebih berkelanjutan, atau menerapkan model AI pada energi terbarukan, yang dapat mengurangi emisi karbon secara drastis. Namun, mari kita bicara tentang hal lain,
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
karena ada dampak lain dari AI selain keberlanjutan. Misalnya, sangat sulit bagi seniman dan penulis untuk membuktikan bahwa karya mereka telah digunakan untuk melatih model AI tanpa persetujuan mereka. Dan jika Anda ingin menuntut seseorang, Anda butuh bukti, bukan? Spawning.ai, sebuah organisasi yang didirikan oleh seniman, membuat alat yang sangat keren bernama “Have I Been Trained?”. Dan memungkinkan Anda menelusuri kumpulan data besar untuk melihat apa yang mereka miliki dari Anda. Saya akui, saya penasaran. Saya mencari LAION-5B, yaitu kumpulan data gambar dan teks yang besar, untuk melihat apakah ada gambar saya di sana. Sekarang dua gambar pertama itu, itu saya dari acara yang saya hadiri. Tapi gambar lainnya, tidak satupun dari itu adalah saya. Mereka mungkin wanita lain bernama Sasha yang memasang foto mereka di internet. Ini mungkin menjelaskan mengapa ketika menanyakan AI ini untuk menghasilkan foto wanita bernama Sasha, saya cenderung mendapatkan gambar model bikini. Terkadang memiliki dua lengan, terkadang mereka memiliki tiga lengan, tetapi mereka jarang mengenakan pakaian. Dan meskipun menarik bagi orang-orang seperti Anda dan saya untuk mencari kumpulan data ini, untuk seniman seperti Karla Ortiz, alat ini memberikan bukti penting bahwa karya hidupnya, karya seninya, digunakan untuk melatih model AI tanpa persetujuannya, lalu dia dan dua seniman lain menjadikannya bukti untuk mengajukan gugatan <i>class action </i>ke perusahaan AI atas pelanggaran hak cipta. Dan yang terbaru --
(Applause)
(Tepuk tangan)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
Dan yang terbaru Spawning.ai bermitra dengan Hugging Face, perusahaan tempat saya bekerja, untuk membuat mekanisme <i>opt-in</i> dan <i>opt-out</i> dalam membuat kumpulan data ini. Karena karya seni yang dibuat manusia seharusnya tidak menjadi bahan untuk melatih model bahasa AI.
(Applause)
(Tepuk tangan)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
Terakhir yang ingin saya sampaikan adalah bias. Anda mungkin sering mendengarnya. Secara formal, bias adalah ketika model AI membuat pola dan keyakinan yang dapat mewakili stereotip atau rasisme dan seksisme. Seorang pahlawan saya, Dr. Joy Buolamwini, mengalami secara langsung ketika dia menyadari sistem AI tidak akan mendeteksi wajahnya kecuali dia mengenakan topeng berwarna putih. Menggali lebih dalam, dia menemukan bahwa sistem pengenalan wajah umum lebih buruk bagi wanita kulit berwarna daripada pria kulit putih. Dan ketika model bias seperti ini digunakan pada pengaturan penegakan hukum, ini dapat mengakibatkan tuduhan palsu, bahkan pemenjaraan yang salah, yang telah kita lihat terjadi pada banyak orang dalam beberapa bulan terakhir. Misalnya, Porcha Woodruff dituduh membajak mobil secara keliru saat hamil delapan bulan karena sistem AI salah mengidentifikasinya.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Sayangnya, sistem ini adalah kotak hitam, dan bahkan penciptanya tidak tahu pasti mengapa mereka bekerja seperti itu. Misalnya, untuk sistem pembuatan gambar, jika mereka digunakan dalam konteks, seperti membuat sketsa forensik berdasarkan deskripsi pelaku, mereka mengambil semua bias itu dan mereka mengembalikan hasil dengan istilah seperti penjahat berbahaya, teroris atau anggota geng, yang tentu saja sangat berbahaya ketika alat ini digunakan di masyarakat.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Jadi untuk memahami alat-alat ini lebih baik, saya membuat alat yang disebut Stable Bias Explorer, yang memungkinkan Anda menjelajahi bias dari model pembuatan gambar melalui lensa profesi. Cobalah untuk membayangkan seorang ilmuwan di pikiran Anda. Jangan lihat saya. Apa yang kau lihat? Banyak hal yang sama, bukan? Pria berkacamata dan jas lab. Dan tak satu pun mirip saya. Masalahnya, adalah kami melihat semua model pembuatan gambar berbeda ini dan menemukan banyak kesamaan: representasi signifikan dari kulit putih dan maskulinitas di semua 150 profesi yang kami lihat, bahkan jika dibandingkan dunia nyata, Biro Statistik Tenaga Kerja AS. Model-model ini menunjukkan pengacara sebagai pria, dan CEO sebagai pria, hampir 100 persen dari waktu, meskipun kita tahu tidak semuanya berkulit putih dan laki-laki.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Sayangnya, alat saya belum digunakan untuk menulis undang-undang. Namun, baru-baru ini saya memaparkannya di acara PBB tentang bias gender sebagai contoh bagaimana kita membuat alat untuk semua lapisan masyarakat, bahkan mereka yang tidak tahu <i>coding</i>, untuk terlibat dan lebih memahami AI karena kita menggunakan profesi, tetapi Anda bisa memakai istilah apa pun yang menarik bagi Anda.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
Dan ketika AI ini sedang digunakan, dijalin ke dalam struktur terkecil dalam masyarakat kita, ponsel kita, <i>feeds</i> media sosial kita, bahkan sistem peradilan, dan ekonomi kita memiliki AI di dalamnya. Dan sangat penting bahwa AI tetap dapat diakses sehingga kita tahu cara kerjanya dan batas kemampuannya. Dan tidak ada solusi tunggal untuk hal-hal yang sangat kompleks, seperti bias, hak cipta, atau perubahan iklim. Tetapi dengan menciptakan alat untuk mengukur dampak AI, kita bisa mulai mendapatkan gambaran tentang seberapa buruk mereka dan mulai mengatasinya seiring berjalannya waktu. Mulai membuat pembatas untuk melindungi masyarakat dan planet ini. Dan begitu kita memiliki informasi ini, perusahaan bisa menggunakan untuk berkata, “OK, kami memilih model ini karena lebih berkelanjutan, model ini karena menghormati hak cipta.” Legislator yang membutuhkan informasi untuk membuat undang-undang, dapat menggunakan alat ini untuk mengembangkan mekanisme regulasi atau tata kelola baru untuk AI saat digunakan ke masyarakat. Dan pengguna seperti kita dapat menggunakan informasi ini untuk memilih model AI yang dapat kita percaya, tidak salah merepresentasikan kita, dan menyalahgunakan data.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Namun, apa yang saya balas ke email yang mengatakan pekerjaan saya akan menghancurkan kemanusiaan? Saya mengatakan bahwa berfokus pada risiko eksistensial AI di masa depan adalah gangguan dari dampaknya yang sangat nyata saat ini dan pekerjaan yang harus kita lakukan sekarang, atau bahkan kemarin, untuk mengurangi dampak ini. Karena ya, AI berkembang pesat, tetapi ini belum garis akhir. Kita membangun jalan sambil melewatinya, dan kita dapat secara kolektif memutuskan kemana arah tujuan kita bersama.
Thank you.
Terima kasih.
(Applause)
(Tepuk tangan)