So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
Tôi đã là một nhà nghiên cứu AI trong hơn một thập kỷ. Vài tháng trước, tôi nhận được email kỳ lạ nhất trong sự nghiệp. Một người lạ đã viết thư cho tôi nói rằng công việc AI của tôi sẽ kết liễu nhân loại. Giờ tôi hiểu rồi, AI hiện đang là chủ đề nóng hổi.
(Laughter)
(Tiếng cười)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
Nó xuất hiện trên các tiêu đề hàng ngày, đôi khi vì những điều thực sự thú vị như khám phá ra các phân tử mới cho y học hay hình ảnh Giáo hoàng mặc áo khoác phao. Nhưng có khi khác thì các tiêu đề thật sự khá u ám, chẳng hạn như chatbot nói với một anh chàng rằng anh ta nên ly dị vợ hay ứng dụng lập kế hoạch bữa ăn AI đề ra công thức làm hài lòng đám đông lại có chứa khí clo. Và trong bối cảnh, chúng ta đã nghe nhiều người nói về ngày tận thế, rủi ro hiện sinh và điểm kỳ dị, với các bức thư được viết và các sự kiện được tổ chức để đảm bảo điều đó không xảy ra.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
Hiện tại tôi là một nhà nghiên cứu về tác động của AI đối với xã hội, tôi không biết điều gì sẽ xảy ra trong 10 hoặc 20 năm nữa, và không ai thực sự biết. Nhưng những gì tôi biết là có một số điều khá khó chịu đang diễn ra ngay bây giờ, bởi vì AI chẳng tự dưng mà xuất hiện. Nó là một phần của xã hội, và có tác động đến con người và hành tinh.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
Các mô hình AI có thể góp phần vào biến đổi khí hậu. Dữ liệu đào tạo của chúng sử dụng tác phẩm và đầu sách do các nghệ sĩ và tác giả mà không có sự cho phép. Và việc triển khai nó có thể phân biệt đối xử với toàn bộ cộng đồng. Nhưng chúng ta cần theo dõi tác động của nó. Chúng ta cần bắt đầu minh bạch về chúng, tạo ra các công cụ để mọi người hiểu AI tốt hơn, mong rằng các thế hệ mô hình AI trong tương lai sẽ đáng tin cậy hơn, bền vững hơn, có thể giảm khả năng hủy diệt ta, nếu đó là điều bạn muốn.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
Nhưng hãy bắt đầu với tính bền vững, bởi vì các mô hình hoạt động của AI thực sự được làm từ kim loại, nhựa và được cung cấp một nguồn năng lượng khổng lồ. Và mỗi khi bạn truy vấn một mô hình AI, hành tinh sẽ phải trả một cái giá. Năm ngoái, tôi là một phần của sáng kiến BigScience, quy tụ hàng ngàn nhà nghiên cứu từ khắp nơi trên thế giới để tạo ra Bloom, mô hình ngôn ngữ mở rộng đầu tiên, như ChatGPT, nhưng tập trung vào đạo đức, minh bạch và tán thành. Nghiên cứu mà tôi dẫn dắt xem xét tác động môi trường của Bloom cho thấy rằng chỉ cần huấn luyện nó mà đã tiêu tốn năng lượng bằng 30 ngôi nhà trong cả năm và thải ra 25 tấn carbon dioxide, bằng với bạn lái xe năm lần vòng quanh hành tinh chỉ để ai đó có thể dùng mô hình này để nói một câu đùa. Mà điều này có vẻ không nhiều, nhưng các mô hình ngôn ngữ lớn tương tự khác, như GPT-3, thải ra gấp 20 lần khí carbon. Nhưng vấn đề là các công ty công nghệ không cân đo thứ này. Họ không tiết lộ nó. Vì vậy đây hẳn chỉ là phần nổi của tảng băng trôi, cho dù là một tảng băng tan.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
Mà trong những năm gần đây, ta đã thấy các mô hình AI có kích thước khổng lồ vì xu hướng hiện tại của AI là “càng lớn càng tốt”. Nhưng xin đừng bắt tôi phải giải thích tại sao lại như vậy Ở mọi trường hợp, ta đã thấy các mô hình ngôn ngữ lớn nói riêng tăng kích thước gấp 2.000 lần trong năm năm qua. Và tất nhiên, chi phí môi trường của chúng cũng đang tăng lên. Dự án gần nhất mà tôi dẫn dắt đã tìm ra việc chuyển đổi một mô hình nhỏ hơn, hiệu quả hơn cho một mô hình ngôn ngữ lớn hơn thải ra lượng carbon gấp 14 lần cho cùng một nhiệm vụ. Giống như nói câu đùa đó. Khi ta đưa các mô hình này vào điện thoại di động và công cụ tìm kiếm, tủ lạnh nhỏ và loa thông minh, chi phí môi trường thực sự đang tăng lên nhanh chóng. Do đó thay vì tập trung vào một số rủi ro tồn tại trong tương lai, hãy nói về các tác động hữu hình hiện tại và các công cụ chúng ta có thể tạo ra để đo lường và giảm thiểu tác động này.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
Tôi đã giúp tạo ra CodeCarbon, một công cụ chạy song song với mã đào tạo AI ước tính năng lượng nó tiêu thụ và lượng carbon mà nó thải ra. Dùng công cụ này có thể giúp ta đưa ra lựa chọn sáng suốt, như chọn mô hình này thay vì mô hình khác vì nó bền vững hơn hoặc triển khai các mô hình Ai về năng lượng tái tạo, có thể giảm đáng kể lượng khí thải của chúng.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
Nhưng hãy nói về những thứ khác vì có những tác động khác của AI ngoài tính bền vững. Ví dụ, thật khó để các nghệ sĩ và tác giả chứng minh rằng tác phẩm cả đời của họ đã bị dùng cho đào tạo các mô hình AI mà không có sự cho phép. Mà nếu muốn kiện ai đó, bạn sẽ cần bằng chứng phải không? Vì vậy, Spawning.ai, một tổ chức được thành lập bởi các nghệ sĩ, đã tạo ra công cụ vô cùng tuyệt vời có tên “Tôi được đào tạo chưa?” Nó cho phép bạn tìm kiếm các tập dữ liệu khổng lồ để xem chúng có gì về bạn. Tôi thừa nhận là tôi đã tò mò. Tôi đã tìm kiếm LAION-5B, đó là bộ dữ liệu khổng lồ gồm hình ảnh và văn bản, để xem có bất kỳ hình ảnh nào của tôi trong đó không. Hai hình ảnh đầu tiên trong đó là tôi trong các sự kiện tôi đã diễn thuyết. Nhưng còn lại thì không ai trong số đó là tôi. Có lẽ của mấy người phụ nữ tên Sasha khác, những người đã đưa ảnh của họ lên internet. Điều này có thể lý giải vì sao, khi tôi truy vấn một mô hình tạo ảnh để tạo ra một bức ảnh của người phụ nữ tên Sasha, tôi thường nhận được hình của những người mẫu bikini. Đôi khi họ có hai cánh tay, đôi khi lại có ba cánh tay, nhưng họ hiếm khi mặc quần áo. Mặc dù những người như bạn và tôi có thể thấy thú vị khi tìm kiếm những bộ dữ liệu này, đối với các nghệ sĩ như Karla Ortiz, nó cung cấp bằng chứng quan trọng rằng công việc, tác phẩm cả đời của cô ấy bị lấy để đào tạo các mô hình AI mà không có sự đồng ý của cô, cô và hai nghệ sĩ đã sử dụng nó làm chứng cứ để nộp đơn kiện tập thể chống lại các công ty AI vì vi phạm bản quyền. Và gần đây nhất --
(Applause)
(Tiếng vỗ tay)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
Gần đây nhất Spawning.ai đã hợp tác với Hugging Face, công ty tôi làm việc xây dựng cơ chế chọn và loại để tạo các bộ dữ liệu này. Vì tác phẩm nghệ thuật con người tạo ra không nên là một bữa tiệc buffet để đào tạo các mô hình ngôn ngữ AI.
(Applause)
(Tiếng vỗ tay)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
Điều cuối cùng tôi muốn nói đến là sự thiên vị. Bạn có thể nghe về điều này rất nhiều. Nói nghiêm túc, đó là khi các mô hình AI mã hóa các mô hình và niềm tin có thể đại diện cho định kiến, phân biệt chủng tộc hay giới tính. Một trong những anh hùng của tôi, Ts. Joy Buolamwini đã trải qua khi cô nhận ra hệ thống AI thậm chí không nhận dạng khuôn mặt cô trừ khi cô ấy đeo mặt nạ màu trắng. Tìm hiểu sâu hơn, cô nhận thấy rằng các hệ thống nhận diện phụ nữ da màu tệ hơn đàn ông da trắng rất nhiều. Khi những mô hình thiên vị thế này được triển khai trong cơ sở thực thi pháp luật, nó có thể dẫn đến những cáo buộc sai trái, thậm chí là bỏ tù oan, điều mà ta đã chứng kiến nhiều người trải qua trong những tháng gần đây. Ví dụ, Porcha Woodruff bị buộc tội cướp xe khi mang thai tám tháng vì hệ thống AI đã nhận dạng sai cô.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
Đáng buồn, hệ thống này là hộp đen mà ngay cả người tạo ra chúng cũng không thể nói chính xác lý do chúng hoạt động vậy. Mà ví dụ với các hệ thống tạo hình ảnh, nếu chúng được dùng trong các bối cảnh như tạo ra một bản phác thảo pháp y dựa trên mô tả của thủ phạm, chúng sẽ lấy tất cả những thành kiến đó và đưa ra các thuật ngữ như tội phạm nguy hiểm, khủng bố hay thành viên băng đảng, tất nhiên là cực kỳ nguy hiểm khi những công cụ này được triển khai trong xã hội.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
Và để hiểu rõ hơn về các công cụ này, tôi đã tạo ra công cụ có tên là Stable Bias Explorer, cho phép bạn khám phá sự thiên vị của các mô hình tạo hình ảnh qua lăng kính của các ngành nghề. Hãy cố gắng hình dung một nhà khoa học trong đầu bạn. Đừng nhìn tôi. Bạn thấy gì? Rất nhiều thứ giống nhau nhỉ? Đàn ông đeo kính và khoác áo thí nghiệm. Và không ai trong số họ giống tôi. Và vấn đề là ta đã xem xét tất cả các mô hình tạo hình ảnh khác nhau và tìm thấy nhiều điểm chung: minh chứng quan trọng cho da trắng và tính nam trong 150 ngành nghề mà chúng tôi đã xem xét, dù là so sánh với thế giới thực, theo Cục Thống kê Lao động Hoa Kỳ. Những mô hình này cho thấy luật sư nam và CEO là đàn ông, vào hầu hết thời gian, dù chúng ta đều biết không phải tất cả đều da trắng và nam giới.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
Đáng buồn thay, công cụ của tôi vẫn chưa được sử dụng để viết luật. Gần đây tôi đã nói về nó tại một sự kiện của Liên Hợp Quốc về sự thiên vị giới tính như một ví dụ về cách ta có thể tạo ra công cụ từ mọi tầng lớp xã hội, ngay cả những người không biết lập trình, để tương tác và hiểu rõ hơn về Ai vì chúng ta vận dụng chuyên môn, hay bạn có thể sử dụng bất kỳ thuật ngữ nào mà bạn quan tâm.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
Và khi những mô hình này được triển khai, được đan xen vào chính cấu trúc xã hội của chúng ta, điện thoại di động, mạng xã hội của ta, thậm chí cả hệ thống tư pháp và nền kinh tế của chúng ta đều có AI. Và điều thực sự quan trọng là AI luôn có thể truy cập để chúng ta biết cả cách nó hoạt động và khi không hoạt động. Và không có giải pháp duy nhất cho những vấn đề thực sự phức tạp như thiên vị bản quyền hoặc biến đổi khí hậu. Nhưng nhờ vào tạo ra công cụ để đo lường tác động của AI, chúng ta có thể bắt đầu có ý tưởng về mức độ tồi tệ của chúng và bắt đầu giải quyết chúng dần. Bắt đầu tạo lan can để bảo vệ xã hội và hành tinh. Và một khi chúng ta có thông tin này, các công ty có thể sử dụng nó để nói, OK, chúng ta sẽ chọn mô hình này vì nó bền vững hơn, mô hình này vì nó tôn trọng bản quyền. Các nhà lập pháp thực sự cần thông tin để viết luật, có thể sử dụng các công cụ này để phát triển các cơ chế quy định hoặc luật lệ mới cho AI khi nó được triển khai vào xã hội. Người dùng như bạn và tôi có thể dùng thông tin để chọn các mô hình AI mà chúng ta có thể tin tưởng, không làm sai lệch ta hay lạm dụng dữ liệu của ta.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
Tôi đã trả lời email nói rằng công việc của tôi sẽ hủy diệt nhân loại thế nào? Tôi đã nói rằng tập trung vào các rủi ro tồn tại trong tương lai của AI là sự phân tâm khỏi những tác động hiện tại, rất hữu hình của nó và việc chúng ta nên làm ngay bây giờ hoặc thậm chí ngày hôm qua, để giảm những tác động này. Bởi vì AI phát triển nhanh, nhưng nó vẫn chưa hoàn chỉnh. Ta vừa kiến tạo, vừa bước lên phía trước, và ta có thể cùng nhau quyết định hướng chúng ta muốn đi tới.
Thank you.
Cảm ơn mọi người.
(Applause)
(Tiếng vỗ tay)