So I've been an AI researcher for over a decade. And a couple of months ago, I got the weirdest email of my career. A random stranger wrote to me saying that my work in AI is going to end humanity. Now I get it, AI, it's so hot right now.
אני חוקרת של בינה מלאכותית (ב“מ) כבר למעלה מעשור. ולפני כמה חודשים, קיבלתי את הדוא"ל המוזר ביותר בקריירה שלי. אדם זר כתב לי, ואמר שעבודתי בב"מ תשים קץ לאנושות. אני מבינה מזה שהב"מ היא כזה להיט עכשיו.
(Laughter)
(צחוק)
It's in the headlines pretty much every day, sometimes because of really cool things like discovering new molecules for medicine or that dope Pope in the white puffer coat. But other times the headlines have been really dark, like that chatbot telling that guy that he should divorce his wife or that AI meal planner app proposing a crowd pleasing recipe featuring chlorine gas. And in the background, we've heard a lot of talk about doomsday scenarios, existential risk and the singularity, with letters being written and events being organized to make sure that doesn't happen.
היא מופיעה בכותרות כמעט כל יום, לפעמים בגלל דברים ממש מגניבים, כמו גילוי מולקולות חדשות ברפואה, או האפיפיור המטופש הזה במעיל הדובון הלבן. אבל בפעמים אחרות הכותרות היו ממש אפלות, כמו הצ’אטבוט שאמר לבחור ההוא שהוא צריך להתגרש מאשתו, או יישומון ב“מ לתכנון ארוחות שמציע מתכון שישמח את כולם, ושכולל גז כלור. וברקע שמענו הרבה דיבורים על תרחישי יום הדין, על סיכונים קיומיים ועל הסינגולריות, ונשלחים מכתבים ומתארגנים אירועים כדי לוודא שזה לא יקרה.
Now I'm a researcher who studies AI's impacts on society, and I don't know what's going to happen in 10 or 20 years, and nobody really does. But what I do know is that there's some pretty nasty things going on right now, because AI doesn't exist in a vacuum. It is part of society, and it has impacts on people and the planet.
אני חוקרת את ההשפעות של הב"מ על החברה, ואני לא יודעת מה יקרה בעוד 10 או 20 שנה, ואף אחד לא באמת יודע. אבל אני כן יודעת שקורים עכשיו כמה דברים די מגעילים, כי הב“מ לא קיימת בחלל ריק. היא חלק מהחברה, ויש לה השפעות על אנשים ועל כדור הארץ.
AI models can contribute to climate change. Their training data uses art and books created by artists and authors without their consent. And its deployment can discriminate against entire communities. But we need to start tracking its impacts. We need to start being transparent and disclosing them and creating tools so that people understand AI better, so that hopefully future generations of AI models are going to be more trustworthy, sustainable, maybe less likely to kill us, if that's what you're into.
מודלים של ב"מ עלולים להחריף את שינויי האקלים. לצורך האימון שלה משתמשים באמנות ובספרים שנוצרו על ידי אמנים וסופרים ללא הסכמתם. והפעלת הב“מ עלולה לעורר אפליה נגד קהילות שלמות. עלינו להתחיל לעקוב אחר השפעותיה. עלינו להתחיל להיות שקופים, לחשוף אותן וליצור כלים כדי שאנשים יבינו טוב יותר את הב"מ, בתקווה שהדורות הבאים של מודלים של ב"מ יהיו יותר אמינים וברי-קיימא, ואולי גם פחות צפויים להרוג אותנו, אם זה מה שמעניין אתכם.
But let's start with sustainability, because that cloud that AI models live on is actually made out of metal, plastic, and powered by vast amounts of energy. And each time you query an AI model, it comes with a cost to the planet. Last year, I was part of the BigScience initiative, which brought together a thousand researchers from all over the world to create Bloom, the first open large language model, like ChatGPT, but with an emphasis on ethics, transparency and consent. And the study I led that looked at Bloom's environmental impacts found that just training it used as much energy as 30 homes in a whole year and emitted 25 tons of carbon dioxide, which is like driving your car five times around the planet just so somebody can use this model to tell a knock-knock joke. And this might not seem like a lot, but other similar large language models, like GPT-3, emit 20 times more carbon. But the thing is, tech companies aren't measuring this stuff. They're not disclosing it. And so this is probably only the tip of the iceberg, even if it is a melting one.
אבל בואו נתחיל עם קיימות, כי הענן שעליו חיים המודלים של הב"מ עשוי ממתכת ופלסטיק, והוא מופעל בכמויות אדירות של אנרגיה. ותמיד כשאתם מפנים שאילתה למודל ב“מ, כדור הארץ משלם. בשנה שעברה הייתי חלק מיוזמת "ביג סאיינס", שהפגישה אלף חוקרים מכל רחבי העולם ליצירת “בלום“, מודל השפה הגדול הפתוח הראשון, כמו צ‘אט ג’י-פי-טי, בדגש על אתיקה, שקיפות והסכמה. והמחקר שהובלתי, שבדק את ההשפעות הסביבתיות של “בלום“, מצא שרק האימון שלו ניצל אנרגיה כמו של 30 בתים בשנה שלמה, ופלט 25 טונות של פחמן דו-חמצני, שזה כמו להסיע מכונית חמש פעמים סביב כדור הארץ רק כדי שמישהו יוכל להשתמש במודל הזה בשביל בדיחת קרש וזה אולי לא נראה הרבה, אבל מודלים גדולים דומים אחרים של שפה, כמו ג'י-פי-טי 3, פולטים פי 20 יותר פחמן. העניין הוא שחברות טכנולוגיה לא מודדות את הדברים האלה. הן לא חושפות את זה. וזה כנראה רק קצה הקרחון, גם אם הוא נמס.
And in recent years we've seen AI models balloon in size because the current trend in AI is "bigger is better." But please don't get me started on why that's the case. In any case, we've seen large language models in particular grow 2,000 times in size over the last five years. And of course, their environmental costs are rising as well. The most recent work I led, found that switching out a smaller, more efficient model for a larger language model emits 14 times more carbon for the same task. Like telling that knock-knock joke. And as we're putting in these models into cell phones and search engines and smart fridges and speakers, the environmental costs are really piling up quickly. So instead of focusing on some future existential risks, let's talk about current tangible impacts and tools we can create to measure and mitigate these impacts.
ובשנים האחרונות ראינו מודלים של ב“מ שמתנפחים בגודלם כי המגמה הנוכחית בב“מ היא “גדול יותר הוא יותר טוב“. אבל אני לא רוצה להתחיל להסביר למה זה ככה. בכל מקרה, ראינו שמודלי שפה גדולים, במיוחד, גדלו פי 2,000 בחמש השנים האחרונות. וכמובן, גם העלויות הסביבתיות שלהם עולות. העבודה האחרונה שהובלתי, מצאה כי המעבר ממודל קטן ויעיל יותר למודל שפה גדול יותר, פולטת פי 14 יותר פחמן באותה המטלה. כמו לספר את בדיחת הקרש הזאת. וכשאנחנו מכניסים את הדגמים האלה לטלפונים סלולריים, למנועי חיפוש ולמקררים ולרמקולים חכמים, העלויות הסביבתיות מצטברות ממש במהירות. אז במקום להתמקד בכמה סיכונים קיומיים עתידיים, בואו נדבר על ההשפעות הממשיות הנוכחיות ועל הכלים שנוכל ליצור כדי למדוד ולהקטין את ההשפעות הללו.
I helped create CodeCarbon, a tool that runs in parallel to AI training code that estimates the amount of energy it consumes and the amount of carbon it emits. And using a tool like this can help us make informed choices, like choosing one model over the other because it's more sustainable, or deploying AI models on renewable energy, which can drastically reduce their emissions.
עזרתי ליצור את “קוד קרבון“, כלי שפועל במקביל לקוד אימון ב“מ, ושמעריך את כמות האנרגיה שהוא צורך ואת כמות הפחמן שהוא פולט. ושימוש בכלי כזה יכול לעזור לנו לעשות בחירות מושכלות, כמו לבחור דגם אחד במקום אחר כי הוא יותר בר-קיימא, או הפעלת דגמי ב“מ בעזרת אנרגיה מתחדשת, שיכולה להפחית באופן דרסטי את הפליטות שלהם.
But let's talk about other things because there's other impacts of AI apart from sustainability. For example, it's been really hard for artists and authors to prove that their life's work has been used for training AI models without their consent. And if you want to sue someone, you tend to need proof, right? So Spawning.ai, an organization that was founded by artists, created this really cool tool called “Have I Been Trained?” And it lets you search these massive data sets to see what they have on you. Now, I admit it, I was curious. I searched LAION-5B, which is this huge data set of images and text, to see if any images of me were in there. Now those two first images, that's me from events I've spoken at. But the rest of the images, none of those are me. They're probably of other women named Sasha who put photographs of themselves up on the internet. And this can probably explain why, when I query an image generation model to generate a photograph of a woman named Sasha, more often than not I get images of bikini models. Sometimes they have two arms, sometimes they have three arms, but they rarely have any clothes on. And while it can be interesting for people like you and me to search these data sets, for artists like Karla Ortiz, this provides crucial evidence that her life's work, her artwork, was used for training AI models without her consent, and she and two artists used this as evidence to file a class action lawsuit against AI companies for copyright infringement. And most recently --
אבל בואו נדבר על דברים אחרים כי יש לב“מ השפעות נוספות מלבד קיימות. לדוגמה, לאמנים ולסופרים היה ממש קשה להוכיח שעבודת חייהם שימשה לאימון מודלים של ב“מ ללא הסכמתם. וכשרוצים לתבוע מישהו, דרושה הוכחה, נכון? אז “ספונינג אי-איי“, ארגון שהוקם על ידי אמנים, יצר את הכלי המגניב הזה שנקרא “האם אומנתי?” שמאפשר לכם לחפש במערכי הנתונים המסיביים האלה כדי לראות מה הם יודעים עליכם. אני מודה שהייתי סקרנית. חיפשתי ב“לאיון 5-בי“, שהוא מערך הנתונים העצום של תמונות וטקסט, כדי לראות אם יש בו תמונות שלי. בשתי התמונות הראשונות האלה, אני מצולמת באירועים שבהם הרציתי. אבל בשאר התמונות - זו לא אני. אלה כנראה נשים אחרות בשם סשה שהעלו תמונות שלהן באינטרנט. וזה כנראה יכול להסביר מדוע, כשאני מבקשת ממודל ליצירת תמונות ליצור תצלום של אישה בשם סשה, אני מקבלת בדרך-כלל תמונות של דוגמניות ביקיני. לפעמים יש להן שתי זרועות, לפעמים יש להן שלוש זרועות, אבל לעתים רחוקות יש להן בכלל בגדים. ולמרות שאנשים כמוכם וכמוני עשויים למצוא עניין בחיפוש במערכי הנתונים האלה, הרי שלאמנים כמו קרלה אורטיז, זה מספק ראיות מכריעות לכך שעבודת חייה, יצירות האמנות שלה, שימשו לאימון מודלים של ב“מ ללא הסכמתה, והיא ועוד שני אמנים השתמשו בזה כראיה בתביעה ייצוגית נגד חברות ב“מ בגין הפרת זכויות יוצרים. וממש לאחרונה --
(Applause)
(מחיאות כפיים)
And most recently Spawning.ai partnered up with Hugging Face, the company where I work at, to create opt-in and opt-out mechanisms for creating these data sets. Because artwork created by humans shouldn’t be an all-you-can-eat buffet for training AI language models.
ולאחרונה “ספונינג אי-איי” שיתפה פעולה עם “הגינג פייס“, החברה שבה אני עובדת כדי ליצור מנגנוני בחירה והימנעות ביצירת מערכי נתונים אלה. כי יצירות אמנות שנוצרו ע“י בני אדם לא צריכות להיות מזנון חופשי לאימון מודלים של שפות ב"מ.
(Applause)
(מחיאות כפיים)
The very last thing I want to talk about is bias. You probably hear about this a lot. Formally speaking, it's when AI models encode patterns and beliefs that can represent stereotypes or racism and sexism. One of my heroes, Dr. Joy Buolamwini, experienced this firsthand when she realized that AI systems wouldn't even detect her face unless she was wearing a white-colored mask. Digging deeper, she found that common facial recognition systems were vastly worse for women of color compared to white men. And when biased models like this are deployed in law enforcement settings, this can result in false accusations, even wrongful imprisonment, which we've seen happen to multiple people in recent months. For example, Porcha Woodruff was wrongfully accused of carjacking at eight months pregnant because an AI system wrongfully identified her.
ולבסוף אני רוצה לדבר על הטיה. אתם בטח שומעים על זה הרבה. רשמית, זה כאשר מודלים של ב“מ מקודדים דפוסים ואמונות שיכולים לייצג סטריאוטיפים או גזענות וסקסיזם. אחת הגיבורות שלי, ד“ר ג’וי בולמוויני, חוותה זאת בעצמה כשהבינה שמערכות ב“מ אפילו לא מזהות את פניה אלא אם היא עוטה מסכה בצבע לבן. כשהיא המשיכה לבדוק, היא גילתה שמערכות זיהוי פנים נפוצות היו גרועות בהרבה כשמדובר בנשים צבעוניות בהשוואה לגברים לבנים. וכאשר מודלים מוטים כאלה מופעלים במסגרות אכיפת החוק, זה יכול לגרום לאישומי שווא ואפילו למאסר לא-צודק, מה שראינו שקרה לכמה אנשים בחודשים האחרונים. לדוגמה, פורשה וודרוף הואשמה שלא בצדק בגניבת רכב בהיותה בחודש השמיני להריונה, כשמערכת ב“מ זיהתה אותה בשוגג.
But sadly, these systems are black boxes, and even their creators can't say exactly why they work the way they do. And for example, for image generation systems, if they're used in contexts like generating a forensic sketch based on a description of a perpetrator, they take all those biases and they spit them back out for terms like dangerous criminal, terrorists or gang member, which of course is super dangerous when these tools are deployed in society.
אך למרבה הצער, המערכות האלה הן קופסאות שחורות, ואפילו יוצריהן לא יכולים לומר בדיוק מדוע הן פועלות כפי שהן פועלות. לדוגמה, במערכות יצירת תמונות, אם משתמשים בהן בהקשרים כמו יצירת קלסתרון על סמך תיאור של העבריין, הן לוקחות את כל ההטיות האלה ופולטות אותן בחזרה מול מונחים כמו “פושע מסוכן“, “טרוריסטים” או “חבר כנופיה,” שזה כמובן מסוכן במיוחד כשהכלים האלה מופעלים בחברה.
And so in order to understand these tools better, I created this tool called the Stable Bias Explorer, which lets you explore the bias of image generation models through the lens of professions. So try to picture a scientist in your mind. Don't look at me. What do you see? A lot of the same thing, right? Men in glasses and lab coats. And none of them look like me. And the thing is, is that we looked at all these different image generation models and found a lot of the same thing: significant representation of whiteness and masculinity across all 150 professions that we looked at, even if compared to the real world, the US Labor Bureau of Statistics. These models show lawyers as men, and CEOs as men, almost 100 percent of the time, even though we all know not all of them are white and male.
אז כדי להבין טוב יותר את הכלים האלה, יצרתי את הכלי הזה שנקרא Stable Bias Explorer (סייר הטיות), שמאפשר לכם לבדוק הטיות של מודלים ליצירת תמונות דרך עדשת המקצוע. נסו לדמיין מדען. אל תסתכלו עלי. מה אתם רואים? כולם אותו הדבר, נכון? גברים במשקפיים וחלוקי מעבדה. ואף אחד מהם לא נראה כמוני. והעניין הוא, שבדקנו את כל המודלים השונים של יצירת תמונות ומצאנו הרבה מאותו הדבר: ייצוג משמעותי של לובן וגבריות בכל 150 המקצועות שבדקנו, גם בהשוואה לעולם האמיתי, הסטטיסטיקה של לשכת התעסוקה האמריקנית. מודלים אלה מציגים עורכי דין כגברים, ומנכ“לים כגברים, כמעט 100% מהזמן, למרות שכולנו יודעים שלא כולם לבנים וגברים.
And sadly, my tool hasn't been used to write legislation yet. But I recently presented it at a UN event about gender bias as an example of how we can make tools for people from all walks of life, even those who don't know how to code, to engage with and better understand AI because we use professions, but you can use any terms that are of interest to you.
ולמרבה הצער, הכלי שלי טרם שימש לחקיקה. אבל לאחרונה הצגתי אותו באירוע של האו“ם בנושא הטיה מגדרית כדוגמה לכך שאנו יכולים ליצור כלים לאנשים מכל תחומי החיים, אפילו אלה שלא יודעים לתכנת, להתמודד עם הב“מ ולהבינה טוב יותר כי אנחנו משתמשים במקצועות, אבל אפשר להשתמש בכל מונח שמעניין אתכם.
And as these models are being deployed, are being woven into the very fabric of our societies, our cell phones, our social media feeds, even our justice systems and our economies have AI in them. And it's really important that AI stays accessible so that we know both how it works and when it doesn't work. And there's no single solution for really complex things like bias or copyright or climate change. But by creating tools to measure AI's impact, we can start getting an idea of how bad they are and start addressing them as we go. Start creating guardrails to protect society and the planet. And once we have this information, companies can use it in order to say, OK, we're going to choose this model because it's more sustainable, this model because it respects copyright. Legislators who really need information to write laws, can use these tools to develop new regulation mechanisms or governance for AI as it gets deployed into society. And users like you and me can use this information to choose AI models that we can trust, not to misrepresent us and not to misuse our data.
וככל שהמודלים האלה מופעלים, נארגים לתוך עצם המרקם של החברות שלנו, בטלפונים הסלולריים ובעדכוני המדיה החברתית שלנו, אפילו בתוך מערכות המשפט והכלכלות שלנו יש ב“מ. וחשוב מאוד שהב“מ תישאר נגישה כדי שנדע גם איך זה עובד וגם מתי זה לא עובד. ואין פתרון יחיד לדברים מורכבים באמת כמו הטיה או זכויות יוצרים או שינויי אקלים. אבל בעזרת יצירת כלים למדידת השפעותיה של הב“מ, נוכל להתחיל לקבל מושג עד כמה הן חמורות ולהתחיל לטפל בהן במקביל לשימוש בה, להתחיל ליצור גדרות בטיחות להגנת החברה וכדור הארץ. ומיד כשיהיה לנו המידע הזה, ארגונים יוכלו להשתמש בו כדי לומר, בסדר, נבחר במודל הזה כי הוא בר-קיימא יותר, ובמודל הזה כי הוא מכבד זכויות יוצרים. מחוקקים שבאמת זקוקים למידע כדי לכתוב חוקים, יכולים להשתמש בכלים אלה כדי לפתח מנגנוני רגולציה חדשים או לפקח על הב“מ כאשר היא מופעלת בחברה. ומשתמשים כמוכם וכמוני יכולים להשתמש במידע הזה כדי לבחור מודלים של ב“מ שאפשר לסמוך עליהם, שלא ייצגו אותנו במסולף ולא יעשו שימוש לרעה בנתונים שלנו.
But what did I reply to that email that said that my work is going to destroy humanity? I said that focusing on AI's future existential risks is a distraction from its current, very tangible impacts and the work we should be doing right now, or even yesterday, for reducing these impacts. Because yes, AI is moving quickly, but it's not a done deal. We're building the road as we walk it, and we can collectively decide what direction we want to go in together.
אבל מה עניתי לאותו דוא“ל שאמר שעבודתי עתידה להרוס את האנושות? אמרתי שהתמקדות בסיכונים הקיומיים העתידיים של הב“מ היא הסחת דעת מההשפעות הנוכחיות והמוחשיות שלה ומהעבודה שאנחנו צריכים לעשות כרגע, או אפילו אתמול, להפחתת ההשפעות הללו. כי כן, הב“מ מתקדמת במהירות, אבל זו לא עניין סגור. אנחנו סוללים את הדרך תוך כדי כך שאנו הולכים בה, ואנחנו יכולים להחליט באופן קולקטיבי לאיזה כיוון ברצוננו ללכת יחד.
Thank you.
תודה לכם.
(Applause)
(מחיאות כפיים)