Since 2001, I have been working on what we would now call the problem of aligning artificial general intelligence: how to shape the preferences and behavior of a powerful artificial mind such that it does not kill everyone.
از سال ۲۰۰۱، من بر روی چیزی کار میکنم که اکنون به آن میگوییم مشکل تنظیم هوش عمومی مصنوعی: چگونه ترجیحات و رفتار یک هوش مصنوعی قدرتمند را به گونهای شکل دهیم تا همه را نکشد.
I more or less founded the field two decades ago, when nobody else considered it rewarding enough to work on. I tried to get this very important project started early so we'd be in less of a drastic rush later. I consider myself to have failed.
من کموبیش این رشته را دو دهه قبل پایهگذاری کردم، زمانی که هیچ کس دیگری آن را به اندازهای کافی رضایتبخش نمییافت که روی آن کار کند. من تلاش کردم که این پروژه بسیار مهم را زود آغاز کنم تا بعدها ما در شتابزدگی شدیدی نباشیم. من باور دارم که شکست خوردهام.
(Laughter)
(خنده)
Nobody understands how modern AI systems do what they do. They are giant, inscrutable matrices of floating point numbers that we nudge in the direction of better performance until they inexplicably start working. At some point, the companies rushing headlong to scale AI will cough out something that's smarter than humanity. Nobody knows how to calculate when that will happen. My wild guess is that it will happen after zero to two more breakthroughs the size of transformers.
هیچکس درک نمیکند که سیستمهای هوش مصنوعی نوین چگونه کارشان را انجام میدهند. آنها ماتریکسهایی عظیم و غیرقابلدرک از اعداد ممیز شناور هستند که ما آنها را به سمت عملکرد بهتر هل میدهیم تا زمانی که به طور غیرقابل توضیحی شروع به کار کردن کنند. زمانی، شرکتهایی که سراسیمه در توسعه هوش مصنوعی شتاب میکنند، چیزی را تولید خواهند کرد که از انسان هوشمندتر خواهد بود. هیچکس نمیداند چگونه زمان وقوع این اتفاق را محاسبه کند. حدس چشمبسته من این است که این اتفاق بعد از صفر تا دو پیشرفت مهم به بزرگی ترنسفورمرها رخ خواهد داد.
What happens if we build something smarter than us that we understand that poorly? Some people find it obvious that building something smarter than us that we don't understand might go badly. Others come in with a very wide range of hopeful thoughts about how it might possibly go well.
چه اتفاقی میافتد اگر ما چیزی باهوشتر از خودمان بسازیم که نتوانیم آن را به خوبی درک کنیم؟ برخی افراد اینکه ساخت چیزی باهوشتر از خودمان که آن را درک نکنیم، ممکن است تبعات بدی داشته باشد را بدیهی میدانند. بقیه، با طیف وسیعی از افکار امیدوارانه، درباره اینکه چطور این قضیه ممکن است نتیجه مثبتی داشته باشد، وارد بحث میشوند.
Even if I had 20 minutes for this talk and months to prepare it, I would not be able to refute all the ways people find to imagine that things might go well. But I will say that there is no standard scientific consensus for how things will go well. There is no hope that has been widely persuasive and stood up to skeptical examination. There is nothing resembling a real engineering plan for us surviving that I could critique. This is not a good place in which to find ourselves.
حتی اگر ۲۰ دقیقه برای اجرای این سخنرانی و ماهها برای آمادهسازی آن وقت داشتم، نمیتوانستم همه راههایی که مردم برای تصور اینکه اوضاع ممکن است خوب پیش برود، پیدا میکنند را رد کنم. اما من میگویم که هیچ وفاق علمی متعارفی برای اینکه چطور اوضاع خوب پیش خواهد رفت، وجود ندارد. هیچ امیدی که به طور وسیعی همگان را متقاعد کند و در آزمایش شکاکانه موثق باقی بماند، وجود ندارد. هیچ چیزی به مانند یک نقشه مهندسی واقعی برای بقای ما وجود ندارد که من بتوانم آن را نقد کنم. این وضعیت خوبی نیست که خودمان را در آن بیابیم.
If I had more time, I'd try to tell you about the predictable reasons why the current paradigm will not work to build a superintelligence that likes you or is friends with you, or that just follows orders. Why, if you press "thumbs up" when humans think that things went right or "thumbs down" when another AI system thinks that they went wrong, you do not get a mind that wants nice things in a way that generalizes well outside the training distribution to where the AI is smarter than the trainers. You can search for "Yudkowsky list of lethalities" for more.
اگر زمان بیشتری داشتم، سعی میکردم که به شما درمورد دلیلهای قابلپیشبینی بگویم که چرا این پارادایم فعلی برای ساخت یک موجود فوقهوشمند که دوستتان دارد یا با شما دوست است یا فقط دستورات را دنبال میکند، کار نخواهد کرد. در مورد اینکه، اگر دکمه «موافقم» را زمانی که انسانها فکر میکنند اوضاع به خوبی پیش رفته یا دکمه «مخالفم» را زمانی که یک سیستم هوش مصنوعی دیگر فکر میکند که اینطور نیست، بزنید، شما ذهنی بدست نمیآورید که چیزهای خوب را به گونهای کلی بخواهد که در خارج دادههای آموزشیاش هم صدق کند تا جایی که آن سیستم هوش مصنوعی از آموزش دهندگانش باهوشتر باشد. برای اطلاعات بیشتر، میتوانید عبارت «فهرست موارد مرگبار یودکووسکی» را سرچ کنید.
(Laughter)
(خنده)
But to worry, you do not need to believe me about exact predictions of exact disasters. You just need to expect that things are not going to work great on the first really serious, really critical try because an AI system smart enough to be truly dangerous was meaningfully different from AI systems stupider than that. My prediction is that this ends up with us facing down something smarter than us that does not want what we want, that does not want anything we recognize as valuable or meaningful.
اما برای اینکه نگران شوید، نیازی نیست که حرفم را درباره پیشبینیهای دقیق فاجعههای خاص باور کنید. فقط کافی است که انتظار داشته باشید که اوضاع قرار نیست در اولین تلاش جدی و مهم (برای حل موضوع)، خوب پیش برود چون یک سیستم هوش مصنوعی که درحدی باهوش باشد که واقعاً خطرناک باشد، به طرز معناداری با سیستمهای هوش مصنوعی کمهوشتر از آن متفاوت است. پیشبینی من این است که این موضوع، به این منجر میشود که با چیزی باهوشتر از خودمان مواجه شویم که چیزی که ما میخواهیم را نمیخواهد، و هرچیزی که ما به عنوان ارزشمند یا معنادار میشناسیم را نمیخواهد.
I cannot predict exactly how a conflict between humanity and a smarter AI would go
من نمیتوانم دقیقاً پیشبینی کنم که
for the same reason I can't predict exactly how you would lose a chess game to one of the current top AI chess programs, let's say Stockfish. If I could predict exactly where Stockfish could move, I could play chess that well myself. I can't predict exactly how you'll lose to Stockfish, but I can predict who wins the game. I do not expect something actually smart to attack us with marching robot armies with glowing red eyes where there could be a fun movie about us fighting them. I expect an actually smarter and uncaring entity will figure out strategies and technologies that can kill us quickly and reliably and then kill us.
یک درگیری بین بشر و یک هوش مصنوعی باهوشتر چگونه پیش خواهد رفت به همان دلیلی که نمیتوانم دقیقاً پیشبینی کنم که چگونه شما میتوانید یک بازی شطرنج با یکی از برترین برنامههای شطرنج هوش مصنوعی، مثل استاکفیش را ببازید. اگر میتوانستم دقیقاً پیشبینی کنم که استاکفیش کجا مهرهاش را حرکت میدهد، خودم میتوانستم به همان خوبی شطرنج بازی کنم. من نمیتوانم پیشبینی کنم که دقیقاً چگونه شکست خواهید خورد، اما میتوانم پیشبینی کنم که چه کسی بازی را میبَرد. من انتظار چیزی هوشمند که با ارتشی از رباتهای رژهرونده با چشمهای درخشان قرمز به ما حمله کند که بتوان از جنگ ما با آنها فیلمی مفرح ساخت، ندارم. من انتظار یک موجود هوشمندتر و بیرحمتر را دارم که استراتژیها و تکنولوژیهایی را پیدا خواهد کرد که میتوانند ما را سریعاً و مطمئناً بکشند و بعد ما را خواهد کشت.
I am not saying that the problem of aligning superintelligence is unsolvable in principle. I expect we could figure it out with unlimited time and unlimited retries, which the usual process of science assumes that we have. The problem here is the part where we don't get to say, “Ha ha, whoops, that sure didn’t work. That clever idea that used to work on earlier systems sure broke down when the AI got smarter, smarter than us.” We do not get to learn from our mistakes and try again because everyone is already dead.
من نمیگویم که مشکل تنظیم موجود فوقهوشمند اصولاً غیرقابل حل است. من انتظار دارم که اگر ما وقت بینهایت و امکان تلاش مجدد بینهایت داشتیم، که فرآیند معمول علم فرض میکند داریم، میتوانستیم آن را حل کنیم. مشکل آنجاست که در این قضیه ما فرصت نخواهیم داشت که بگوییم: “هاها، آخ، راه حلمان کار نکرد.” این ایده هوشمندانه که قبلاً روی سیستمهای قبلی کار میکرد، قطعاً از زمانی که هوش مصنوعیْ باهوشتر، باهوشتر از ما شد، از کار افتاد. ما فرصت نخواهیم داشت که از اشتباهاتمان درس بگیریم و مجدداً تلاش کنیم، چون آن موقع دیگر همه مردهاند.
It is a large ask to get an unprecedented scientific and engineering challenge correct on the first critical try. Humanity is not approaching this issue with remotely the level of seriousness that would be required. Some of the people leading these efforts have spent the last decade not denying that creating a superintelligence might kill everyone, but joking about it.
این درخواست بزرگی است که یک چالش علمی و مهندسی بیسابقه را در اولین تلاش جدی، به درستی حل کنیم. بشر هرگز با میزان جدیتی که مورد نیاز است، در حال رو به رو شدن با این مشکل نیست. برخی از مردمی که این تلاشها را رهبری میکنند، دهه گذشته را نه با انکار اینکه ساخت یک موجود فوقهوشمند ممکن است همه را بکشد، بلکه با شوخیکردن درمورد آن سپری کردهاند.
We are very far behind. This is not a gap we can overcome in six months, given a six-month moratorium. If we actually try to do this in real life, we are all going to die.
ما خیلی عقب هستیم. این فاصلهای نیست که ما بتوانیم در ۶ ماه آن را از بین ببریم، با استمهال و توقف فعالیت ۶ ماهه. اگر ما در واقع تلاش کنیم که این کار را در واقعیت انجام دهیم، همه ما قرار است بمیریم.
People say to me at this point, what's your ask? I do not have any realistic plan, which is why I spent the last two decades trying and failing to end up anywhere but here. My best bad take is that we need an international coalition banning large AI training runs, including extreme and extraordinary measures to have that ban be actually and universally effective, like tracking all GPU sales, monitoring all the data centers, being willing to risk a shooting conflict between nations in order to destroy an unmonitored data center in a non-signatory country.
در این نقطه مردم از من میپرسند، درخواست تو چیست؟ من هیچ نقشه واقعبینانهای ندارم، که به همین دلیل دو دهه گذشته را با تلاش و شکست خوردن برای اینکه به هرجایی برسیم جز اینجا، گذراندهام. بهترین نظر بدی که میتوانم بدهم، این است که ما به یک ائتلاف بینالمللی نیاز داریم که تلاشهای بزرگ آموزش هوش مصنوعی را تحریم کند، اقدامات شدید و غیرعادیای انجام دهد برای اینکه این تحریم به طور واقعی و همگانی مؤثر باشد، مانند ردیابی تمام خرید و فروشهای کارت گرافیک، نظارت کردن بر همه دیتاسنترها، مایل بودن به درگیری مسلحانه بین ملتها برای از بین بردن یک دیتاسنتر نظارتنشده در کشوری که توافقنامه را امضا نکرده است.
I say this, not expecting that to actually happen. I say this expecting that we all just die. But it is not my place to just decide on my own that humanity will choose to die, to the point of not bothering to warn anyone. I have heard that people outside the tech industry are getting this point faster than people inside it. Maybe humanity wakes up one morning and decides to live.
من این را میگویم، در حالی که انتظار ندارم در واقعیت اتفاق بیفتد. من این را میگویم، در حالی که انتظار دارم که همه ما میمیریم. اما این جایگاه من نیست که خودم به تنهایی و بدون هشدار به کسی، تصمیم بگیرم که بشر انتخاب میکند که بمیرد. من شنیدهام که افراد خارج صنعت تکنولوژی، این نکته را سریعتر از افراد داخل این صنعت متوجه میشوند. شاید بشر روزی بیدار شود و تصمیم بگیرد که زنده بماند.
Thank you for coming to my brief TED talk.
متشکرم که به سخنرانی TED مختصر من آمدید.
(Laughter)
(خنده)
(Applause and cheers)
(تشویق)
Chris Anderson: So, Eliezer, thank you for coming and giving that. It seems like what you're raising the alarm about is that like, for this to happen, for an AI to basically destroy humanity, it has to break out, escape controls of the internet and, you know, start commanding actual real-world resources. You say you can't predict how that will happen, but just paint one or two possibilities.
کریس اندرسون: خب، الیزر، سپاسگزارم که آمدی و سخنرانی کردی. به نظر میآید که چیزی که داری درموردش هشدار میدهی این است که، برای اینکه یک هوش مصنوعی اساساً بشریت را نابود کند، باید فرار کند، از نظارت اینترنت خارج شود و شروع به فرمان دادن به منابع دنیای واقعی بکند. میگویی که نمیتوانی پیشبینی کنی چگونه اتفاق خواهد افتاد، اما حداقل یک یا دو احتمال را توضیح بده.
Eliezer Yudkowsky: OK, so why is this hard? First, because you can't predict exactly where a smarter chess program will move. Maybe even more importantly than that, imagine sending the design for an air conditioner back to the 11th century. Even if they -- if it’s enough detail for them to build it, they will be surprised when cold air comes out because the air conditioner will use the temperature-pressure relation and they don't know about that law of nature. So if you want me to sketch what a superintelligence might do, I can go deeper and deeper into places where we think there are predictable technological advancements that we haven't figured out yet. And as I go deeper, it will get harder and harder to follow.
الیزر یودکووسکی: باشه، حالا چرا این سخت است؟ اول، به خاطر اینکه تو نمیتوانی حرکت بعدی یک برنامه شطرنج باهوشتر را دقیقاً پیشبینی کنی. و شاید حتی مهمتر از آن، تصور کن که نقشه طراحی یک تهویهکننده هوا را به قرن یازدهم بفرستی. حتی اگر جزئیات کافی برای آنها داشته باشد تا آن را بسازند، وقتی که هوای سرد از آن بیرون میآید، آنها شگفتزده خواهند شد؛ چون تهویهکننده هوا از ارتباط دما-فشار استفاده خواهد کرد و آنها هنوز درمورد آن قانون طبیعت چیزی نمیدانند. پس اگر میخواهی به طور خلاصه بگویم که یک موجود فوقهوشمند ممکن است چه کار کند، میتوانم هرچه عمیقتر موقعیتهایی را شرح دهم که ما فکر میکنیم پیشرفتهای تکنولوژیِ قابلپیشبینی وجود دارند که ما هنوز آنها را کشف نکردهایم. و هرچه عمیقتر توضیح بدهم، توجه کردن و درک آن سختتر و سختتر میشود.
It could be super persuasive. That's relatively easy to understand. We do not understand exactly how the brain works, so it's a great place to exploit laws of nature that we do not know about. Rules of the environment, invent new technologies beyond that. Can you build a synthetic virus that gives humans a cold and then a bit of neurological change and they're easier to persuade? Can you build your own synthetic biology, synthetic cyborgs? Can you blow straight past that to covalently bonded equivalents of biology, where instead of proteins that fold up and are held together by static cling, you've got things that go down much sharper potential energy gradients and are bonded together? People have done advanced design work about this sort of thing for artificial red blood cells that could hold 100 times as much oxygen if they were using tiny sapphire vessels to store the oxygen. There's lots and lots of room above biology, but it gets harder and harder to understand.
این هوشمصنوعی میتواند به شدت ترغیبکننده باشد؛ که درک آن نسبتاً آسان است. ما دقیقاً نمیدانیم که مغز چگونه کار میکند، و این راه مناسبی برای سوء استفاده هوش مصنوعی از قوانینی از طبیعت و محیط که درموردشان چیزی نمیدانیم است. و میتواند تکنولوژیهایی فراتر از آن را اختراع کند. شما میتوانید یک ویروس سنتزشده تولید کنید که باعث سرماخوردگی انسانها میشود و بعد مقداری تغییرات عصبی در مغزشان میدهد که آنها راحتتر متقاعد شوند؟ میتوانید زیستشناسی ساختگی خودتان و رباتهای ساختگی خودتان را بسازید؟ آیا میتوانید از این هم فراتر بروید و معادلهایی از زیستشناسی اما با پیوندهای کووالانسی خلق کنید که به جای اینکه پروتئینهایی باشند که تا خورده و توسط پیوند ساکن به هم وصلاند، چیزهایی داشته باشید که با شیبهای بسیار تندتری به سمت انرژی پتانسیلهای پایینتر میروند و با هم پیوند برقرار کردهاند؟ بعضیها طراحیهای پیشرفتهای برای این موارد انجام دادهاند مثل گلبولهای قرمز مصنوعی که میتوانند ۱۰۰ برابر اکسیژن بیشتری نگه دارند، اگر از حاملهای بسیار کوچک یاقوتی برای ذخیره اکسیژن استفاده بکنند. فضای بسیار بزرگی فراتر از زیستشناسی وجود دارد اما درکش سختتر و سختتر میشود.
CA: So what I hear you saying is that these terrifying possibilities there but your real guess is that AIs will work out something more devious than that. Is that really a likely pathway in your mind?
ک.ا: پس چیزی که میگویی این است که این احتمالات وحشتناک وجود دارند اما حدس واقعیات این است که هوش مصنوعیها چیزی حیلهگرانهتر از آن پیدا میکنند. آیا این یک مسیر محتمل در ذهنت است؟
EY: Which part? That they're smarter than I am? Absolutely.
ا.ی: کدام قسمت؟ این که آنها از من باهوشترند؟ قطعاً!
CA: Not that they're smarter, but why would they want to go in that direction? Like, AIs don't have our feelings of sort of envy and jealousy and anger and so forth. So why might they go in that direction?
ک.ا: نه اینکه باهوشترند، اما چرا باید بخواهند که به آن سمت بروند؟ چون، هوش مصنوعیها احساسات ما مثل حسادت و خشم و... را ندارند. پس چرا باید به آن سمت بروند؟ ا.ی: چون این به طور یکدست توسط تقریباً هرچیز عجیب و غیرقابل درکی
EY: Because it's convergently implied by almost any of the strange, inscrutable things that they might end up wanting as a result of gradient descent on these "thumbs up" and "thumbs down" things internally. If all you want is to make tiny little molecular squiggles or that's like, one component of what you want, but it's a component that never saturates, you just want more and more of it, the same way that we would want more and more galaxies filled with life and people living happily ever after. Anything that just keeps going, you just want to use more and more material for that, that could kill everyone on Earth as a side effect. It could kill us because it doesn't want us making other superintelligences to compete with it. It could kill us because it's using up all the chemical energy on earth and we contain some chemical potential energy.
که آنها ممکن است ذاتاً بر اثر گرادیان کاهشی در این «موافقم» و «مخالفم»، در نهایت بخواهند، مشهود است. اگر تمام چیزی که میخواهید این است که اشکال ریز مولکولی درست کنید یا حداقل این یک جزء از چیزی است که میخواهید، اما جزئی است که هرگز اشباع نمیشود، و شما مقدار بیشتر و بیشتری از آن را میخواهید، همانطور که ما میخواهیم کهکشانهای بیشتر و بیشتری را با حیات پر کنیم و مردم پس از آن تا ابد به خوبی و خوشی زندگی کنند. هرچیزی که هی ادامه پیدا کند، شما مواد خام بیشتر و بیشتری برای آن میخواهید، که اثر جانبی آن میتواند این باشد که همه افراد کره زمین را بکشد. هوش مصنوعی شاید ما را بکشد چون نمیخواهد که ما موجودات فوقهوشمند دیگری بسازیم که با آن رقابت کند. شاید ما را بکشد چون دارد همه انرژی شیمیاییِ روی کره زمین را تمام میکند و ما دارای مقداری انرژی پتانسیل شیمیایی هستیم.
CA: So some people in the AI world worry that your views are strong enough and they would say extreme enough that you're willing to advocate extreme responses to it. And therefore, they worry that you could be, you know, in one sense, a very destructive figure. Do you draw the line yourself in terms of the measures that we should take to stop this happening? Or is actually anything justifiable to stop the scenarios you're talking about happening?
ک.ا: پس برخی افراد که در حوزه هوش مصنوعی فعالیت میکنند، نگرانند که دیدگاههای تو به اندازهای قدرتمند و افراطی هستند که تو حاضری از پاسخهای افراطی به آن دفاع کنی. و از این رو، نگرانند که تو بتوانی، از یک نظر، شخص به شدت مخربی باشی. آیا خودت حدودش را تعیین میکنی که ما باید چه اقداماتی را انجام بدهیم تا جلوی این واقعه را بگیریم؟ یا آیا درواقع هر کاری قابل توجیه است تا جلوی این موقعیتها که داری در مورد وقوعشان صحبت میکنی گرفته شود؟
EY: I don't think that "anything" works. I think that this takes state actors and international agreements and all international agreements by their nature, tend to ultimately be backed by force on the signatory countries and on the non-signatory countries, which is a more extreme measure. I have not proposed that individuals run out and use violence, and I think that the killer argument for that is that it would not work.
ا.ی: من فکر نمیکنم که «هر چیزی» موفقیتآمیز باشد. من فکر میکنم که این وضعیت نیاز به کنشگران دولتی و قراردادهای بینالمللی باشد، و همه قراردادهای بینالمللی طبعاً و معمولاً در نهایت توسط زور در کشورهای امضاکننده و غیرامضاکننده حمایت میشوند، که یک اقدام شدیدتری است. من پیشنهاد نکردهام که افراد بیرون بروند و از خشونت استفاده کنند، و فکر میکنم که استدلال نهایی برای آن این است که موفقیتآمیز نیست.
CA: Well, you are definitely not the only person to propose that what we need is some kind of international reckoning here on how to manage this going forward.
ک.ا: خب، تو قطعاً تنها شخصی نیستی که پیشنهاد میکنی که چیزی که ما به آن نیاز داریم یک برآورد بینالمللی درمورد اینکه چطور پیشرفت این را مدیریت کنیم، است.
Thank you so much for coming here to TED, Eliezer.
خیلی متشکرم که به تد آمدی، الیزر.
(Applause)
(تشویق)