أصبح من الصعب اكتشاف الحقيقي من المزيف صنع الذكاء الاصطناعي من صنع الانسان. مع الذكاء الاصطناعي التوليدي، إلى جانب التطورات الأخرى في التزييف العميق، لا يستغرق الأمر عدة ثوانٍ من صوتك، والعديد من صور وجهك، لتزييفك، وتستمر الواقعية في الازدياد.
It's getting harder, isn't it, to spot real from fake, AI-generated from human-generated. With generative AI, along with other advances in deep fakery, it doesn't take many seconds of your voice, many images of your face, to fake you, and the realism keeps increasing.
بدأت العمل على التزييف العميق لأول مرة في عام 2017، عندما كان التهديد الذي تتعرض له ثقتنا في المعلومات مبالغًا فيه، وكان الضرر الكبير هو الصور الجنسية المزيفة. الآن تستمر هذه المشكلة في النمو مما يضر بالنساء والفتيات في جميع أنحاء العالم. ولكن أيضًا مع التقدم في الذكاء الاصطناعي التوليدي نقترب الآن أيضًا من عالم يسهل فيه على نطاق واسع صنع واقع مزيف، ولكن أيضًا رفض الواقع باعتباره ربما مزيفًا.
I first started working on deepfakes in 2017, when the threat to our trust in information was overhyped, and the big harm, in reality, was falsified sexual images. Now that problem keeps growing, harming women and girls worldwide. But also, with advances in generative AI, we're now also approaching a world where it's broadly easier to make fake reality, but also to dismiss reality as possibly faked.
أما الآن، فإن الذكاء الاصطناعي السمعي البصري الخادع والخبيث ليس أصل مشاكلنا المجتمعية، ولكن من المرجح أن يساهم فيها. تنتشر النسخ الصوتية في مجموعة من السياقات الانتخابية. «أليس كذلك، أليس كذلك؟» تحجب الادعاءات أدلة حقوق الإنسان من مناطق الحرب، وتستهدف التزييف الجنسي العميق النساء في الأماكن العامة والخاصة، والأفاتار الاصطناعية تنتحل شخصية مذيعي الأخبار.
Now, deceptive and malicious audiovisual AI is not the root of our societal problems, but it's likely to contribute to them. Audio clones are proliferating in a range of electoral contexts. "Is it, isn't it" claims cloud human-rights evidence from war zones, sexual deepfakes target women in public and in private, and synthetic avatars impersonate news anchors.
أنا أقود [شاهد]. نحن مجموعة حقوق الإنسان التي تساعد الناس على استخدام الفيديو والتكنولوجيا لحماية حقوقهم والدفاع عنها. وعلى مدى السنوات الخمس الماضية، قمنا بتنسيق جهد عالمي بعنوان «استعد، لا داعي للذعر»، حول هذه الطرق الجديدة للتلاعب بالواقع وتوليفه، وحول كيفية تقوية حقيقة الصحفيين الناقدين والمدافعين عن حقوق الإنسان.
I lead WITNESS. We're a human-rights group that helps people use video and technology to protect and defend their rights. And for the last five years, we've coordinated a global effort, "Prepare, Don't Panic," around these new ways to manipulate and synthesize reality, and on how to fortify the truth of critical frontline journalists and human-rights defenders.
الآن، أحد العناصر في ذلك هو فريق عمل الاستجابة السريعة لـ (التزييف العميق)، المكون من خبراء الطب الشرعي الإعلامي والشركات الذين يتبرعون بوقتهم ومهاراتهم لفضح التزييف العميق وادعاءات التزييف العميق. وتلقت فرقة العمل مؤخراً ثلاثة مقاطع صوتية من السودان وغرب أفريقيا والهند. كان الناس يدعون أن المقاطع مزيفة وليست حقيقية. في حالة السودان، استخدم الخبراء خوارزمية التعلم الآلي التي تم تدريبها على أكثر من مليون مثال للكلام التركيبي لإثبات، دون أدنى شك تقريبًا، أنها أصلية. في حالة غرب إفريقيا، لم يتمكنوا من التوصل إلى نتيجة نهائية بسبب تحديات تحليل الصوت من تويتر، والضوضاء الخلفية.
Now, one element in that is a deepfakes rapid-response task force, made up of media-forensics experts and companies who donate their time and skills to debunk deepfakes and claims of deepfakes. The task force recently received three audio clips, from Sudan, West Africa and India. People were claiming that the clips were deepfaked, not real. In the Sudan case, experts used a machine-learning algorithm trained on over a million examples of synthetic speech to prove, almost without a shadow of a doubt, that it was authentic. In the West Africa case, they couldn't reach a definitive conclusion because of the challenges of analyzing audio from Twitter, and with background noise.
أما المقطع الثالث فقد تم تسريبه لسياسي من الهند. نيلش كريستوفر من «بقية العالم» رفع القضية إلى فرقة العمل. استخدم الخبراء ما يقرب من ساعة من العينات لتطوير نموذج شخصي لصوت السياسي الأصلي. بالرغم من ادعاءاته العالية والسريعة بأن كل ذلك تم تزويره باستخدام الذكاء الاصطناعي، رجع الخبراء إلى أنه على الأقل كان حقيقيًا جزئيًا، وليس الذكاء الاصطناعي. كما ترون، حتى الخبراء لا يمكنهم فصل الصواب عن الخطأ بسرعة وبشكل قاطع، وتتزايد سهولة تسمية «هذا التزييف العميق» لشيء حقيقي.
The third clip was leaked audio of a politician from India. Nilesh Christopher of “Rest of World” brought the case to the task force. The experts used almost an hour of samples to develop a personalized model of the politician's authentic voice. Despite his loud and fast claims that it was all falsified with AI, experts concluded that it at least was partially real, not AI. As you can see, even experts cannot rapidly and conclusively separate true from false, and the ease of calling "that's deepfaked" on something real is increasing.
المستقبل مليء بالتحديات العميقة، سواء في حماية الواقع أو اكتشاف المزيف. نحن نشهد بالفعل علامات التحذير من هذا التحدي المتمثل في تمييز الحقيقة من الخيال. استهدفت عمليات التزييف الصوتي والمرئي السياسيين والقادة السياسيين الرئيسيين في الاتحاد الأوروبي وتركيا والمكسيك والمرشحين لعمدة الولايات المتحدة. تتضمن الإعلانات السياسية لقطات لأحداث لم تحدث أبدًا، ويشارك الأشخاص الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي من مناطق الأزمات، مدعين أنها حقيقية.
The future is full of profound challenges, both in protecting the real and detecting the fake. We're already seeing the warning signs of this challenge of discerning fact from fiction. Audio and video deepfakes have targeted politicians, major political leaders in the EU, Turkey and Mexico, and US mayoral candidates. Political ads are incorporating footage of events that never happened, and people are sharing AI-generated imagery from crisis zones, claiming it to be real.
الآن، مرة أخرى، هذه المشكلة ليست جديدة كليًا. المدافعون عن حقوق الإنسان والصحفيون الذين أعمل معهم اعتادوا على رفض قصصهم، كما اعتادوا على التزييف الواسع النطاق والمخادع والضحل ومقاطع الفيديو والصور المأخوذة من سياق أو وقت أو مكان ويُزعم أنها في مكان آخر، وتستخدم لمشاركة الارتباك ونشر المعلومات المضللة. وبالطبع، نحن نعيش في عالم مليء بالحزبية والتحيز التأكيدي الوفير.
Now, again, this problem is not entirely new. The human-rights defenders and journalists I work with are used to having their stories dismissed, and they're used to widespread, deceptive, shallow fakes, videos and images taken from one context or time or place and claimed as if they're in another, used to share confusion and spread disinformation. And of course, we live in a world that is full of partisanship and plentiful confirmation bias.
بالنظر إلى كل ذلك، فإن آخر شيء نحتاجه هو خط أساس متناقص للمعلومات المشتركة والجديرة بالثقة التي تزدهر عليها الديمقراطيات، حيث يتم استخدام شبح الذكاء الاصطناعي لتصديق الأشياء التي تريد تصديقها بشكل معقول، وإنكار الأشياء التي تريد تجاهلها بشكل معقول.
Given all that, the last thing we need is a diminishing baseline of the shared, trustworthy information upon which democracies thrive, where the specter of AI is used to plausibly believe things you want to believe, and plausibly deny things you want to ignore.
لكنني أعتقد أن هناك طريقة يمكننا من خلالها منع هذا المستقبل، إذا تصرفنا الآن؛ وهي أننا إذا «استعدنا، لا داعي للذعر» فسنشق طريقنا نوعًا ما عبر هذا بطريقة أو بأخرى. الذعر لن يخدمنا جيدًا. [إنه] يصب في مصلحة الحكومات والشركات التي ستسيء استخدام مخاوفنا، وفي أيدي الأشخاص الذين يريدون ضبابًا من الارتباك وسيستخدمون الذكاء الاصطناعي كذريعة.
But I think there's a way we can prevent that future, if we act now; that if we "Prepare, Don't Panic," we'll kind of make our way through this somehow. Panic won't serve us well. [It] plays into the hands of governments and corporations who will abuse our fears, and into the hands of people who want a fog of confusion and will use AI as an excuse.
كم عدد الأشخاص الذين صدقوا لوهلة صورة البابا في سترته المنتفخة؟ يمكنكم الاعتراف بذلك.
How many people were taken in, just for a minute, by the Pope in his dripped-out puffer jacket? You can admit it.
(ضحك)
(Laughter)
والأخطر من ذلك، كم منكم يعرف شخصًا تعرض للخداع من خلال صوت يبدو مثل طفلهم؟ وبالنسبة لأولئك منكم الذين يفكرون «لم يتم خداعي أعرف كيف أكتشف التزييف العميق»، فإن أي نصيحة تعرفها الآن قد عفا عليها الزمن بالفعل. التذيف العميق لم يغمض عينيه، بل يفعل ذلك الآن. كانت الأيدي ذات الستة أصابع أكثر شيوعًا في الأراضي المزيفة أكثر من الحياة الواقعية - ليس كثيرًا. تمحو التطورات التقنية تلك القرائن المرئية والمسموعة التي نرغب بشدة في التمسك بها كدليل على أننا نستطيع تمييز الحقيقة من التزييف.
More seriously, how many of you know someone who's been scammed by an audio that sounds like their kid? And for those of you who are thinking "I wasn't taken in, I know how to spot a deepfake," any tip you know now is already outdated. Deepfakes didn't blink, they do now. Six-fingered hands were more common in deepfake land than real life -- not so much. Technical advances erase those visible and audible clues that we so desperately want to hang on to as proof we can discern real from fake.
ولكن أيضًا لا ينبغي أن يكون علينا إجراء هذا التخمين دون أي مساعدة. بين التزييف العميق الحقيقي والتزييف العميق المزعوم، نحتاج إلى حلول هيكلية ذات صورة كبيرة. نحن بحاجة إلى أسس قوية تمكننا من التمييز بين الأصالة والمحاكاة، وأدوات لتعزيز مصداقية الأصوات والصور الناقدة، وتقنية اكتشاف قوية لا تثير شكوكًا أكثر مما تصلحه.
But it also really shouldn’t be on us to make that guess without any help. Between real deepfakes and claimed deepfakes, we need big-picture, structural solutions. We need robust foundations that enable us to discern authentic from simulated, tools to fortify the credibility of critical voices and images, and powerful detection technology that doesn't raise more doubts than it fixes.
هناك ثلاث خطوات نحتاج إلى اتخاذها للوصول إلى هذا المستقبل. الخطوة الأولى هي التأكد من أن مهارات وأدوات الكشف في أيدي الأشخاص الذين يحتاجون إليها. لقد تحدثت إلى مئات الصحفيين وقادة المجتمع والمدافعين عن حقوق الإنسان، وهم في نفس الوضع الذي تعيش فيه أنت وأنا ونحن. إنهم يستمعون إلى الصوت، ويحاولون التفكير، «هل يمكنني اكتشاف خلل؟» عند النظر إلى الصورة، أقول : «أوه، هل يبدو ذلك صحيحًا أم لا؟» أو ربما يستخدمون الإنترنت للعثور على كاشف. والكاشف الذي يعثرون عليه، لا يعرفون ما إذا كانوا يحصلون على نتيجة إيجابية كاذبة أو سلبية كاذبة أو نتيجة موثوقة.
There are three steps we need to take to get to that future. Step one is to ensure that the detection skills and tools are in the hands of the people who need them. I've talked to hundreds of journalists, community leaders and human-rights defenders, and they're in the same boat as you and me and us. They're listening to the audio, trying to think, "Can I spot a glitch?" Looking at the image, saying, "Oh, does that look right or not?" Or maybe they're going online to find a detector. And the detector they find, they don't know whether they're getting a false positive, a false negative, or a reliable result.
إليك مثال. استخدمت الكاشف، مما جعل البابا يرتدي السترة المنتفخة بشكل صحيح. ولكن بعد ذلك، عندما وضعت صورة أرنب عيد الفصح التي صنعتها لأطفالي، قالت إنها من صنع الإنسان. هذا بسبب بعض التحديات الكبيرة في اكتشاف التزييف العميق. غالبًا ما تعمل أدوات الكشف بطريقة واحدة فقط لإنشاء التزييف العميق، لذلك تحتاج إلى أدوات متعددة، ولا تعمل بشكل جيد على محتوى الوسائط الاجتماعية منخفض الجودة. درجة الثقة، 0.76-0.87، كيف تعرف ما إذا كان ذلك موثوقًا به، أو إذا كنت لا تعرف ما إذا كانت التكنولوجيا الأساسية موثوقة، أو ما إذا كانت تعمل على التلاعب المستخدم؟ وأدوات اكتشاف التلاعب بالذكاء الاصطناعي لا تكتشف التعديل اليدوي.
Here's an example. I used a detector, which got the Pope in the puffer jacket right. But then, when I put in the Easter bunny image that I made for my kids, it said that it was human-generated. This is because of some big challenges in deepfake detection. Detection tools often only work on one single way to make a deepfake, so you need multiple tools, and they don't work well on low-quality social media content. Confidence score, 0.76-0.87, how do you know whether that's reliable, if you don't know if the underlying technology is reliable, or whether it works on the manipulation that is being used? And tools to spot an AI manipulation don't spot a manual edit.
لن تكون هذه الأدوات أيضًا متاحة للجميع. هناك مفاضلة بين الأمان والوصول، مما يعني أننا إذا قمنا بتوفيرها لأي شخص، فإنها تصبح عديمة الفائدة للجميع، لأن الأشخاص الذين يصممون تقنيات الخداع الجديدة سيختبرونها على أجهزة الكشف المتاحة للجمهور ويتجنبون منها. لكننا بحاجة إلى التأكد من أنها متاحة للصحفيين وقادة المجتمع ومسؤولي الانتخابات، على مستوى العالم، الذين يمثلون خط دفاعنا الأول، معال تفكير مليًا في إمكانية الوصول والاستخدام في العالم الحقيقي. على الرغم من أنه في أفضل الظروف، ستكون أدوات الكشف فعالة بنسبة 85 إلى 95 في المائة، إلا أنها يجب أن تكون في أيدي خط الدفاع الأول، وهي ليست كذلك في الوقت الحالي.
These tools also won't be available to everyone. There's a trade-off between security and access, which means if we make them available to anyone, they become useless to everybody, because the people designing the new deception techniques will test them on the publicly available detectors and evade them. But we do need to make sure these are available to the journalists, the community leaders, the election officials, globally, who are our first line of defense, thought through with attention to real-world accessibility and use. Though at the best circumstances, detection tools will be 85 to 95 percent effective, they have to be in the hands of that first line of defense, and they're not, right now.
لذا بالنسبة للخطوة الأولى، كنت أتحدث عن الاكتشاف بعد الحقيقة. الخطوة الثانية -- سيكون الذكاء الاصطناعي في كل مكان في اتصالاتنا وإبداعنا وتغييره وتحريره. لن يكون الأمر بسيطًا من «نعم، إنه الذكاء الاصطناعي» أو «أوف، إنه ليس كذلك». يعد الذكاء الاصطناعي جزءًا من جميع اتصالاتنا، لذلك نحتاج إلى فهم أفضل لوصفة ما نستهلكه.
So for step one, I've been talking about detection after the fact. Step two -- AI is going to be everywhere in our communication, creating, changing, editing. It's not going to be a simple binary of "yes, it's AI" or "phew, it's not." AI is part of all of our communication, so we need to better understand the recipe of what we're consuming.
يسمي بعض الأشخاص هذا المحتوى بالمصدر والإفصاح. يعمل التقنيون على بناء طرق لإضافة علامات مائية غير مرئية إلى الوسائط التي تم إنشاؤها بواسطة الذكاء الاصطناعي. لقد قاموا أيضًا بتصميم طرق - وكنت جزءًا من هذه الجهود - ضمن معيار يسمى C2PA، لإضافة بيانات وصفية موقعة بشكل مشفرإلى الملفات. وهذا يعني البيانات التي توفر تفاصيل حول المحتوى، ويتم توقيعها بشكل مشفر بطريقة تعزز ثقتنا في تلك المعلومات. إنه سجل محدث لكيفية استخدام الذكاء الاصطناعي لإنشائه أو تحريره، وأين شارك البشر والتقنيات الأخرى، وكيف تم توزيعه. إنها في الأساس وصفة وتعليمات تقديم لمزيج من الذكاء الاصطناعي والبشر في ما تراه وتسمعه. وهو جزء مهم من محو الأمية الإعلامية الجديدة المليئة بالذكاء الاصطناعي.
Some people call this content provenance and disclosure. Technologists have been building ways to add invisible watermarking to AI-generated media. They've also been designing ways -- and I've been part of these efforts -- within a standard called the C2PA, to add cryptographically signed metadata to files. This means data that provides details about the content, cryptographically signed in a way that reinforces our trust in that information. It's an updating record of how AI was used to create or edit it, where humans and other technologies were involved, and how it was distributed. It's basically a recipe and serving instructions for the mix of AI and human that's in what you're seeing and hearing. And it's a critical part of a new AI-infused media literacy.
وهذا في الواقع لا ينبغي أن يبدو بهذا الجنون. اتصالاتنا تتحرك في هذا الاتجاه بالفعل. إذا كنت مثلي - يمكنك الاعتراف بذلك - فأنت تتصفح صفحة "مخصص لك" بتيك توك الخاصة بك، وأنت معتاد على مشاهدة مقاطع الفيديو التي تحتوي على مصدر صوت، وفلتر ذكاء اصطناعي، وشاشة خضراء، وخلفية، وغرزة مع تعديل آخر. هذه، إلى حد ما، هي النسخة ألفا من هذه الشفافية في بعض المنصات الرئيسية التي نستخدمها اليوم. كل ما في الأمر أنه لم ينتقل بعد عبر الإنترنت، إنها ليست موثوقة وقابلة للتحديث وليست آمنة.
And this actually shouldn't sound that crazy. Our communication is moving in this direction already. If you're like me -- you can admit it -- you browse your TikTok “For You” page, and you're used to seeing videos that have an audio source, an AI filter, a green screen, a background, a stitch with another edit. This, in some sense, is the alpha version of this transparency in some of the major platforms we use today. It's just that it does not yet travel across the internet, it’s not reliable, updatable, and it’s not secure.
الآن، هناك أيضًا تحديات كبيرة في هذا النوع من البنية التحتية للأصالة. وبينما نبتكر هذه العلامات الدائمة لكيفية الاختلاط بين الذكاء الاصطناعي والبشر، والتي تمتد عبر مسار كيفية صنع وسائل الإعلام، نحتاج إلى التأكد من أنها لا تعرض الخصوصية للخطر أو تأتي بنتائج عكسية على مستوى العالم. علينا أن نفعل هذا بشكل صحيح.
Now, there are also big challenges in this type of infrastructure for authenticity. As we create these durable signs of how AI and human were mixed, that carry across the trajectory of how media is made, we need to ensure they don't compromise privacy or backfire globally. We have to get this right.
لا يمكننا إلزام صحفي مواطن يصور في سياق قمعي أو صانع ساخر باستخدام أدوات ذكاء اصطناعي مولد الجديدة للسخرية من الأقوياء... يجب عليهم الكشف عن هويتهم أو معلومات التعريف الشخصية من أجل استخدام الكاميرا أو شات جي بي تي. نظرًا لأنه من المهم أن يكونوا قادرين على الاحتفاظ بقدرتهم على إخفاء هويتهم، في نفس الوقت الذي تكون فيه أداة الإنشاء شفافة. يجب أن يكون هذا حول كيفية صنع وسائل الإعلام البشرية بالذكاء الاصطناعي، وليس من.
We can't oblige a citizen journalist filming in a repressive context or a satirical maker using novel gen-AI tools to parody the powerful ... to have to disclose their identity or personally identifiable information in order to use their camera or ChatGPT. Because it's important they be able to retain their ability to have anonymity, at the same time as the tool to create is transparent. This needs to be about the how of AI-human media making, not the who.
هذا يقودني إلى الخطوة الأخيرة. لا شيء من هذا يعمل بدون خط المسؤولية الذي يمتد من النماذج التأسيسية والمشاريع مفتوحة المصدر إلى الطريقة التي يتم نشرها في الأنظمة وواجهات برمجة التطبيقات والتطبيقات، إلى المنصات التي نستهلك فيها الوسائط ونتواصل من خلالها.
This brings me to the final step. None of this works without a pipeline of responsibility that runs from the foundation models and the open-source projects through to the way that is deployed into systems, APIs and apps, to the platforms where we consume media and communicate.
لقد أمضيت معظم السنوات الخمس عشرة الماضية في الكفاح في عمل دفاعي خلفي، مثل العديد من زملائي في عالم حقوق الإنسان ضد إخفاقات وسائل التواصل الاجتماعي. لا يمكننا ارتكاب هذه الأخطاء مرة أخرى في هذا الجيل القادم من التكنولوجيا. ما يعنيه هذا هو أن الحكومات بحاجة إلى التأكد من أنه ضمن خط المسؤولية هذا عن الذكاء الاصطناعي يوجد الشفافية والمساءلة والمسؤولية.
I've spent much of the last 15 years fighting, essentially, a rearguard action, like so many of my colleagues in the human rights world, against the failures of social media. We can't make those mistakes again in this next generation of technology. What this means is that governments need to ensure that within this pipeline of responsibility for AI, there is transparency, accountability and liability.
بدون هذه الخطوات الثلاث - الكشف عن الأشخاص الذين هم في أمس الحاجة إليها، والمصدر الذي يحترم الحقوق وخط المسؤولية هذا، سنتعثر في البحث عبثًا عن اليد ذات الستة أصابع، أو العيون التي لا ترمش. نحن بحاجة إلى اتخاذ هذه الخطوات. وإلا فإننا نخاطر بعالم يصبح فيه من الأسهل والأسهل تزييف الواقع ورفض الواقع باعتباره مزيفًا محتملًا.
Without these three steps -- detection for the people who need it most, provenance that is rights-respecting and that pipeline of responsibility, we're going to get stuck looking in vain for the six-fingered hand, or the eyes that don't blink. We need to take these steps. Otherwise, we risk a world where it gets easier and easier to both fake reality and dismiss reality as potentially faked.
وهذا هو العالم الذي قامت الفيلسوفة السياسية هانا أرندت بوصفه بهذه المصطلحات: «الشعب الذي لم يعد بإمكانه تصديق أي شيء لا يمكنه أن يتخذ قراره بنفسه. فهو محروم ليس فقط من قدرته على العمل ولكن أيضا من قدرته على التفكير والحكم. ومع مثل هؤلاء الأشخاص، يمكنك بعد ذلك أن تفعل ما يحلو لك». هذا عالم أعرف أن لا أحد منا يريده، وأعتقد أنه يمكننا منعه.
And that is a world that the political philosopher Hannah Arendt described in these terms: "A people that no longer can believe anything cannot make up its own mind. It is deprived not only of its capacity to act but also of its capacity to think and to judge. And with such a people you can then do what you please." That's a world I know none of us want, that I think we can prevent.
شكرًا لكم.
Thanks.
(هتافات وتصفيق)
(Cheers and applause)