Sam Gregory: When AI can fake reality, who can you trust?

It's getting harder, isn't it, to spot real from fake, AI-generated from human-generated. With generative AI, along with other advances in deep fakery, it doesn't take many seconds of your voice, many images of your face, to fake you, and the realism keeps increasing.

Semakin sulit, bukan, untuk membedakan yang asli dari yang palsu, produk dari AI yang dirancang oleh manusia. Dengan AI generatif, bersama dengan inovasi lainnya dalam teknik deep fakery hanya perlu beberapa detik suara Anda, sejumlah foto wajah Anda, untuk memalsukan Anda, dan tingkat realisme terus meningkat.

I first started working on deepfakes in 2017, when the threat to our trust in information was overhyped, and the big harm, in reality, was falsified sexual images. Now that problem keeps growing, harming women and girls worldwide. But also, with advances in generative AI, we're now also approaching a world where it's broadly easier to make fake reality, but also to dismiss reality as possibly faked.

Saya pertama kali mulai mengerjakan deepfake pada tahun 2017, ketika kekhawatiran kita soal manipulasi informasi dianggap terlalu berlebihan, dan bahaya besarnya, pada kenyataannya, adalah gambar seksual yang dipalsukan. Sekarang masalah itu terus berkembang, merugikan para perempuan di seluruh dunia. Apalagi, dengan kemajuan AI generatif, kini kita memasuki dunia yang secara keseluruhan lebih mudah untuk membuat realitas palsu, dan juga meragukan realitas itu sendiri kerena dianggap telah dipalsukan

Now, deceptive and malicious audiovisual AI is not the root of our societal problems, but it's likely to contribute to them. Audio clones are proliferating in a range of electoral contexts. "Is it, isn't it" claims cloud human-rights evidence from war zones, sexual deepfakes target women in public and in private, and synthetic avatars impersonate news anchors.

Sekarang, AI audiovisual yang menyesatkan dan berbahaya bukanlah akar dari masalah sosial kita, tetapi kemungkinan berkontribusi pada hal itu. Duplikasi audio sedang marak dalam berbagai konteks pemilu. Klaim “Benar, Salah” mengaburkan bukti hak asasi manusia dalam situasi perang, deepfake seksual menargetkan wanita di depan umum dan secara pribadi, dan avatar sintetis menyamar sebagai pembawa berita.

I lead WITNESS. We're a human-rights group that helps people use video and technology to protect and defend their rights. And for the last five years, we've coordinated a global effort, "Prepare, Don't Panic," around these new ways to manipulate and synthesize reality, and on how to fortify the truth of critical frontline journalists and human-rights defenders.

Saya memimpin WITNESS. sebuah grup hak asasi manusia membantu orang memakai video dan teknologi untuk melindungi & membela haknya. Selama 5 tahun terakhir, kami melakukan upaya global, “Bersiap, Jangan Panik,” seputar cara baru untuk memanipulasi dan menggabungkan realitas dan bagaimana memperkuat kebenaran pada jurnalis garis depan yang kritis dan pembela hak asasi manusia.

Now, one element in that is a deepfakes rapid-response task force, made up of media-forensics experts and companies who donate their time and skills to debunk deepfakes and claims of deepfakes. The task force recently received three audio clips, from Sudan, West Africa and India. People were claiming that the clips were deepfaked, not real. In the Sudan case, experts used a machine-learning algorithm trained on over a million examples of synthetic speech to prove, almost without a shadow of a doubt, that it was authentic. In the West Africa case, they couldn't reach a definitive conclusion because of the challenges of analyzing audio from Twitter, and with background noise.

Sekarang, salah satu elemen di dalamnya adalah gugus tugas reaksi cepat deepfakes, yang terdiri dari pakar media-forensik dan perusahaan yang menyumbang waktu dan keterampilannya untuk mengungkapkan kebohongan deepfake dan klaim deepfake. Belakangan ini, gugus tugas ini menerima tiga klip audio, dari Sudan, Afrika Barat, dan India. Orang-orang mengklaim bahwa klip itu dipalsukan, tidak nyata. Dalam kasus Sudan, para ahli pakai algoritma pembelajaran mesin yang dilatih dengan satu juta contoh ucapan sintetis untuk membuktikan, hampir tanpa secuil keraguan, bahwa itu asli. Dalam kasus Afrika Barat, mereka tidak dapat mencapai kesimpulan karena tantangan menganalisis audio dari Twitter dengan latar belakang kebisingan.

The third clip was leaked audio of a politician from India. Nilesh Christopher of “Rest of World” brought the case to the task force. The experts used almost an hour of samples to develop a personalized model of the politician's authentic voice. Despite his loud and fast claims that it was all falsified with AI, experts concluded that it at least was partially real, not AI. As you can see, even experts cannot rapidly and conclusively separate true from false, and the ease of calling "that's deepfaked" on something real is increasing.

Klip ketiga adalah bocoran audio seorang politisi dari India. Nilesh Christopher dari “Rest of World” membawa kasus ini ke gugus tugas. Para pakar menggunakan sampel hampir satu jam untuk mengembangkan model suara otentik politisi yang dipersonalisasi. Terlepas dari klaimnya yang keras bahwa itu semua dipalsukan dengan AI, para ahli menyimpulkan bahwa itu setidaknya sebagian nyata, bukan AI. Seperti yang Anda lihat, bahkan para pakar tidak bisa dengan cepat dan yakin memisahkan benar dari yang salah dan mudahnya menyebut, “Itu deepfake,” pada sesuatu yang nyata semakin meningkat.

The future is full of profound challenges, both in protecting the real and detecting the fake. We're already seeing the warning signs of this challenge of discerning fact from fiction. Audio and video deepfakes have targeted politicians, major political leaders in the EU, Turkey and Mexico, and US mayoral candidates. Political ads are incorporating footage of events that never happened, and people are sharing AI-generated imagery from crisis zones, claiming it to be real.

Masa depan penuh dengan tantangan besar, baik untuk melindungi yang nyata maupun untuk mendeteksi yang palsu. Kita sudah melihat tanda peringatan dari tantangan untuk membedakan fakta dari fiksi ini. Deepfake audio dan video telah menargetkan politisi, pemimpin politik utama di Uni Eropa, Turki dan Meksiko, dan kandidat walikota AS. Iklan politik menggabungkan rekaman peristiwa yang tak pernah terjadi dan orang-orang berbagi citra buatan AI dari zona krisis, mengklaim itu sebagai hal nyata.

Now, again, this problem is not entirely new. The human-rights defenders and journalists I work with are used to having their stories dismissed, and they're used to widespread, deceptive, shallow fakes, videos and images taken from one context or time or place and claimed as if they're in another, used to share confusion and spread disinformation. And of course, we live in a world that is full of partisanship and plentiful confirmation bias.

Sekarang, sekali lagi, masalah ini tidak sepenuhnya baru. Kolega saya, para pembela hak asasi manusia dan jurnalis sudah terbiasa dengan cerita mereka yang diabaikan dan mereka terbiasa dengan pemalsuan masif yang menyesatkan dan dangkal, video dan gambar yang diambil dari satu konteks atau waktu atau tempat dan diklaim seolah-olah berada di tempat lain, digunakan untuk menebar kebingungan dan menyebarkan disinformasi. Dan tentu saja, kita hidup di dunia yang penuh dengan keberpihakan dan banyaknya konfirmasi yang bias.

Given all that, the last thing we need is a diminishing baseline of the shared, trustworthy information upon which democracies thrive, where the specter of AI is used to plausibly believe things you want to believe, and plausibly deny things you want to ignore.

Mengingat semua itu, hal terakhir yang kita butuhkan adalah pudarnya batasan terkait informasi bersama yang dapat dipercaya tempat berkembangnya demokrasi, di mana momok AI digunakan untuk mempercayai hal yang ingin Anda percayai secara masuk akal dan menyangkal hal yang ingin Anda abaikan secara masuk akal.

But I think there's a way we can prevent that future, if we act now; that if we "Prepare, Don't Panic," we'll kind of make our way through this somehow. Panic won't serve us well. [It] plays into the hands of governments and corporations who will abuse our fears, and into the hands of people who want a fog of confusion and will use AI as an excuse.

Namun, menurut saya ada cara mencegah masa depan itu, jika kita bertindak sekarang; bahwa jika kita “Bersiap, Jangan Panik,” kita akan melewati krisis ini entah bagaimana. Panik tidak akan membantu kita. Malah akan masuk perangkap pemerintah dan perusahaan yang menyalahgunakan ketakutan kita, dan orang-orang yang menginginkan kebingungan dan akan mengkambinghitamkan AI.

How many people were taken in, just for a minute, by the Pope in his dripped-out puffer jacket? You can admit it.

Berapa banyak orang yang percaya, walau sebentar, oleh Paus mengenakan jaket gembung yang menetes? Anda bisa mengakuinya.

(Laughter)

(Tawa)

More seriously, how many of you know someone who's been scammed by an audio that sounds like their kid? And for those of you who are thinking "I wasn't taken in, I know how to spot a deepfake," any tip you know now is already outdated. Deepfakes didn't blink, they do now. Six-fingered hands were more common in deepfake land than real life -- not so much. Technical advances erase those visible and audible clues that we so desperately want to hang on to as proof we can discern real from fake.

Lebih serius lagi, berapa banyak orang yang Anda kenal telah ditipu oleh audio yang mirip seperti anak mereka? Dan bagi Anda yang berpikir, “Saya tidak percaya, saya tahu itu deepfake,” saran apa pun yang Anda ketahui sekarang sudah ketinggalan zaman. Deepfakes sebelumnya tidak berkedip, kini berkedip. Hal yang tidak lazim lebih umum terjadi pada deepfake daripada di kehidupan nyata tidak begitu juga. Kemajuan teknis menghapus petunjuk yang terlihat dan terdengar yang sangat ingin kita pertahankan sebagai bukti untuk dapat membedakan hal yang nyata atau palsu.

But it also really shouldn’t be on us to make that guess without any help. Between real deepfakes and claimed deepfakes, we need big-picture, structural solutions. We need robust foundations that enable us to discern authentic from simulated, tools to fortify the credibility of critical voices and images, and powerful detection technology that doesn't raise more doubts than it fixes.

Tapi seharusnya bukan tanggung jawab kita untuk menentukannya tanpa bantuan apa pun. Antara deepfake yang nyata dan yang diklaim, kita membutuhkan solusi struktural dengan gambaran besar. Kita membutuhkan fondasi kuat yang memungkinkan kita untuk membedakan keaslian dari simulasi, alat untuk memperkuat kredibilitas suara kritis dan gambar yang penting, dan teknologi deteksi yang kuat yang tidak menimbulkan lebih banyak keraguan daripada sebelumnya.

There are three steps we need to take to get to that future. Step one is to ensure that the detection skills and tools are in the hands of the people who need them. I've talked to hundreds of journalists, community leaders and human-rights defenders, and they're in the same boat as you and me and us. They're listening to the audio, trying to think, "Can I spot a glitch?" Looking at the image, saying, "Oh, does that look right or not?" Or maybe they're going online to find a detector. And the detector they find, they don't know whether they're getting a false positive, a false negative, or a reliable result.

Ada tiga langkah yang perlu diambil untuk mencapainya. Langkah pertama adalah memastikan bahwa keterampilan dan alat deteksi dimiliki oleh orang-orang yang membutuhkannya. Saya berbicara dengan ratusan jurnalis, pemimpin komunitas dan pembela hak asasi manusia, dan mereka dalam posisi yang sama dengan Anda, saya dan kita. Mereka dengar audionya, berpikir, “Bisakah saya menemukan kesalahan?” Melihat gambar itu, berkata, “Oh, apakah itu tampak benar atau tidak?” Atau mungkin mereka online untuk menemukan detektor. dan detektor yang mereka temukan, mereka tidak tahu apakah mendapatkan positif palsu, negatif palsu, atau hasil yang dapat diandalkan.

Here's an example. I used a detector, which got the Pope in the puffer jacket right. But then, when I put in the Easter bunny image that I made for my kids, it said that it was human-generated. This is because of some big challenges in deepfake detection. Detection tools often only work on one single way to make a deepfake, so you need multiple tools, and they don't work well on low-quality social media content. Confidence score, 0.76-0.87, how do you know whether that's reliable, if you don't know if the underlying technology is reliable, or whether it works on the manipulation that is being used? And tools to spot an AI manipulation don't spot a manual edit.

Berikut ini contohnya. Saya memakai detektor, yang membuat Paus mengenakan jaket gembung dengan benar. Namun, ketika saya pakai gambar kelinci Paskah yang saya buat untuk anak saya, dikatakan bahwa itu buatan manusia. Ini karena beberapa masalah besar dalam deteksi deepfake. Alat deteksi seringkali hanya memiliki satu cara untuk membuat deepfake, jadi Anda perlu beberapa alat dan mereka tidak bekerja dengan baik pada konten media sosial berkualitas rendah. Skor kepercayaan, 0,76-0,87, bagaimana Anda tahu bahwa itu kredibel, jika tidak tahu teknologi yang mendasarinya kredibel atau berfungsi pada teknik manipulasi yang sedang digunakan? Dan alat untuk menemukan manipulasi AI tidak mengenali pengeditan manual.

These tools also won't be available to everyone. There's a trade-off between security and access, which means if we make them available to anyone, they become useless to everybody, because the people designing the new deception techniques will test them on the publicly available detectors and evade them. But we do need to make sure these are available to the journalists, the community leaders, the election officials, globally, who are our first line of defense, thought through with attention to real-world accessibility and use. Though at the best circumstances, detection tools will be 85 to 95 percent effective, they have to be in the hands of that first line of defense, and they're not, right now.

Alat-alat ini juga tidak akan tersedia untuk semua orang. Ada pertukaran antara keamanan dan akses, yang berarti jika ini tersedia untuk semua orang, akan menjadi tidak berguna bagi siapa pun karena orang-orang yang merancang teknik penipuan baru akan mengujinya pada detektor yang tersedia untuk umum untuk menghindarinya. Namun, kita perlu memastikan alat ini tersedia untuk wartawan, pemimpin masyarakat, pejabat pemilu, secara global, yang merupakan garis pertahanan pertama kita, dengan pertimbangan matang pada aksesibilitas dan penggunaan dunia nyata. Meskipun pada keadaan terbaik, alat deteksi akan bekerja efektif 85 hingga 95 persen, alat ini harus dimiliki oleh garis pertahanan pertama itu, dan tidak pada saat ini.

So for step one, I've been talking about detection after the fact. Step two -- AI is going to be everywhere in our communication, creating, changing, editing. It's not going to be a simple binary of "yes, it's AI" or "phew, it's not." AI is part of all of our communication, so we need to better understand the recipe of what we're consuming.

Untuk langkah pertama, saya telah berbicara tentang fakta deteksi. Langkah kedua, AI akan ada di mana-mana dalam komunikasi kita, menciptakan, mengubah, mengedit. Ini tidak akan menjadi biner sederhana, “Ya, ini AI,” atau, “Oh, itu bukan.” AI adalah bagian dari semua komunikasi kita, jadi kita perlu lebih memahami resep dari apa yang kita konsumsi.

Some people call this content provenance and disclosure. Technologists have been building ways to add invisible watermarking to AI-generated media. They've also been designing ways -- and I've been part of these efforts -- within a standard called the C2PA, to add cryptographically signed metadata to files. This means data that provides details about the content, cryptographically signed in a way that reinforces our trust in that information. It's an updating record of how AI was used to create or edit it, where humans and other technologies were involved, and how it was distributed. It's basically a recipe and serving instructions for the mix of AI and human that's in what you're seeing and hearing. And it's a critical part of a new AI-infused media literacy.

Beberapa orang menyebut ini bukti dan pengungkapan konten. Para pakar teknologi membangun cara untuk menambahkan cap air yang tak tampak ke media yang dihasilkan AI. Mereka telah merancang cara -- dan saya bagian dari upaya ini -- dalam standar yang disebut C2PA, untuk menambahkan metadata yang ditandatangani secara kriptografis ke file. Ini berarti data yang memberikan rincian tentang konten, ditandatangani secara kriptografis dengan cara yang memperkuat kepercayaan kita pada informasi itu. Ini adalah catatan pembaruan tentang bagaimana AI digunakan untuk membuat atau mengeditnya, di mana manusia dan teknologi lain terlibat, dan bagaimana itu didistribusikan. Ini pada dasarnya adalah resep dan instruksi penyajian untuk gabungan AI dan manusia dalam konteks yang Anda lihat dan dengar. Dan ini adalah bagian penting dari literasi media baru yang dipadukan AI.

And this actually shouldn't sound that crazy. Our communication is moving in this direction already. If you're like me -- you can admit it -- you browse your TikTok “For You” page, and you're used to seeing videos that have an audio source, an AI filter, a green screen, a background, a stitch with another edit. This, in some sense, is the alpha version of this transparency in some of the major platforms we use today. It's just that it does not yet travel across the internet, it’s not reliable, updatable, and it’s not secure.

Dan ini seharusnya tidak terdengar terlalu gila. Komunikasi kita sudah bergerak ke arah ini. Jika Anda seperti saya, akui saja, Anda menelusuri halaman “Untuk Anda” TikTok Anda, dan Anda biasa melihat video yang memiliki sumber audio, filter AI, layar hijau, latar belakang, dengan paduan suntingan lain. Dalam beberapa hal, ini adalah versi alfa dari transparansi ini di beberapa platform utama saat ini. Hanya saja, ini belum tersebar di internet, tidak dapat diandalkan, dapat diperbarui, dan tidak aman.

Now, there are also big challenges in this type of infrastructure for authenticity. As we create these durable signs of how AI and human were mixed, that carry across the trajectory of how media is made, we need to ensure they don't compromise privacy or backfire globally. We have to get this right.

Sekarang, ada juga tantangan besar dalam jenis infrastruktur ini untuk aspek keaslian. Saat tercipta tanda-tanda yang kuat tentang bagaimana AI dan manusia bergabung, sepanjang aliran tentang bagaimana media dibuat, kita harus pastikan mereka tidak membahayakan privasi atau menjadi bumerang secara global. Kita harus melakukannya dengan benar.

We can't oblige a citizen journalist filming in a repressive context or a satirical maker using novel gen-AI tools to parody the powerful ... to have to disclose their identity or personally identifiable information in order to use their camera or ChatGPT. Because it's important they be able to retain their ability to have anonymity, at the same time as the tool to create is transparent. This needs to be about the how of AI-human media making, not the who.

Kita tidak bisa membenarkan jurnalis warga yang membuat film dengan konteks represif atau pembuat satir menggunakan alat Gen-AI baru untuk memparodikan para penguasa... keharusan untuk mengungkapkan identitas atau informasi pribadi untuk menggunakan kamera atau ChatGPT mereka. Karena penting bagi mereka untuk mempertahankan kemampuan memiliki anonimitas, sekaligus sebagai alat untuk membuatnya transparan. Ini harus tentang bagaimana hubungan AI dan manusia dalam pembuatan media, bukan siapa pelakunya.

This brings me to the final step. None of this works without a pipeline of responsibility that runs from the foundation models and the open-source projects through to the way that is deployed into systems, APIs and apps, to the platforms where we consume media and communicate.

Ini membawa saya ke langkah terakhir. Semua ini tidak berfungsi tanpa jalur tanggung jawab yang berjalan dari model dasar dan proyek-proyek sumber terbuka sampai cara penerapannya ke dalam sistem, API, dan aplikasi, hingga ke platform tempat kita mengkonsumsi media dan berkomunikasi.

I've spent much of the last 15 years fighting, essentially, a rearguard action, like so many of my colleagues in the human rights world, against the failures of social media. We can't make those mistakes again in this next generation of technology. What this means is that governments need to ensure that within this pipeline of responsibility for AI, there is transparency, accountability and liability.

Saya menghabiskan kebanyakan 15 tahun terakhir berjuang, melakukan aksi di barisan belakang, seperti banyak rekan saya di dunia hak asasi manusia, melawan kegagalan media sosial. Kita tidak bisa membuat kesalahan itu lagi dalam teknologi generasi berikutnya ini. Artinya pemerintah perlu memastikan bahwa dalam jalur tanggung jawab untuk AI ini, ada transparansi, akuntabilitas, dan tanggung jawab.

Without these three steps -- detection for the people who need it most, provenance that is rights-respecting and that pipeline of responsibility, we're going to get stuck looking in vain for the six-fingered hand, or the eyes that don't blink. We need to take these steps. Otherwise, we risk a world where it gets easier and easier to both fake reality and dismiss reality as potentially faked.

Tanpa tiga langkah ini -- deteksi untuk orang-orang yang paling membutuhkannya, pembuktian yang menghormati hak asasi manusia, dan jalur tanggung jawab itu, kita akan terjebak dengan sia-sia mencari hal-hal yang tidak lazim atau mata yang tidak berkedip. Kita perlu mengambil langkah-langkah ini. Jika tidak, kita mempertaruhkan dunia di mana semakin mudah untuk memalsukan realitas dan mengabaikan realitas yang di anggap berpotensi palsu.

And that is a world that the political philosopher Hannah Arendt described in these terms: "A people that no longer can believe anything cannot make up its own mind. It is deprived not only of its capacity to act but also of its capacity to think and to judge. And with such a people you can then do what you please." That's a world I know none of us want, that I think we can prevent.

Itu adalah dunia yang digambarkan oleh filsuf politik Hannah Arendt dalam istilah ini: “Seseorang yang tidak lagi dapat mempercayai apa pun tidak dapat mengambil keputusan sendiri. Ia tidak hanya kehilangan kapasitasnya untuk bertindak, tetapi juga kapasitasnya untuk berpikir dan menilai. Dengan orang seperti itu, Anda dapat melakukan apa yang Anda mau.” Saya tahu kita tidak menginginkan dunia seperti itu, tetapi saya pikir kita bisa mencegahnya.

Thanks.

Terima kasih.

(Cheers and applause)

(Sorak-sorai dan tepuk tangan)

How many people were taken in, just for a minute, by the Pope in his dripped-out puffer jacket? You can admit it.

Berapa banyak orang yang percaya, walau sebentar, oleh Paus mengenakan jaket gembung yang menetes? Anda bisa mengakuinya.

(Laughter)

(Tawa)

Thanks.

Terima kasih.

(Cheers and applause)

(Sorak-sorai dan tepuk tangan)

Sam Gregory: When AI can fake reality, who can you trust?

Sam Gregory: When AI can fake reality, who can you trust?

Related talks

Danielle Citron: How deepfakes undermine truth and threaten democracy

Tom Graham: The incredible creativity of deepfakes — and the worrying future of AI

Gary Marcus: The urgent risks of runaway AI — and what to do about them

Ivan Krastev: Can democracy exist without trust?

George Papandreou: Imagine a European democracy without borders

Rory Stewart: Why democracy matters

Related talks

Danielle Citron: How deepfakes undermine truth and threaten democracy

Tom Graham: The incredible creativity of deepfakes — and the worrying future of AI

Gary Marcus: The urgent risks of runaway AI — and what to do about them

Ivan Krastev: Can democracy exist without trust?

George Papandreou: Imagine a European democracy without borders

Rory Stewart: Why democracy matters