It's getting harder, isn't it, to spot real from fake, AI-generated from human-generated. With generative AI, along with other advances in deep fakery, it doesn't take many seconds of your voice, many images of your face, to fake you, and the realism keeps increasing.
진짜와 가짜, AI가 만든 것과 사람이 만든 것을 구별하기가 점점 더 어려워지고 있지 않나요? 생성형 AI와 다른 딥페이크 기술이 발달함에 따라, 여러분의 복제품을 만드는데 필요한 여러분의 음성과 사진은 더 적게 필요하게 되고 현실감은 더욱 증가하고 있습니다.
I first started working on deepfakes in 2017, when the threat to our trust in information was overhyped, and the big harm, in reality, was falsified sexual images. Now that problem keeps growing, harming women and girls worldwide. But also, with advances in generative AI, we're now also approaching a world where it's broadly easier to make fake reality, but also to dismiss reality as possibly faked.
제가 딥페이크 연구를 처음 시작한 때는 2017년도 입니다. 그 때는 정보 신용에 대한 우려가 과했었고, 현실에서의 큰 피해는 선정적인 이미지 위조였습니다. 이제 그 문제는 계속 커져서 전 세계 여성에게 피해를 주고 있죠. 뿐만 아니라, 생성형 AI의 발전으로 우리는 이제 훨씬 더 쉽게 거짓 현실을 만들어 낼 수 있을 뿐만 아니라 현실이 조작일 거라고 외면하는 세상에 접어들고 있습니다.
Now, deceptive and malicious audiovisual AI is not the root of our societal problems, but it's likely to contribute to them. Audio clones are proliferating in a range of electoral contexts. "Is it, isn't it" claims cloud human-rights evidence from war zones, sexual deepfakes target women in public and in private, and synthetic avatars impersonate news anchors.
이제, 기만적이고 악의적인 AI 영상이 우리 사회 문제의 근원은 아니더라도 문제들에 많은 기여를 하고 있습니다. 다양한 선거 상황에서 복제음성이 급증하고 있습니다. “사실인가 아닌가” 하는 주장이 전쟁지역 인권문제 증언에 혼란을 주고, 성적 딥페이크는 공적 또는 사적인 곳에서 여성을 표적으로 삼고 있으며, 모조 아바타는 뉴스 앵커를 모방합니다.
I lead WITNESS. We're a human-rights group that helps people use video and technology to protect and defend their rights. And for the last five years, we've coordinated a global effort, "Prepare, Don't Panic," around these new ways to manipulate and synthesize reality, and on how to fortify the truth of critical frontline journalists and human-rights defenders.
저는 WITNESS를 이끌고 있고, 저희는 사람들이 비디오기술을 사용해 자신의 권리를 보호하고 지키도록 돕는 인권 단체입니다. 그리고 지난 5년 동안 우리는 현실을 조작하고 합성하는 이러한 새로운 방법과 일선 언론인과 인권옹호자들의 진실을 강화하는 방법을 중심으로 “당황하지 말고, 준비하라.”라는 전 세계적 노력을 기울여 왔습니다.
Now, one element in that is a deepfakes rapid-response task force, made up of media-forensics experts and companies who donate their time and skills to debunk deepfakes and claims of deepfakes. The task force recently received three audio clips, from Sudan, West Africa and India. People were claiming that the clips were deepfaked, not real. In the Sudan case, experts used a machine-learning algorithm trained on over a million examples of synthetic speech to prove, almost without a shadow of a doubt, that it was authentic. In the West Africa case, they couldn't reach a definitive conclusion because of the challenges of analyzing audio from Twitter, and with background noise.
그 노력 중 하나가 바로 딥페이크 신속 대응 전담 조직이고, 이는 미디어 포렌식 전문가와 딥페이크 의혹을 밝혀내기 위해 기술과 시간을 할애하는 기업들로 구성되어 있습니다. 이 전담 팀은 최근 수단, 서아프리카, 인도로부터 세 개의 오디오 클립을 받았습니다. 사람들은 오디오 클립이 진짜가 아닌 조작된 클립이라고 주장했습니다. 수단의 경우, 전문가들이 100만 개 이상의 합성 음성 예제를 학습한 머신 러닝 알고리즘을 사용하여 대부분 의심의 여지 없이 그 클립이 진짜임을 증명했습니다. 서아프리카의 경우, 트위터에서 나오는 오디오를 분석하는 데 배경 소음 문제 때문에 확실한 결론에 도달할 수 없었습니다.
The third clip was leaked audio of a politician from India. Nilesh Christopher of “Rest of World” brought the case to the task force. The experts used almost an hour of samples to develop a personalized model of the politician's authentic voice. Despite his loud and fast claims that it was all falsified with AI, experts concluded that it at least was partially real, not AI. As you can see, even experts cannot rapidly and conclusively separate true from false, and the ease of calling "that's deepfaked" on something real is increasing.
세 번째 클립은 인도 정치인 음성의 유출본이었습니다. “Rest of World”의 닐레쉬 크리스토퍼는 사건을 제출했고 전문가들은 1시간 분량의 샘플을 사용해 정치인의 실제 목소리를 담은 맞춤형 모델을 개발했습니다. 모든 게 AI로 위조됐다는 정치인의 강건한 주장에도 불구하고, 전문가들은 최소한 부분적으로 AI가 아니라고 결론을 내렸습니다. 보시다시피, 전문가들조차 진실과 거짓을 빠르고 확실하게 구별할 수 없고, 진짜를 “딥페이크”라고 하는 상황이 점점 늘어나고 있습니다.
The future is full of profound challenges, both in protecting the real and detecting the fake. We're already seeing the warning signs of this challenge of discerning fact from fiction. Audio and video deepfakes have targeted politicians, major political leaders in the EU, Turkey and Mexico, and US mayoral candidates. Political ads are incorporating footage of events that never happened, and people are sharing AI-generated imagery from crisis zones, claiming it to be real.
미래는 진실을 보호하고, 거짓을 색출하는 중대한 문제들로 가득합니다. 우리는 이미 사실과 허구를 분별하는 문제의 경고 신호를 보고 있습니다. 오디오 및 비디오 딥페이크는 EU의 주요 정치 지도자, 터키, 멕시코의 주요 정치 지도자, 미국 시장 후보를 표적으로 삼았습니다. 정치 광고에는 전혀 일어난 적이 없는 사건의 영상이 포함되고 있으며, 사람들은 위험 지역에서 AI로 생성한 이미지를 실제라고 주장하며 공유하고 있습니다.
Now, again, this problem is not entirely new. The human-rights defenders and journalists I work with are used to having their stories dismissed, and they're used to widespread, deceptive, shallow fakes, videos and images taken from one context or time or place and claimed as if they're in another, used to share confusion and spread disinformation. And of course, we live in a world that is full of partisanship and plentiful confirmation bias.
다시 말씀드리지만, 이 문제는 전혀 새로운 것이 아닙니다. 저와 함께 일하는 인권 운동가들과 저널리스트들은 자신들의 이야기를 기각하는 데 익숙합니다. 또 그들은 광범위하고 기만적인 가짜 동영상과 이미지에 익숙합니다. 이는 한 상황이나 시간 또는 장소에서 촬영한 것을 마치 다른 곳에 있는 것 처럼 주장하며 혼란을 일으키고 허위정보를 퍼뜨립니다. 물론 우리는 당파주의와 확증 편향이 가득한 세상에 살고 있습니다.
Given all that, the last thing we need is a diminishing baseline of the shared, trustworthy information upon which democracies thrive, where the specter of AI is used to plausibly believe things you want to believe, and plausibly deny things you want to ignore.
이 모든 것을 고려했을 때, 우리에게 필요한 것은 민주주의가 번영하는 공유되고 신뢰 가능한 정보들의 기준선 감소이며, 여기서 AI의 망령은 우리가 믿고 싶은 것은 타당하게 믿고, 무시하고 싶은 것은 타당하게 무시할 수 있게 하는 겁니다.
But I think there's a way we can prevent that future, if we act now; that if we "Prepare, Don't Panic," we'll kind of make our way through this somehow. Panic won't serve us well. [It] plays into the hands of governments and corporations who will abuse our fears, and into the hands of people who want a fog of confusion and will use AI as an excuse.
하지만 지금 행동한다면 그 미래를 막을 수 있는 방법이 있다고 생각합니다. “준비하고, 당황하지 마세요.” 처럼 우리가 어떻게든 이 문제를 헤쳐나갈 수 있다는 거죠. 당황하는 것은 도움이 되지 않아요. 이는 우리의 공포를 악용하려는 정부와 기업의 손에도 영향을 미치며, 혼란의 안개를 피해 AI를 핑계로 삼으려는 사람들의 손에도 영향을 미칩니다.
How many people were taken in, just for a minute, by the Pope in his dripped-out puffer jacket? You can admit it.
얼마나 많은 사람들이 단 1분 동안 롱패팅 재킷을 입은 교황에게 매료되었을까요? 인정하셔도 됩니다.
(Laughter)
(웃음)
More seriously, how many of you know someone who's been scammed by an audio that sounds like their kid? And for those of you who are thinking "I wasn't taken in, I know how to spot a deepfake," any tip you know now is already outdated. Deepfakes didn't blink, they do now. Six-fingered hands were more common in deepfake land than real life -- not so much. Technical advances erase those visible and audible clues that we so desperately want to hang on to as proof we can discern real from fake.
더 진지하게는, 얼마나 많은 사람들이 그들의 자녀와 비슷한 목소리로 인해 사기를 당했는지 알고 계신가요? 그리고 “난 안 당했어, 딥페이크를 찾아내는 방법을 알아.” 라고 생각하는 분들에게 말씀드리자면, 알고 계신 것들은 이미 예전 것입니다. 예전 딥페이크는 눈도 깜빡이지않고 여섯손가락의 손이 자주 보이곤 했지만 지금은 그렇지 않습니다. 기술의 발전은 가시적이고 청각적인 단서들을 지워버렸습니다. 우리가 진짜와 가짜를 구별하기 위해 간절히 매달렸던 증거들을 말이죠
But it also really shouldn’t be on us to make that guess without any help. Between real deepfakes and claimed deepfakes, we need big-picture, structural solutions. We need robust foundations that enable us to discern authentic from simulated, tools to fortify the credibility of critical voices and images, and powerful detection technology that doesn't raise more doubts than it fixes.
하지만 도움 없이 추측을 하는 것이 우리의 몫이 되어서는 안 됩니다. 실제 딥페이크와 주장이 제기된 딥페이크 사이에는 거시적, 구조적인 솔루션이 필요합니다. 우리는 시물레이션과 진짜를 구별할 수 있는 견고한 기반, 중요한 음성 및 이미지의 신뢰성을 강화하는 도구, 그리고 해결하는 것 보다 더 많은 의심을 불러일으키지 않는 강력한 탐지 기술이 필요합니다.
There are three steps we need to take to get to that future. Step one is to ensure that the detection skills and tools are in the hands of the people who need them. I've talked to hundreds of journalists, community leaders and human-rights defenders, and they're in the same boat as you and me and us. They're listening to the audio, trying to think, "Can I spot a glitch?" Looking at the image, saying, "Oh, does that look right or not?" Or maybe they're going online to find a detector. And the detector they find, they don't know whether they're getting a false positive, a false negative, or a reliable result.
이러한 미래를 향해 나아가려면 다음 세 단계를 거쳐야 합니다. 첫 번째 단계는 탐지 기술과 도구들이 그것을 필요로 하는 사람들에게 이용되도록 하는 것입니다. 저는 수백 명의 언론인, 커뮤니티 리더, 인권 운동가들과 이야기를 나눴습니다. 그들은 여러분과 저, 그리고 우리와 같은 입장에 서 있습니다. 그들은 오디오를 들으며 “결함을 발견할 수 있을까?” 라고 생각하려고 합니다. 이미지를 보며 “아, 이게 맞는건가, 아닌가?” 라고 말합니다. 아니면 탐지기를 찾기 위해 온라인에 접속할 수도 있겠죠. 그리고 그들이 찾아낸 탐지기로는 결과가 위양성인지,위음성인지, 신뢰할 수 있는 결과를 얻었는지 알 수 없습니다.
Here's an example. I used a detector, which got the Pope in the puffer jacket right. But then, when I put in the Easter bunny image that I made for my kids, it said that it was human-generated. This is because of some big challenges in deepfake detection. Detection tools often only work on one single way to make a deepfake, so you need multiple tools, and they don't work well on low-quality social media content. Confidence score, 0.76-0.87, how do you know whether that's reliable, if you don't know if the underlying technology is reliable, or whether it works on the manipulation that is being used? And tools to spot an AI manipulation don't spot a manual edit.
예를 하나 보여드릴게요. 저는 탐지기를 사용했는데, 교황은 패딩을 입으신 게 맞다네요. 그런데 제가 아이들을 위해 만든 부활절 토끼 이미지를 넣었더니 사람이 만든 것이라고 하죠. 이는 딥페이크 탐지가 어려운 몇 가지 이유 때문입니다. 탐지 도구는 종종 한 가지 방법으로만 작동하기에 여러 도구가 필요하며 품질이 낮은 소셜 미디어 콘텐츠에서는 제대로 작동하지 않습니다. 신뢰도 점수, 0.76-0.87인 이 기술이 어떻게 믿을 만 한지 알 수 있을까요. 기본 기술이 믿을 만 한지 알 수 없고, 지금 사용되는 조작에 효과적인지 아닌지 알 수 없다면 말이죠. 그리고 AI 조작을 찾아내는 도구로는 수동 편집을 찾아낼 수 없습니다.
These tools also won't be available to everyone. There's a trade-off between security and access, which means if we make them available to anyone, they become useless to everybody, because the people designing the new deception techniques will test them on the publicly available detectors and evade them. But we do need to make sure these are available to the journalists, the community leaders, the election officials, globally, who are our first line of defense, thought through with attention to real-world accessibility and use. Though at the best circumstances, detection tools will be 85 to 95 percent effective, they have to be in the hands of that first line of defense, and they're not, right now.
또한 모든 사람이 이러한 도구를 사용할 수 있는 것은 아닙니다. 보안과 액세스 사이에는 절충점이 있습니다. 즉, 누구나 사용할 수 있게 하면 모든 사람이 사용할 수 없게 됩니다. 새로운 속임수 기법을 설계하는 사람들이 공개적으로 사용가능한 탐지기로 이를 테스트하고는 그 탐지망을 피할 것이기 때문입니다. 하지만 우리는 우리의 1차 방어선인 전 세계 언론인, 커뮤니티 리더, 선거 관계자들이 실제 접근성과 사용에 주의를 기울이며 이용할 수 있도록 해야 합니다. 최상의 상황이라면 탐지 도구가 85~ 95% 의 효과를 낼 것인데, 그 도구가 최전방 방어선에 있어야만 합니다. 하지만 지금은 그렇지 않습니다.
So for step one, I've been talking about detection after the fact. Step two -- AI is going to be everywhere in our communication, creating, changing, editing. It's not going to be a simple binary of "yes, it's AI" or "phew, it's not." AI is part of all of our communication, so we need to better understand the recipe of what we're consuming.
그래서, 첫 번째 단계에서는 사후 탐지에 대해 말씀드렸습니다. 2단계 -- AI는 창작, 변경, 편집 등 커뮤니케이션의 모든 곳에 사용될 것입니다. “네, AI예요”, “휴, 아니에요”의 단순한 이진법이 아닐 겁니다. AI는 모든 커뮤니케이션의 일부이므로 우리가 소비하는 식품의 제조법을 더 잘 이해해야 합니다.
Some people call this content provenance and disclosure. Technologists have been building ways to add invisible watermarking to AI-generated media. They've also been designing ways -- and I've been part of these efforts -- within a standard called the C2PA, to add cryptographically signed metadata to files. This means data that provides details about the content, cryptographically signed in a way that reinforces our trust in that information. It's an updating record of how AI was used to create or edit it, where humans and other technologies were involved, and how it was distributed. It's basically a recipe and serving instructions for the mix of AI and human that's in what you're seeing and hearing. And it's a critical part of a new AI-infused media literacy.
어떤 사람들은 이를 콘텐츠 출처 및 공개라고 부릅니다. 기술자들은 AI 생성 미디어에 보이지 않는 워터마킹을 추가하는 방법을 개발해 왔습니다. 또한 C2PA라는 표준 내에서 암호화된 방식으로 서명된 메타데이터를 파일에 추가하는 방법을 설계하고 있으며 저도 이러한 노력에 참여했습니다. 이는 콘텐츠에 대한 세부 정보를 제공하고 해당정보에 대한 우리의 신뢰를 강화하는 방식으로 암호화 방식으로 서명된 데이터를 의미합니다. AI를 사용하여 콘텐츠를 만들거나 편집한 방법, 사람과 다른 기술이 사용된 곳, 배포 방식에 대한 최신 기록입니다. 이는 기본적으로 여러분이 보고 듣는 것에 사용되는 AI와 인간을 혼합하기 위한 레시피이자 설명서입니다. 그리고 이는 새로운 AI 기반 미디어 리터러시의 중요한 부분입니다.
And this actually shouldn't sound that crazy. Our communication is moving in this direction already. If you're like me -- you can admit it -- you browse your TikTok “For You” page, and you're used to seeing videos that have an audio source, an AI filter, a green screen, a background, a stitch with another edit. This, in some sense, is the alpha version of this transparency in some of the major platforms we use today. It's just that it does not yet travel across the internet, it’s not reliable, updatable, and it’s not secure.
사실 이게 그렇게 이상하게 들리지는 않을 거예요. 우리의 커뮤니케이션은 이미 이 방향으로 나아가고 있습니다. 저와 같은 분이라면 인정하실 겁니다. 틱톡 “For You”를 둘러보면 오디오 소스, AI 필터, 그린 스크린, 배경, 다른 편집이 있는 스티치가 있는 동영상을 보는 데 익숙할 것입니다. 어떤 의미에서는 이것이 오늘날 우리가 사용하는 주요 플랫폼들이 가진 투명성의 알파 버전이라고 할 수 있습니다. 단지 아직 인터넷을 통해 전송되지 않았다는 것 뿐입니다. 신뢰할 수도, 업데이트 할 수도 없고 안전하지도 않습니다.
Now, there are also big challenges in this type of infrastructure for authenticity. As we create these durable signs of how AI and human were mixed, that carry across the trajectory of how media is made, we need to ensure they don't compromise privacy or backfire globally. We have to get this right.
하지만 이러한 유형의 인프라에는 신뢰성에 대한 큰 과제도 있습니다. AI와 인간이 어떻게 혼합되었는지, 미디어가 어떻게 만들어지는지 보여주는 궤적을 가로지르는 이러한 흔적을 지속적으로 만들어내고 있기 때문에, 미디어가 세계적으로 사생활을 침해하거나 역효과를 내지 않도록 해야 합니다. 우리는 이 문제를 바로 잡아야 합니다.
We can't oblige a citizen journalist filming in a repressive context or a satirical maker using novel gen-AI tools to parody the powerful ... to have to disclose their identity or personally identifiable information in order to use their camera or ChatGPT. Because it's important they be able to retain their ability to have anonymity, at the same time as the tool to create is transparent. This needs to be about the how of AI-human media making, not the who.
우리는 억압적인 상황에서 촬영하는 시민 저널리스트나 새로운 Gen-AI 도구를 사용하여 힘있는 사람들을 패러디하는 풍자적 제작자에게 카메라나 챗GPT를 사용하기 위해 신원이나 개인 식별 정보를 공개하라고 강요할 수 없습니다. 그들이 익명성을 유지할 수 있으면서도 동시에 제작을 위한 도구가 투명한것이 중요하기 떄문입니다. 이것은 AI-Human 미디어 제작이 누가 만드느냐가 아니라 어떻게 만드는지에 대한 것이어야 합니다.
This brings me to the final step. None of this works without a pipeline of responsibility that runs from the foundation models and the open-source projects through to the way that is deployed into systems, APIs and apps, to the platforms where we consume media and communicate.
이제 마지막 단계로 넘어가죠. 책임감 있는 파이프라인이 없으면 기본 모델 및 오픈 소스 프로젝트부터 시스템, API 및 앱에 배포되는 방식, 미디어를 소비하고 커뮤니케이션하는 플랫폼에 이르기까지 이 모든 것이 작동하지 않습니다.
I've spent much of the last 15 years fighting, essentially, a rearguard action, like so many of my colleagues in the human rights world, against the failures of social media. We can't make those mistakes again in this next generation of technology. What this means is that governments need to ensure that within this pipeline of responsibility for AI, there is transparency, accountability and liability.
저는 지난 15년 동안 인권계에 있는 다른 많은 동료들처럼 근본적으로 소셜 미디어의 실패에 맞서 후위적 조치를 취하기 위해 싸워왔습니다. 이 차세대 기술에서는 이런 실수를 다시 저지를 수 없습니다. 이것이 의미하는 바는 정부가 AI에 대한 책임 파이프라인 내에서 투명성과 책임성을 보장해야 한다는 것입니다.
Without these three steps -- detection for the people who need it most, provenance that is rights-respecting and that pipeline of responsibility, we're going to get stuck looking in vain for the six-fingered hand, or the eyes that don't blink. We need to take these steps. Otherwise, we risk a world where it gets easier and easier to both fake reality and dismiss reality as potentially faked.
이 세 단계, 즉 가장 필요로 하는 사람들을 위한 탐지, 권리를 존중하는 증명, 책임 파이프라인 없이는 여섯 손가락의 손이나 깜박이지 않는 눈을 찾느라 헛수고만 남게 될 것입니다. 우리는 이러한 조치를 취해야 합니다. 그렇지 않으면 현실을 속이고 현실을 잠재적으로 위조된 것으로 치부하는 것이 쉬워져 세상을 위험에 빠뜨릴 수 있습니다.
And that is a world that the political philosopher Hannah Arendt described in these terms: "A people that no longer can believe anything cannot make up its own mind. It is deprived not only of its capacity to act but also of its capacity to think and to judge. And with such a people you can then do what you please." That's a world I know none of us want, that I think we can prevent.
이것이 바로 정치 철학자 한나 아렌트가 이런 용어로 묘사한 세계입니다. “더 이상 아무것도 믿을 수 없는 사람들은 스스로 결정을 내릴 수 없습니다. 인간의 행동 능력뿐 아니라 사고하고 판단하는 능력도 박탈당했습니다. 그리고 그런 사람들과 함께라면 마음대로 할 수 있습니다.” 우리 중 누구도 원하지 않는 세상이죠. 우리가 막을 수 있다고 생각합니다.
Thanks.
고마워요.
(Cheers and applause)
(환호와 박수)