It's getting harder, isn't it, to spot real from fake, AI-generated from human-generated. With generative AI, along with other advances in deep fakery, it doesn't take many seconds of your voice, many images of your face, to fake you, and the realism keeps increasing.
Está cada vez mais difícil, não é? Saber o que é real e o que é falso, o que é inteligência artificial e o que não é. Com a IA generativa, e outros avanços na falsificação, não são necessários muitos segundos de sua voz, muitas imagens de seu rosto, para falsificá-lo, e está cada vez mais realista.
I first started working on deepfakes in 2017, when the threat to our trust in information was overhyped, and the big harm, in reality, was falsified sexual images. Now that problem keeps growing, harming women and girls worldwide. But also, with advances in generative AI, we're now also approaching a world where it's broadly easier to make fake reality, but also to dismiss reality as possibly faked.
Comecei a trabalhar com deepfakes em 2017, quando exagerávamos sua ameaça.com relação a confiabilidade na informação e o grande problema era, na verdade, as imagens sexuais forjadas. Agora, o problema só piora, prejudicando mulheres e meninas em todo o mundo. Mas também, com avanços na IA generativa, estamos chegando a um mundo em que não apenas é muito mais fácil criar uma realidade falsa, mas também tratar o real como possivelmente falso.
Now, deceptive and malicious audiovisual AI is not the root of our societal problems, but it's likely to contribute to them. Audio clones are proliferating in a range of electoral contexts. "Is it, isn't it" claims cloud human-rights evidence from war zones, sexual deepfakes target women in public and in private, and synthetic avatars impersonate news anchors.
Agora, a IA audiovisual enganosa e maliciosa não é a raiz de nossos problemas sociais, mas é provável que ela contribua com eles. Os clones de áudio estão se espalhando entre diversos contextos eleitorais. “É ou não é” ofuscam as evidências de direitos humano dos campos de batalha, mulheres são alvos de deepfakes sexuais em espaços públicos e privados e avatares falsos se passam por apresentadores.
I lead WITNESS. We're a human-rights group that helps people use video and technology to protect and defend their rights. And for the last five years, we've coordinated a global effort, "Prepare, Don't Panic," around these new ways to manipulate and synthesize reality, and on how to fortify the truth of critical frontline journalists and human-rights defenders.
Eu lidero a WITNESS. Um grupo de direitos humanos que auxilia as pessoas a utilizarem a mídia para assegurar seus direitos. E nos últimos cinco anos, coordenamos um esforço global, "Prepare-se, Sem Pânico" analisando se essas novas maneiras de manipular a realidade e como fortalecer a verdade dos jornalistas na linha de frente e defensores dos direitos humanos.
Now, one element in that is a deepfakes rapid-response task force, made up of media-forensics experts and companies who donate their time and skills to debunk deepfakes and claims of deepfakes. The task force recently received three audio clips, from Sudan, West Africa and India. People were claiming that the clips were deepfaked, not real. In the Sudan case, experts used a machine-learning algorithm trained on over a million examples of synthetic speech to prove, almost without a shadow of a doubt, that it was authentic. In the West Africa case, they couldn't reach a definitive conclusion because of the challenges of analyzing audio from Twitter, and with background noise.
O que temos aqui é uma força-tarefa de resposta rápida a deepfakes, formada por especialistas em mídia forense e empresas que dedicam seu tempo e habilidades para desmascarar deepfakes e denunciar deepfakes. Recentemente, a força-tarefa recebeu três clipes de áudio, do Sudão, da África Ocidental e da Índia. As pessoas alegavam que os clipes eram falsos, não reais. No caso do Sudão, experts utilizaram um algoritmo inteligente treinado com um milhão de exemplos da fala artificial para provar, quase sem sombra de dúvida, que era tudo autêntico. No caso da África Ocidental, não chegaram a uma conclusão definitiva devido à dificuldade de analisar áudios no Twitter com ruído de fundo.
The third clip was leaked audio of a politician from India. Nilesh Christopher of “Rest of World” brought the case to the task force. The experts used almost an hour of samples to develop a personalized model of the politician's authentic voice. Despite his loud and fast claims that it was all falsified with AI, experts concluded that it at least was partially real, not AI. As you can see, even experts cannot rapidly and conclusively separate true from false, and the ease of calling "that's deepfaked" on something real is increasing.
O terceiro clipe foi um áudio vazado de um político da Índia. Nilesh Christopher, do “Rest of World”, levou o caso à força-tarefa. Os especialistas usaram quase uma hora de amostras para desenvolver um modelo personalizado da voz autêntica do político. Apesar de afirmar categoricamente que tudo foi falsificado com IA especialistas concluíram que era pelo menos parcialmente real, não IA. Como você pode ver, mesmo os especialistas não conseguem separar o verdadeiro do falso precisamente e a facilidade de chamar algo real de “deepfake” só aumenta.
The future is full of profound challenges, both in protecting the real and detecting the fake. We're already seeing the warning signs of this challenge of discerning fact from fiction. Audio and video deepfakes have targeted politicians, major political leaders in the EU, Turkey and Mexico, and US mayoral candidates. Political ads are incorporating footage of events that never happened, and people are sharing AI-generated imagery from crisis zones, claiming it to be real.
O futuro está cheio de desafios complexos, tanto na proteção do real quanto na detecção do falso. Já podemos ver os sinais desse desafio de discernir o fato da ficção. Os deepfakes de áudio e vídeo têm como alvo políticos, grandes líderes políticos da UE, Turquia e México e candidatos a prefeito nos EUA. Anúncios políticos utilizam imagens de eventos que nunca ocorreram. e as pessoas compartilham imagens geradas por IA de zonas de conflito, alegando que são reais.
Now, again, this problem is not entirely new. The human-rights defenders and journalists I work with are used to having their stories dismissed, and they're used to widespread, deceptive, shallow fakes, videos and images taken from one context or time or place and claimed as if they're in another, used to share confusion and spread disinformation. And of course, we live in a world that is full of partisanship and plentiful confirmation bias.
Agora, novamente, esse problema não é de todo recente. Observo defensores dos direitos humanos e jornalistas habituados a terem suas histórias rejeitadas, e são utilizados para a disseminação de vídeos e imagens enganosos e superficiais, tirados de um contexto, tempo ou lugar e apresentados como sendo de outro, usados para causar confusão e espalhar desinformação. E, claro, vivemos em um mundo cheio de partidarismo e um grande viés de confirmação.
Given all that, the last thing we need is a diminishing baseline of the shared, trustworthy information upon which democracies thrive, where the specter of AI is used to plausibly believe things you want to believe, and plausibly deny things you want to ignore.
Diante de tudo isso, a última coisa que precisamos é a redução da base de informações confiáveis compartilhadas sobre as quais as democracias prosperam, onde o espectro da IA é usado para acreditar de forma plausível em coisas em que se quer acreditar, e de formar plausível negar coisas que você quer ignorar.
But I think there's a way we can prevent that future, if we act now; that if we "Prepare, Don't Panic," we'll kind of make our way through this somehow. Panic won't serve us well. [It] plays into the hands of governments and corporations who will abuse our fears, and into the hands of people who want a fog of confusion and will use AI as an excuse.
Mas acho que há uma maneira de evitar esse futuro, se agirmos agora; se nos "Prepararmos, Sem Pânico" de alguma forma, acharemos uma solução para isso tudo. O pânico não nos ajudará. O pânico é usado pelos governos e corporações que abusam do nosso medo e pessoas que adoram confusão e usam a IA como desculpa.
How many people were taken in, just for a minute, by the Pope in his dripped-out puffer jacket? You can admit it.
Quantos foram enganados, mesmo que brevemente, pelo Papa com sua jaqueta estilosa e acolchoada? Pode falar a verdade.
(Laughter)
(Risos)
More seriously, how many of you know someone who's been scammed by an audio that sounds like their kid? And for those of you who are thinking "I wasn't taken in, I know how to spot a deepfake," any tip you know now is already outdated. Deepfakes didn't blink, they do now. Six-fingered hands were more common in deepfake land than real life -- not so much. Technical advances erase those visible and audible clues that we so desperately want to hang on to as proof we can discern real from fake.
E mais sério ainda, quem aí conhece alguém que já foi enganado por um áudio parecido com o do seu filho? E para aqueles que estão pensando “você não me engana, eu sei o que é uma deepfake”, qualquer dica que você conheça já está desatualizada. As deepfakes não piscavam, agora elas piscam. Tínhamos mais mãos com seis dedos nas deepfakes do que na vida real -- agora nem tanto. Os avanços técnicos apagam aquelas pistas visíveis e audíveis que tanto queremos usar como prova de que sabemos o que é real ou falso
But it also really shouldn’t be on us to make that guess without any help. Between real deepfakes and claimed deepfakes, we need big-picture, structural solutions. We need robust foundations that enable us to discern authentic from simulated, tools to fortify the credibility of critical voices and images, and powerful detection technology that doesn't raise more doubts than it fixes.
Mas também não deveria caber a nós fazer essa suposição sem qualquer ajuda. Entre deepfakes reais e supostas deepfakes precisamos de soluções estruturais abrangentes. Precisamos de bases sólidas que nos permitam distinguir o autêntico do simulado, ferramentas que fortaleçam a credibilidade de vozes e imagens e tecnologias poderosas de detecção que não levantem mais dúvidas do que tirem.
There are three steps we need to take to get to that future. Step one is to ensure that the detection skills and tools are in the hands of the people who need them. I've talked to hundreds of journalists, community leaders and human-rights defenders, and they're in the same boat as you and me and us. They're listening to the audio, trying to think, "Can I spot a glitch?" Looking at the image, saying, "Oh, does that look right or not?" Or maybe they're going online to find a detector. And the detector they find, they don't know whether they're getting a false positive, a false negative, or a reliable result.
Há três etapas que precisamos seguir para chegar a esse futuro. Passo um: garantir que as habilidades e ferramentas de detecção estejam nas mãos das pessoas certas. Conversei com centenas de jornalistas, líderes e defensores dos direitos humanos, e estamos todos no mesmo barco. Eles ouvem o áudio, e tentam pensar: “Consigo identificar uma falha?” Olhando para a imagem, dizendo: “Ah, isso parece real ou não?” Ou talvez eles acessem a internet para encontrar um detector. E o detector que encontram, não se sabe se os resultados são positivos, negativos ou confiáveis.
Here's an example. I used a detector, which got the Pope in the puffer jacket right. But then, when I put in the Easter bunny image that I made for my kids, it said that it was human-generated. This is because of some big challenges in deepfake detection. Detection tools often only work on one single way to make a deepfake, so you need multiple tools, and they don't work well on low-quality social media content. Confidence score, 0.76-0.87, how do you know whether that's reliable, if you don't know if the underlying technology is reliable, or whether it works on the manipulation that is being used? And tools to spot an AI manipulation don't spot a manual edit.
Por exemplo. Usei um detector, que acertou a do Papa com a jaqueta acolchoada. Mas quando coloquei a imagem do coelhinho da Páscoa que fiz para meus filhos, ele disse que foi gerada por humanos. Isso ocorre porque há grandes desafios na detecção de deepfakes. Ferramentas de detecção geralmente só funcionam com uma tecnologia, o que requer muitas ferramentas e elas não funcionam bem em materiais de baixa qualidade. Índice de confiança: 0,76-0,87, como saber se isso é confiável, se você não sabe se tais tecnologias são confiáveis, ou funcionam com a detecção de manipulação por IA? E ferramentas contra a IA não detectam edições manuais.
These tools also won't be available to everyone. There's a trade-off between security and access, which means if we make them available to anyone, they become useless to everybody, because the people designing the new deception techniques will test them on the publicly available detectors and evade them. But we do need to make sure these are available to the journalists, the community leaders, the election officials, globally, who are our first line of defense, thought through with attention to real-world accessibility and use. Though at the best circumstances, detection tools will be 85 to 95 percent effective, they have to be in the hands of that first line of defense, and they're not, right now.
Estas ferramentas também não estão disponíveis para todos. Há um acordo mútuo entre a segurança e o acesso, o que quer dizer que caso qualquer um possa acessá-las elas se tornariam inúteis, porque as pessoas que projetam as novas técnicas de fraude as testariam nos detectores disponíveis para o público e os burlariam. Mas precisamos garantir que tais recursos estejam disponíveis para jornalistas, líderes comunitários e mesários em nível global, que são a nossa primeira linha de defesa, e tenham atenção com a acessibilidade e utilidade no mundo real. Embora, na melhor das hipóteses, tais ferramentas têm eficácia de de 85 a 95%, elas precisam estar nas mãos da primeira linha de defesa, e não estão, no momento.
So for step one, I've been talking about detection after the fact. Step two -- AI is going to be everywhere in our communication, creating, changing, editing. It's not going to be a simple binary of "yes, it's AI" or "phew, it's not." AI is part of all of our communication, so we need to better understand the recipe of what we're consuming.
No primeiro passo, falei da detecção após o fato. Passo dois: a IA estará em toda parte em nossa comunicação, criação, mudança e edição. Não será tão simples dizer: “sim, é IA” ou “ufa, não é”. A IA faz parte de toda nossa comunicação, por isso precisamos entender melhor a receita do que estamos consumindo.
Some people call this content provenance and disclosure. Technologists have been building ways to add invisible watermarking to AI-generated media. They've also been designing ways -- and I've been part of these efforts -- within a standard called the C2PA, to add cryptographically signed metadata to files. This means data that provides details about the content, cryptographically signed in a way that reinforces our trust in that information. It's an updating record of how AI was used to create or edit it, where humans and other technologies were involved, and how it was distributed. It's basically a recipe and serving instructions for the mix of AI and human that's in what you're seeing and hearing. And it's a critical part of a new AI-infused media literacy.
Algumas pessoas chamam esse conteúdo de proveniência e divulgação. Os tecnólogos estão criando maneiras de adicionar marcas d’água invisíveis aos conteúdos gerados por IA. Também estão projetando maneiras — e eu fiz parte desses esforços — dentro de um padrão chamado C2PA, de adicionar metadados assinados criptograficamente aos arquivos. Isso significa dados que fornecem detalhes sobre o conteúdo, assinados criptograficamente de forma a reforçar nossa confiança nessas informações. É um registro atualizado de como a IA foi usada para criá-la ou editá-la, na qual humanos e outras tecnologias estavam envolvidos e como ela foi distribuída. É basicamente uma receita e serve de instruções para a mistura de IA e humano que está no que você está vendo e ouvindo. E é uma parte essencial de uma nova alfabetização midiática baseada em IA.
And this actually shouldn't sound that crazy. Our communication is moving in this direction already. If you're like me -- you can admit it -- you browse your TikTok “For You” page, and you're used to seeing videos that have an audio source, an AI filter, a green screen, a background, a stitch with another edit. This, in some sense, is the alpha version of this transparency in some of the major platforms we use today. It's just that it does not yet travel across the internet, it’s not reliable, updatable, and it’s not secure.
E isso realmente não deveria parecer tão louco. Nossa comunicação já está se movendo nesta direção. Se você é como eu, você pode admitir: você navega na página “Para você” do TikTok e está acostumado a ver vídeos que têm uma fonte de áudio, um filtro de IA, uma tela verde, um plano de fundo, um ponto com outra edição. Esta, em certo sentido, é a versão alfa dessa transparência em algumas das principais plataformas que usamos atualmente. Só que ele ainda não viaja pela internet, não é confiável, atualizável e não é seguro.
Now, there are also big challenges in this type of infrastructure for authenticity. As we create these durable signs of how AI and human were mixed, that carry across the trajectory of how media is made, we need to ensure they don't compromise privacy or backfire globally. We have to get this right.
Agora, também existem grandes desafios nesse tipo de infraestrutura de autenticidade. Conforme criamos esses sinais duradouros de como a IA e o ser humano se misturaram, que acompanham a trajetória de como a mídia é produzida, precisamos garantir que eles não comprometam a privacidade nem comprometam globalmente. Temos de fazer isto bem.
We can't oblige a citizen journalist filming in a repressive context or a satirical maker using novel gen-AI tools to parody the powerful ... to have to disclose their identity or personally identifiable information in order to use their camera or ChatGPT. Because it's important they be able to retain their ability to have anonymity, at the same time as the tool to create is transparent. This needs to be about the how of AI-human media making, not the who.
Não podemos obrigar um jornalista cidadão filmando em um contexto repressivo ou um criador satírico usando novas ferramentas de inteligência artificial para parodiar os poderosos... ter de divulgar sua identidade ou informações de identificação pessoal para usar sua câmera ou ChatGPT. Porque é importante que eles consigam manter a capacidade de manter o anonimato, ao mesmo tempo em que a ferramenta de criação é transparente. Isto precisa ser o como criar mídia humana com IA, não sobre quem.
This brings me to the final step. None of this works without a pipeline of responsibility that runs from the foundation models and the open-source projects through to the way that is deployed into systems, APIs and apps, to the platforms where we consume media and communicate.
Isso me leva à etapa final. Nada disso funciona sem um fluxo de responsabilidade que vai desde os modelos básicos e os projetos de código aberto até a forma como são implantados em sistemas, APIs e aplicativos, até as plataformas em que consumimos mídia e nos comunicamos.
I've spent much of the last 15 years fighting, essentially, a rearguard action, like so many of my colleagues in the human rights world, against the failures of social media. We can't make those mistakes again in this next generation of technology. What this means is that governments need to ensure that within this pipeline of responsibility for AI, there is transparency, accountability and liability.
Passei boa parte dos últimos 15 anos lutando, essencialmente, contra uma ação defensiva, como muitos dos meus colegas no mundo dos direitos humanos, contra as falhas das mídias sociais. Não podemos cometer esses erros novamente nesta próxima geração de tecnologia. O que significa que os governos precisam garantir que, dentro desse fluxo de responsabilidade pela IA, haja transparência, responsabilidade e responsabilização.
Without these three steps -- detection for the people who need it most, provenance that is rights-respecting and that pipeline of responsibility, we're going to get stuck looking in vain for the six-fingered hand, or the eyes that don't blink. We need to take these steps. Otherwise, we risk a world where it gets easier and easier to both fake reality and dismiss reality as potentially faked.
Sem estas três etapas — detecção das pessoas que mais precisam, proveniência que respeite os direitos e esse fluxo de responsabilidade, ficaremos presos procurando em vão a mão com seis dedos ou os olhos que não piscam. Precisamos tomar essas medidas. Caso contrário, arriscamos um mundo em que fica cada vez mais fácil tanto fingir a realidade e descartá-la como potencialmente falsa.
And that is a world that the political philosopher Hannah Arendt described in these terms: "A people that no longer can believe anything cannot make up its own mind. It is deprived not only of its capacity to act but also of its capacity to think and to judge. And with such a people you can then do what you please." That's a world I know none of us want, that I think we can prevent.
E esse é um mundo que a filósofa política Hannah Arendt descreveu nestes termos: “Um povo que não consegue mais acreditar em nada não consegue se decidir. Ela é privada não só de sua capacidade de agir mas também de sua capacidade de pensar e julgar. E com essas pessoas, você pode fazer o que quiser.” Esse é um mundo que eu sei que nenhum de nós quer, que acho que podemos evitar.
Thanks.
Obrigado.
(Cheers and applause)
(Saudações e aplausos)