I'm going to be talking about statistics today. If that makes you immediately feel a little bit wary, that's OK, that doesn't make you some kind of crazy conspiracy theorist, it makes you skeptical. And when it comes to numbers, especially now, you should be skeptical. But you should also be able to tell which numbers are reliable and which ones aren't. So today I want to try to give you some tools to be able to do that. But before I do, I just want to clarify which numbers I'm talking about here. I'm not talking about claims like, "9 out of 10 women recommend this anti-aging cream." I think a lot of us always roll our eyes at numbers like that. What's different now is people are questioning statistics like, "The US unemployment rate is five percent." What makes this claim different is it doesn't come from a private company, it comes from the government.
Hoje vou falar de estatísticas. Se isso vos faz sentir desconfiados, tudo bem, isso não quer dizer que sejam um louco conspirador. mas apenas que são céticos. Quando se trata de números, sobretudo agora, devemos ser céticos. Mas também temos que poder dizer quais os números fiáveis e quais os que não são. Hoje vou tentar dar-vos ferramentas para o poderem fazer. Mas, antes disso, quero esclarecer quais os números de que estou a falar. Não estou a falar de afirmações como: "Nove em dez mulheres recomendam este creme antirrugas". Penso que muita gente revira os olhos a números destes. Mas a diferença, é que as pessoas questionam estatísticas como: "A taxa de desemprego nos EUA é de 5%". Esta afirmação é diferente porque não provém de uma empresa privada, provém do governo.
About 4 out of 10 Americans distrust the economic data that gets reported by government. Among supporters of President Trump it's even higher; it's about 7 out of 10. I don't need to tell anyone here that there are a lot of dividing lines in our society right now, and a lot of them start to make sense, once you understand people's relationships with these government numbers. On the one hand, there are those who say these statistics are crucial, that we need them to make sense of society as a whole in order to move beyond emotional anecdotes and measure progress in an [objective] way. And then there are the others, who say that these statistics are elitist, maybe even rigged; they don't make sense and they don't really reflect what's happening in people's everyday lives.
Cerca de quatro em dez americanos não confiam nos dados económicos que são publicados pelo governo. Para os apoiantes do Presidente Trump ainda são mais altos: sete em cada dez. Não preciso de dizer a ninguém aqui que há muitas linhas de divisão, neste momento, na nossa sociedade e começam a fazer sentido, quando percebemos as relações das pessoas com estes números do governo. Por um lado, há quem diga que estas estatísticas são fundamentais, para apreciar a nossa sociedade, no seu todo, para ultrapassar as historietas emotivas e medir o progresso duma forma objetiva. Depois, há os outros, que dizem que estas estatísticas são elitistas, até talvez manipuladas; não fazem sentido e não refletem necessariamente o que acontece na vida quotidiana das pessoas.
It kind of feels like that second group is winning the argument right now. We're living in a world of alternative facts, where people don't find statistics this kind of common ground, this starting point for debate. This is a problem. There are actually moves in the US right now to get rid of some government statistics altogether. Right now there's a bill in congress about measuring racial inequality. The draft law says that government money should not be used to collect data on racial segregation. This is a total disaster. If we don't have this data, how can we observe discrimination, let alone fix it? In other words: How can a government create fair policies if they can't measure current levels of unfairness? This isn't just about discrimination, it's everything -- think about it. How can we legislate on health care if we don't have good data on health or poverty? How can we have public debate about immigration if we can't at least agree on how many people are entering and leaving the country? Statistics come from the state; that's where they got their name. The point was to better measure the population in order to better serve it. So we need these government numbers, but we also have to move beyond either blindly accepting or blindly rejecting them. We need to learn the skills to be able to spot bad statistics.
Parece que este segundo grupo está neste momento a ganhar terreno. Vivemos num mundo de factos alternativos, em que as estatísticas não são uma base de entendimento, um ponto de partida para debate. Isso é um problema. Há hoje um movimento de direita dos EUA para nos livrarmos das estatísticas do governo. Há um projeto de lei no Congresso para medir a desigualdade racial. Esse projeto diz que o dinheiro do governo não deve ser usado para reunir dados sobre este tema. Isto é um desastre total. Se não tivermos esses dados, como podemos observar a discriminação, e sobretudo corrigi-la? Por outras palavras, como criar políticas justas, se não se puder medir os atuais níveis de injustiça? Não se trata apenas de discriminação, trata-se de tudo — pensem nisso. Como legislar sobre a saúde, se não houver bons dados sobre a saúde e a pobreza? Como fazer um debate público sobre imigração sem saber, pelo menos, quantas pessoas entram e saem do país? "Estatísticas" provêm de "estado", é daí que vem o seu nome. O objetivo era medir melhor a população a fim de melhor a servir. Precisamos destes números do governo, mas também temos que deixar de os aceitar cegamente ou de os rejeitar cegamente, Temos que aprender a detetar as más estatísticas.
I started to learn some of these when I was working in a statistical department that's part of the United Nations. Our job was to find out how many Iraqis had been forced from their homes as a result of the war, and what they needed. It was really important work, but it was also incredibly difficult. Every single day, we were making decisions that affected the accuracy of our numbers -- decisions like which parts of the country we should go to, who we should speak to, which questions we should ask. And I started to feel really disillusioned with our work, because we thought we were doing a really good job, but the one group of people who could really tell us were the Iraqis, and they rarely got the chance to find our analysis, let alone question it. So I started to feel really determined that the one way to make numbers more accurate is to have as many people as possible be able to question them.
Comecei a aprender algumas delas ao trabalhar num serviço de estatística que faz parte das Nações Unidas. Tínhamos que saber quantos iraquianos tinham sido forçados a sair de casa por causa da guerra e de que precisavam. Era um trabalho muito importante, mas também muito difícil. Todos os dias, estávamos a tomar decisões que afetavam o rigor dos nossos números — decisões como, quais as partes do país onde devíamos ir, com quem devíamos falar, que perguntas devíamos fazer. Comecei a ficar desiludida com o nosso trabalho, porque estávamos a fazer um trabalho muito bom, mas o grupo de pessoas que nos podia dizer eram os iraquianos. Mas eles raramente viam a nossa análise, quanto mais questioná-la. Sentia-me deveras convencida de que os números só podiam ser mais rigorosos, se houvesse o maior número possível de pessoas a questioná-los.
So I became a data journalist. My job is finding these data sets and sharing them with the public. Anyone can do this, you don't have to be a geek or a nerd. You can ignore those words; they're used by people trying to say they're smart while pretending they're humble. Absolutely anyone can do this.
Passei a ser jornalista de investigação. O meu trabalho é encontrar esses dados e partilhá-los com o público. Qualquer um pode fazer isto, não é preciso ser "geek" ou "nerd". Ignorem estas palavras, são usadas por pessoas que tentam passar por espertas, embora finjam ser humildes. Toda a gente pode fazer isto.
I want to give you guys three questions that will help you be able to spot some bad statistics. So, question number one is: Can you see uncertainty? One of things that's really changed people's relationship with numbers, and even their trust in the media, has been the use of political polls. I personally have a lot of issues with political polls because I think the role of journalists is actually to report the facts and not attempt to predict them, especially when those predictions can actually damage democracy by signaling to people: don't bother to vote for that guy, he doesn't have a chance. Let's set that aside for now and talk about the accuracy of this endeavor.
Vou fazer-vos três perguntas que vos ajudarão a conseguir detetar más estatísticas. Pergunta número um: Conseguem ver incerteza? Uma das coisas que mudou a relação das pessoas com os números, e a sua confiança nos "media", tem sido o uso das sondagens políticas, Eu tenho muitos problemas com as sondagens políticas porque acho que o papel dos jornalistas é relatar os factos e não tentar prevê-los, sobretudo quando essas previsões podem prejudicar a democracia dizendo às pessoas: não votem neste tipo, ele não tem a mínima hipótese. Mas deixemos isto de lado, por agora, e falemos o rigor desta atividade.
Based on national elections in the UK, Italy, Israel and of course, the most recent US presidential election, using polls to predict electoral outcomes is about as accurate as using the moon to predict hospital admissions. No, seriously, I used actual data from an academic study to draw this. There are a lot of reasons why polling has become so inaccurate. Our societies have become really diverse, which makes it difficult for pollsters to get a really nice representative sample of the population for their polls. People are really reluctant to answer their phones to pollsters, and also, shockingly enough, people might lie. But you wouldn't necessarily know that to look at the media. For one thing, the probability of a Hillary Clinton win was communicated with decimal places. We don't use decimal places to describe the temperature. How on earth can predicting the behavior of 230 million voters in this country be that precise? And then there were those sleek charts. See, a lot of data visualizations will overstate certainty, and it works -- these charts can numb our brains to criticism. When you hear a statistic, you might feel skeptical. As soon as it's buried in a chart, it feels like some kind of objective science, and it's not.
Com base nas eleições nacionais, no Reino Unido, na Itália, em Israel e, claro, nas eleições presidenciais mais recentes nos EUA, as sondagens para prever os resultados eleitorais são tão rigorosas como usar a lua para prever as hospitalizações. A sério, eu usei dados atuais de um estudo académico para traçar isto. Há muitas razões por que as sondagens se tornaram tão pouco rigorosas. As nossas sociedades tornaram-se muito diversas, o que torna difícil aos pesquisadores conseguir uma boa amostra representativa da população para as sondagens. As pessoas têm relutância em responder por telefone, e, por chocante que pareça, também podem mentir. Mas não saberiam isso, forçosamente, seguindo os "media". Por um lado, a probabilidade de Hillary Clinton ganhar foi apresentada com décimas. Não usamos décimas para descrever a temperatura. Como é que o comportamento de 230 milhões de votantes neste país, podia ser previsto de modo tão rigoroso? Depois, havia aqueles gráficos elegantes. Uma data de visualizações de dados vai reforçar a certeza, e funciona — estes gráficos podem nublar o nosso cérebro quanto à crítica. Ao ouvir uma estatística, podemos sentir-nos céticos. Mas, quando aparece num gráfico, fica com o aspeto de uma ciência objetiva mas não é. Por isso, tentei encontrar modos de comunicar isto às pessoas,
So I was trying to find ways to better communicate this to people, to show people the uncertainty in our numbers. What I did was I started taking real data sets, and turning them into hand-drawn visualizations, so that people can see how imprecise the data is; so people can see that a human did this, a human found the data and visualized it. For example, instead of finding out the probability of getting the flu in any given month, you can see the rough distribution of flu season. This is --
para mostrar às pessoas a incerteza dos nossos números. Comecei a arranjar grupos de dados reais e transformá-los em visualizações, traçadas à mão para as pessoas verem como os dados são imprecisos, para verem que foi um ser humano que fez isto, um homem que encontrou os dados e os visualizou. Por exemplo, em vez de encontrar a probabilidade de apanhar uma gripe num determinado mês. podemos ver a distribuição grosseira da estação da gripe. É assim... (Risos)
(Laughter)
Uma imagem má para fevereiro.
a bad shot to show in February. But it's also more responsible data visualization, because if you were to show the exact probabilities, maybe that would encourage people to get their flu jabs at the wrong time.
Mas é uma visualização de dados mais responsável porque, se vos mostrarmos as reais possibilidades, talvez isso encoraje as pessoas a apanhar a vacina da gripe na altura errada.
The point of these shaky lines is so that people remember these imprecisions, but also so they don't necessarily walk away with a specific number, but they can remember important facts. Facts like injustice and inequality leave a huge mark on our lives. Facts like Black Americans and Native Americans have shorter life expectancies than those of other races, and that isn't changing anytime soon. Facts like prisoners in the US can be kept in solitary confinement cells that are smaller than the size of an average parking space.
O objetivo destas linhas imprecisas é para as pessoas se lembrarem destas imprecisões, mas também não contêm necessariamente um número específico, mas podem relembrar factos importantes. Factos como a injustiça e a desigualdade deixam uma marca enorme na nossa vida. Os americanos negros ou os nativos têm uma expetativa de vida mais curta do que os de outras etnias e isso não vai mudar dentro em pouco Factos como os presos nos EUA podem estar em celas de isolamento que são mais pequenas que o tamanho de um espaço vulgar para estacionamento.
The point of these visualizations is also to remind people of some really important statistical concepts, concepts like averages. So let's say you hear a claim like, "The average swimming pool in the US contains 6.23 fecal accidents." That doesn't mean every single swimming pool in the country contains exactly 6.23 turds. So in order to show that, I went back to the original data, which comes from the CDC, who surveyed 47 swimming facilities. And I just spent one evening redistributing poop. So you can kind of see how misleading averages can be.
O objetivo destas visualizações também serve para recordar às pessoas alguns conceitos estatísticos deveras importantes, conceitos como médias. Digamos que ouvem uma afirmação como: "A piscina média nos EUA contém 6,23 acidentes fecais". Isto não significa que todas as piscinas no país contenham exatamente 6,23 de fezes. Para mostrar isso, fui aos dados originais que provêm do CDC que analisou 47 piscinas. Só gastei uma tarde a redistribuir os cocós. Estão a ver como estas médias podem ser enganadoras.
(Laughter)
(Risos)
OK, so the second question that you guys should be asking yourselves to spot bad numbers is: Can I see myself in the data? This question is also about averages in a way, because part of the reason why people are so frustrated with these national statistics, is they don't really tell the story of who's winning and who's losing from national policy. It's easy to understand why people are frustrated with global averages when they don't match up with their personal experiences. I wanted to show people the way data relates to their everyday lives. I started this advice column called "Dear Mona," where people would write to me with questions and concerns and I'd try to answer them with data. People asked me anything. questions like, "Is it normal to sleep in a separate bed to my wife?" "Do people regret their tattoos?" "What does it mean to die of natural causes?"
Ok, agora a segunda pergunta que devem fazer a vós mesmos, para detetar números maus, é: "Revejo-me nestes dados?" Esta pergunta, de certo modo, também tem a ver com médias. Parte da razão para as pessoas se sentirem frustradas com estas estatísticas nacionais, é porque elas não contam a história de quem está a ganhar ou a perder com a política nacional. Percebe-se porque é as pessoas se sentem frustradas com médias globais quando não se adequam às suas experiências pessoais. Eu queria mostrar como os dados se relacionam com a sua vida diária. Comecei a coluna de conselhos "Querida Mona", em que as pessoas podem fazer perguntas e eu tento responder-lhes com dados. As pessoas perguntam-me tudo: "É normal dormir numa cama separada da minha mulher?" "As pessoas arrependem-se das suas tatuagens?" "O que significa morrer de causas naturais?"
All of these questions are great, because they make you think about ways to find and communicate these numbers. If someone asks you, "How much pee is a lot of pee?" which is a question that I got asked, you really want to make sure that the visualization makes sense to as many people as possible. These numbers aren't unavailable. Sometimes they're just buried in the appendix of an academic study. And they're certainly not inscrutable; if you really wanted to test these numbers on urination volume, you could grab a bottle and try it for yourself.
Todas estas perguntas são ótimas, porque nos fazem pensar na maneira de encontrar e comunicar esses números. Se alguém perguntar: "Que quantidade de urina é muita urina?" — foi uma pergunta que me fizeram — queremos ter a certeza de que a visualização faça sentido para o maior número de pessoas possível. Estes números não estão indisponíveis. Por vezes, estão enterrados no apêndice de um estudo académico. E, certamente, não são impenetráveis; se realmente quiserem testar os números do volume da urina, podem agarrar numa garrafa e tentarem.
(Laughter)
A questão aqui não é necessariamente
The point of this isn't necessarily that every single data set has to relate specifically to you. I'm interested in how many women were issued fines in France for wearing the face veil, or the niqab, even if I don't live in France or wear the face veil. The point of asking where you fit in is to get as much context as possible. So it's about zooming out from one data point, like the unemployment rate is five percent, and seeing how it changes over time, or seeing how it changes by educational status -- this is why your parents always wanted you to go to college -- or seeing how it varies by gender. Nowadays, male unemployment rate is higher than the female unemployment rate. Up until the early '80s, it was the other way around. This is a story of one of the biggest changes that's happened in American society, and it's all there in that chart, once you look beyond the averages. The axes are everything; once you change the scale, you can change the story.
que cada conjunto de dados se relacione especificamente convosco. Quero saber quantas mulheres foram multadas, em França, por usar o véu na cara, o "niqab", mesmo que não viva em França nem tape a cara com um véu. Perguntei se vos encaixavam para encontrar o contexto, se possível Trata-se de ampliar a partir de um dado, como a taxa de desemprego ser de 5% e ver como ela muda com o tempo ou ver como ela muda consoante o grau de instrução — por isso os vossos pais queriam que fossem para a faculdade — ou ver como ela varia, consoante os sexos. Hoje, a taxa de desemprego masculina é mais alta do que a feminina. Até ao início dos anos 80, era o contrário. Esta é a história de uma das maiores mudanças na sociedade norte-americana e está aqui tudo neste gráfico, se olharmos para além das médias. Os eixos são tudo. Se mudarmos a escala, podemos mudar a história.
OK, so the third and final question that I want you guys to think about when you're looking at statistics is: How was the data collected? So far, I've only talked about the way data is communicated, but the way it's collected matters just as much. I know this is tough, because methodologies can be opaque and actually kind of boring, but there are some simple steps you can take to check this.
A terceira e última pergunta que eu queria que vocês pensassem quando olharem para as estatísticas, é: "Como foram recolhidos os dados?" Até aqui, só falei da forma como os dados são comunicados mas a forma como são recolhidos também é importante. Sei que isto é difícil, porque as metodologias podem ser opacas e bastante aborrecidas, mas há uns passos simples para poderem verificar isso.
I'll use one last example here. One poll found that 41 percent of Muslims in this country support jihad, which is obviously pretty scary, and it was reported everywhere in 2015. When I want to check a number like that, I'll start off by finding the original questionnaire. It turns out that journalists who reported on that statistic ignored a question lower down on the survey that asked respondents how they defined "jihad." And most of them defined it as, "Muslims' personal, peaceful struggle to be more religious." Only 16 percent defined it as, "violent holy war against unbelievers." This is the really important point: based on those numbers, it's totally possible that no one in the survey who defined it as violent holy war also said they support it. Those two groups might not overlap at all.
Vou usar um último exemplo. Uma sondagem concluiu que 41% de muçulmanos neste país apoiam a "jiade", o que é obviamente assustador. Isto foi relatado em toda a parte, em 2015. Quando eu quero verificar um número como este, começo por procurar o questionário original. Acontece que os jornalistas que relataram esta estatística ignoraram uma questão mais abaixo, no estudo, que pedia aos inquiridos que definissem "jiade". A maior parte deles definiu-o assim: "Luta pacífica, pessoal, dos muçulmanos, para serem mais religiosos". Só 16% o definiram como "guerra santa violenta contra os infiéis". Esta é a questão realmente importante: com base nestes números, é totalmente possível que quem a definiu como guerra santa violenta também tenha dito que não a apoiava. Estes dois grupos podiam nem sequer se sobrepor.
It's also worth asking how the survey was carried out. This was something called an opt-in poll, which means anyone could have found it on the internet and completed it. There's no way of knowing if those people even identified as Muslim. And finally, there were 600 respondents in that poll. There are roughly three million Muslims in this country, according to Pew Research Center. That means the poll spoke to roughly one in every 5,000 Muslims in this country.
Também vale a pena perguntar como foi efetuado o estudo. Esta sondagem era voluntária, qualquer pessoa podia encontrá-la na Internet e preenchê-la. Não se pode saber se essas pessoas se identificavam sequer como muçulmanas Por fim, houve 600 respostas a essa sondagem. Há cerca de três milhões de muçulmanos neste país, segudo o Centro de Pesquisas Pew. Ou seja, o inquérito contactou um em cada 5000 muçulmanos neste país.
This is one of the reasons why government statistics are often better than private statistics. A poll might speak to a couple hundred people, maybe a thousand, or if you're L'Oreal, trying to sell skin care products in 2005, then you spoke to 48 women to claim that they work.
É por isso que as estatísticas governamentais são quase sempre melhores do que as estatísticas privadas. Uma sondagem pode falar com centenas ou milhares de pessoas ou, se for a L'Oreal, a tentar vender produtos para a pele em 2005, fala com 48 mulheres que afirmam que eles funcionam.
(Laughter)
(Risos)
Private companies don't have a huge interest in getting the numbers right, they just need the right numbers. Government statisticians aren't like that. In theory, at least, they're totally impartial, not least because most of them do their jobs regardless of who's in power. They're civil servants. And to do their jobs properly, they don't just speak to a couple hundred people. Those unemployment numbers I keep on referencing come from the Bureau of Labor Statistics, and to make their estimates, they speak to over 140,000 businesses in this country.
As empresas privadas não têm grande interesse em ter um número correto, só precisam do número bom. Os estatísticos governamentais não são assim. Em teoria, pelo menos, são totalmente imparciais, o trabalho é realizado, seja quem for que esteja no poder. São funcionários públicos. O trabalho é feito conscienciosamente, não se falam apenas com umas centenas de pessoas. Os números do desemprego que tenho referido provêm do Gabinete de Estatística do Trabalho. Para fazer as suas estimativas, falam com mais de 140 000 empresas. Eu sei, é frustrante.
I get it, it's frustrating. If you want to test a statistic that comes from a private company, you can buy the face cream for you and a bunch of friends, test it out, if it doesn't work, you can say the numbers were wrong. But how do you question government statistics? You just keep checking everything. Find out how they collected the numbers. Find out if you're seeing everything on the chart you need to see. But don't give up on the numbers altogether, because if you do, we'll be making public policy decisions in the dark, using nothing but private interests to guide us.
Se quiserem testar uma estatística, duma empresa privada, compram o creme para a pele com um grupo de amigas, e testam-no. Se não funcionar, os números estão errados. Mas como questionar as estatísticas do governo? Continuem a verificar tudo. Vejam como recolheram os números. Vejam se estão a ver no gráfico tudo o que precisam de ver. Mas não desistam dos números porque, se o fizerem, contribuem para que as decisões públicas sejam tomadas no escuro, usando apenas os interesses privados para nos guiar. Obrigada.
Thank you.
(Aplausos)
(Applause)