I'm going to be talking about statistics today. If that makes you immediately feel a little bit wary, that's OK, that doesn't make you some kind of crazy conspiracy theorist, it makes you skeptical. And when it comes to numbers, especially now, you should be skeptical. But you should also be able to tell which numbers are reliable and which ones aren't. So today I want to try to give you some tools to be able to do that. But before I do, I just want to clarify which numbers I'm talking about here. I'm not talking about claims like, "9 out of 10 women recommend this anti-aging cream." I think a lot of us always roll our eyes at numbers like that. What's different now is people are questioning statistics like, "The US unemployment rate is five percent." What makes this claim different is it doesn't come from a private company, it comes from the government.
Hoje vou falar de estatísticas. E se você já estiver se sentindo com o pé atrás, tudo bem, isto não faz de você um maluco conspirador, mas sim um cético. E quando o assunto é números, principalmente agora, seja cético. Mas você precisa saber diferenciar números confiáveis de números não confiáveis. Então hoje vou tentar dar a vocês ferramentas para fazer isso. Mas antes disso, quero esclarecer sobre quais números estou falando aqui. Não estou falando de dados como "nove entre dez mulheres recomendam cremes anti-idade". Acho que muitos de nós já sabem disso. A diferença é que hoje as pessoas questionam estatísticas como: "A taxa de desemprego nos EUA é de 5%". Este dado é diferente porque ele não vem de uma empresa privada, mas sim do governo. Cerca de quatro entre dez americanos não confiam nos dados econômicos
About 4 out of 10 Americans distrust the economic data that gets reported by government. Among supporters of President Trump it's even higher; it's about 7 out of 10. I don't need to tell anyone here that there are a lot of dividing lines in our society right now, and a lot of them start to make sense, once you understand people's relationships with these government numbers. On the one hand, there are those who say these statistics are crucial, that we need them to make sense of society as a whole in order to move beyond emotional anecdotes and measure progress in an [objective] way. And then there are the others, who say that these statistics are elitist, maybe even rigged; they don't make sense and they don't really reflect what's happening in people's everyday lives.
fornecidos pelo governo. Entre os apoiadores do presidente Trump, esse número é ainda maior: cerca de sete entre dez. Não preciso lembrar vocês que temos muitas linhas divisórias em nossa sociedade hoje, e muitas delas começam a fazer sentido, quando se entende o relacionamento das pessoas com os números do governo. Por um lado, há aqueles que dizem que as estatísticas são cruciais, e que precisamos delas para entender a sociedade como um todo, a fim de deixar de lado questões emocionais e medir o progresso de forma objetiva. E há outros que dizem que as estatísticas são elitistas, talvez até manipuladas; que elas não fazem sentido e realmente não mostram o que está acontecendo no dia a dia das pessoas.
It kind of feels like that second group is winning the argument right now. We're living in a world of alternative facts, where people don't find statistics this kind of common ground, this starting point for debate. This is a problem. There are actually moves in the US right now to get rid of some government statistics altogether. Right now there's a bill in congress about measuring racial inequality. The draft law says that government money should not be used to collect data on racial segregation. This is a total disaster. If we don't have this data, how can we observe discrimination, let alone fix it? In other words: How can a government create fair policies if they can't measure current levels of unfairness? This isn't just about discrimination, it's everything -- think about it. How can we legislate on health care if we don't have good data on health or poverty? How can we have public debate about immigration if we can't at least agree on how many people are entering and leaving the country? Statistics come from the state; that's where they got their name. The point was to better measure the population in order to better serve it. So we need these government numbers, but we also have to move beyond either blindly accepting or blindly rejecting them. We need to learn the skills to be able to spot bad statistics.
E parece que este último grupo está vencendo a discussão. Vivemos em um mundo de fatos alternativos, onde não há um consenso sobre as estatísticas serem um ponto de partida para os debates. Isso é um problema. Há na verdade movimentos nos Estados Unidos para acabar de vez com as estatísticas do governo. Tramita no Congresso um projeto de lei sobre medição de desigualdades raciais. Esse projeto defende que recursos do governo não sejam usados para coletar dados sobre segregação racial. Isso é um desastre total. Sem esses dados, como poderemos identificar discriminações, e até corrigi-las? Em outras palavras, como um governo pode criar políticas justas, se não consegue medir os atuais níveis de injustiça? Não se trata apenas de discriminação, é sobre tudo, pensem bem. Como podemos legislar na área da saúde, se não temos bons dados sobre saúde ou pobreza? Como podemos debater publicamente sobre imigração, se não concordamos nem sobre o número de pessoas que entram e saem do país? As estatísticas vêm do governo, é daí que o nome se originou. O propósito era medir melhor a população, para poder servi-la melhor. Então, precisamos dos números do governo, mas também temos que ir além de simplesmente aceitá-los ou rejeitá-los. Precisamos aprender as técnicas para identificar estatísticas ruins.
I started to learn some of these when I was working in a statistical department that's part of the United Nations. Our job was to find out how many Iraqis had been forced from their homes as a result of the war, and what they needed. It was really important work, but it was also incredibly difficult. Every single day, we were making decisions that affected the accuracy of our numbers -- decisions like which parts of the country we should go to, who we should speak to, which questions we should ask. And I started to feel really disillusioned with our work, because we thought we were doing a really good job, but the one group of people who could really tell us were the Iraqis, and they rarely got the chance to find our analysis, let alone question it. So I started to feel really determined that the one way to make numbers more accurate is to have as many people as possible be able to question them.
Comecei a aprender algumas delas, quando trabalhei em um departamento de estatística das Nações Unidas. Nosso trabalho era descobrir quantos iraquianos foram expulsos de seus lares devido à guerra, e do que eles precisavam. Era um trabalho muito importante, mas também incrivelmente difícil. Todos os dias tomávamos decisões que afetavam a exatidão dos nossos números; decisões como para que parte do país deveríamos ir, com quem deveríamos falar, que perguntas deveríamos fazer. E comecei a ficar bem desiludida com o nosso trabalho, pois achávamos que estávamos fazendo um bom trabalho, mas os únicos que poderiam realmente nos dizer isso eram os iraquianos, e eles raramente tinham a chance de ver nossas análises, e sequer questioná-las. Então eu decidi que o único modo de ter números mais precisos, é ter o maior número de pessoas questionando esses números.
So I became a data journalist. My job is finding these data sets and sharing them with the public. Anyone can do this, you don't have to be a geek or a nerd. You can ignore those words; they're used by people trying to say they're smart while pretending they're humble. Absolutely anyone can do this.
Então me tornei uma jornalista de dados. Meu trabalho é encontrar esses grupos de dados e partilhá-los com o público. Qualquer um pode fazer isso, não precisa ser "geek" ou "nerd". Ignorem essas palavras, usadas por pessoas que tentam passar por espertas enquanto fingem ser humildes. Qualquer um pode fazer isso.
I want to give you guys three questions that will help you be able to spot some bad statistics. So, question number one is: Can you see uncertainty? One of things that's really changed people's relationship with numbers, and even their trust in the media, has been the use of political polls. I personally have a lot of issues with political polls because I think the role of journalists is actually to report the facts and not attempt to predict them, especially when those predictions can actually damage democracy by signaling to people: don't bother to vote for that guy, he doesn't have a chance. Let's set that aside for now and talk about the accuracy of this endeavor.
Vou fazer três perguntas que vão ajudá-los a identificar estatísticas ruins. A primeira pergunta é: você consegue identificar a incerteza? Uma das coisas que realmente mudou a relação das pessoas com os números e até a confiança na mídia, tem sido o uso de pesquisas de intenção de voto. Eu pessoalmente tenho alguns problemas com essa pesquisas, pois o papel dos jornalistas, na verdade, é reportar os fatos e não tentar prevê-los, especialmente quando essas previsões podem prejudicar a democracia ao sinalizar às pessoas: nem votem naquele candidato, ele não tem a menor chance. Vamos deixar isso de lado agora e falar sobre a exatidão dessas pesquisas.
Based on national elections in the UK, Italy, Israel and of course, the most recent US presidential election, using polls to predict electoral outcomes is about as accurate as using the moon to predict hospital admissions. No, seriously, I used actual data from an academic study to draw this. There are a lot of reasons why polling has become so inaccurate. Our societies have become really diverse, which makes it difficult for pollsters to get a really nice representative sample of the population for their polls. People are really reluctant to answer their phones to pollsters, and also, shockingly enough, people might lie. But you wouldn't necessarily know that to look at the media. For one thing, the probability of a Hillary Clinton win was communicated with decimal places. We don't use decimal places to describe the temperature. How on earth can predicting the behavior of 230 million voters in this country be that precise? And then there were those sleek charts. See, a lot of data visualizations will overstate certainty, and it works -- these charts can numb our brains to criticism. When you hear a statistic, you might feel skeptical. As soon as it's buried in a chart, it feels like some kind of objective science, and it's not.
Baseando-se nas eleições nacionais no Reino Unido, Itália, Israel e, é claro, a mais recente eleição presidencial americana, usar pesquisas para prever o resultado das eleições é tão preciso como usar a Lua para prever hospitalizações. É sério, eu usei dados reais de estudos acadêmicos para concluir isso. Há muitas razões para as pesquisas eleitorais terem ficado tão imprecisas. Nossas sociedades tornaram-se bastante diversas, o que torna difícil aos pesquisadores conseguirem uma amostra representativa da população para suas pesquisas. As pessoas estão hesitando em responder pesquisas por telefone, e também, o que surpreende, as pessoas podem mentir. Mas você não precisa saber disso para olhar os dados. Uma das razões é que a probabilidade da Hillary Clinton vencer foi divulgada em casas decimais. Não usamos casas decimais para mostrar a temperatura. Como o comportamento de 230 milhões de eleitores neste país poderia ser previsto de forma tão precisa? E havia também aqueles gráficos sofisticados. Muitos gráficos vão exagerar a certeza, e isso funciona. Esses gráficos podem entorpecer nosso julgamento. Ao ouvir uma estatística, você pode se sentir cético. E assim que elas aparecem num gráfico, assumem uma áurea de ciência objetiva, e na verdade não são.
So I was trying to find ways to better communicate this to people, to show people the uncertainty in our numbers. What I did was I started taking real data sets, and turning them into hand-drawn visualizations, so that people can see how imprecise the data is; so people can see that a human did this, a human found the data and visualized it. For example, instead of finding out the probability of getting the flu in any given month, you can see the rough distribution of flu season. This is --
Então, estava buscando formas de explicar isso às pessoas, mostrar-lhes a incerteza nos nossos números. O que fiz foi pegar conjuntos reais de dados, e transformá-los em visualizações manuais, para que as pessoas consigam ver como esses dados são imprecisos, para que as pessoas vejam que alguém fez isso, obteve os dados e fez os gráficos. Se em vez de descobrir a probabilidade de ficar gripado em um determinado mês, você visse a incidência aproximada de casos de gripe na época de alta. Melhor não...
(Laughter)
(Risos)
a bad shot to show in February. But it's also more responsible data visualization, because if you were to show the exact probabilities, maybe that would encourage people to get their flu jabs at the wrong time.
...mostrar em fevereiro. Mas é também uma visualização mais responsável dos dados, pois se você mostrasse as probabilidades exatas, talvez encorajasse as pessoas a se vacinarem contra a gripe no momento errado.
The point of these shaky lines is so that people remember these imprecisions, but also so they don't necessarily walk away with a specific number, but they can remember important facts. Facts like injustice and inequality leave a huge mark on our lives. Facts like Black Americans and Native Americans have shorter life expectancies than those of other races, and that isn't changing anytime soon. Facts like prisoners in the US can be kept in solitary confinement cells that are smaller than the size of an average parking space.
Ressalto essas linhas duvidosas para que as pessoas se lembrem dessas imprecisões, mas também para que elas não descartem simplesmente um número qualquer, e sim se lembrem dos fatos importantes. Fatos como injustiça e desigualdade deixam marcas profundas em nossas vidas. Fatos como o de americanos negros e nativos terem expectativa de vida menor que as outras raças, e que isso não deve mudar no curto prazo. Fatos como o de prisioneiros nos EUA poderem ser mantidos em celas solitárias menores que o espaço de uma vaga de estacionamento de carro.
The point of these visualizations is also to remind people of some really important statistical concepts, concepts like averages. So let's say you hear a claim like, "The average swimming pool in the US contains 6.23 fecal accidents." That doesn't mean every single swimming pool in the country contains exactly 6.23 turds. So in order to show that, I went back to the original data, which comes from the CDC, who surveyed 47 swimming facilities. And I just spent one evening redistributing poop. So you can kind of see how misleading averages can be.
O sentido dessas visualizações é para lembrar às pessoas alguns conceitos estatísticos muito importantes, conceitos como médias. Digamos que você ouve uma alegação como: "Em média uma piscina nos EUA contém 6,23 acidentes fecais". Isso não significa que cada piscina no país contenha exatamente 6,23 cocôs. Para mostrar isso, voltei aos dados originais, que vieram do Controle e Prevenção de Doenças, que pesquisou 47 locais com piscina. E fiquei apenas uma tarde redistribuindo o cocô. Já deu para ver como as médias podem enganar.
(Laughter)
(Risos)
OK, so the second question that you guys should be asking yourselves to spot bad numbers is: Can I see myself in the data? This question is also about averages in a way, because part of the reason why people are so frustrated with these national statistics, is they don't really tell the story of who's winning and who's losing from national policy. It's easy to understand why people are frustrated with global averages when they don't match up with their personal experiences. I wanted to show people the way data relates to their everyday lives. I started this advice column called "Dear Mona," where people would write to me with questions and concerns and I'd try to answer them with data. People asked me anything. questions like, "Is it normal to sleep in a separate bed to my wife?" "Do people regret their tattoos?" "What does it mean to die of natural causes?"
Certo, então a segunda questão que vocês devem se perguntar para identificar números ruins é: posso me ver neste dado? Essa questão também é, de certa forma, sobre médias, pois em parte as pessoas estão tão frustradas com as estatísticas nacionais, porque elas realmente não dizem quem está ganhando e quem está perdendo na política nacional. É fácil entender que as pessoas se frustrem com médias globais, quando elas não refletem suas experiências pessoais. Eu queria mostrar às pessoas como dados se relacionam com suas vidas diárias. Criei a coluna de conselhos "Dear Mona", onde as pessoas enviavam questões e preocupações e eu tentaria respondê-las com dados. As pessoas me perguntavam qualquer coisa, questões como: "É normal eu dormir em cama separada da minha esposa?" "As pessoas se arrependem das tatuagens?" "O que significa morte por causas naturais?"
All of these questions are great, because they make you think about ways to find and communicate these numbers. If someone asks you, "How much pee is a lot of pee?" which is a question that I got asked, you really want to make sure that the visualization makes sense to as many people as possible. These numbers aren't unavailable. Sometimes they're just buried in the appendix of an academic study. And they're certainly not inscrutable; if you really wanted to test these numbers on urination volume, you could grab a bottle and try it for yourself.
E todas essas perguntas são ótimas, pois nos fazem pensar em modos de encontrar e comunicar esses números. Se alguém te perguntasse: "Quanto é muito xixi?", uma pergunta, aliás, que recebi, você ia querer que a resposta fizesse sentido ao maior número de pessoas possível. Esses números estão disponíveis. Às vezes estão apenas escondidos no apêndice de um trabalho acadêmico. E eles certamente não são impenetráveis. Se você quer realmente validar os números do volume de urina, basta pegar uma garrafa e tentar você mesmo.
(Laughter)
(Risos)
The point of this isn't necessarily that every single data set has to relate specifically to you. I'm interested in how many women were issued fines in France for wearing the face veil, or the niqab, even if I don't live in France or wear the face veil. The point of asking where you fit in is to get as much context as possible. So it's about zooming out from one data point, like the unemployment rate is five percent, and seeing how it changes over time, or seeing how it changes by educational status -- this is why your parents always wanted you to go to college -- or seeing how it varies by gender. Nowadays, male unemployment rate is higher than the female unemployment rate. Up until the early '80s, it was the other way around. This is a story of one of the biggest changes that's happened in American society, and it's all there in that chart, once you look beyond the averages. The axes are everything; once you change the scale, you can change the story.
A questão é que não necessariamente toda pesquisa vai se relacionar especificamente com você. Estou interessada em saber quantas mulheres foram multadas na França por usarem burcas ou nicabes, mesmo que eu não more na França ou use a burca. A razão de perguntar como isso te afeta é entender o máximo do contexto. Então trata-se de dar um close em um dado específico, como a taxa de desemprego de 5%, e ver como ela se comporta com o tempo, ou como ela se modifica por status educacional; é por esta razão que seus pais sempre quiseram que você fosse à faculdade; ou ver como ela varia por gênero. Hoje, a taxa de desemprego dos homens é mais alta que a das mulheres. Até o início dos anos 80, era o contrário. É a história de uma das maiores mudanças na sociedade americana, e está tudo lá nos gráficos, uma vez que você enxerga além das médias. Os eixos são tudo, uma vez que você muda a escala, você muda a história. Certo, então a terceira e última questão em que quero que você pensem
OK, so the third and final question that I want you guys to think about when you're looking at statistics is: How was the data collected? So far, I've only talked about the way data is communicated, but the way it's collected matters just as much. I know this is tough, because methodologies can be opaque and actually kind of boring, but there are some simple steps you can take to check this.
quando estiverem olhando estatísticas é: como esses dados foram coletados? Até agora só falei de como os dados são mostrados, mas como são coletados é tão importante quanto. Eu sei que isso é difícil, metodologias podem ser obscuras e até meio chatas, mas há alguns passos bem simples para verificar isso.
I'll use one last example here. One poll found that 41 percent of Muslims in this country support jihad, which is obviously pretty scary, and it was reported everywhere in 2015. When I want to check a number like that, I'll start off by finding the original questionnaire. It turns out that journalists who reported on that statistic ignored a question lower down on the survey that asked respondents how they defined "jihad." And most of them defined it as, "Muslims' personal, peaceful struggle to be more religious." Only 16 percent defined it as, "violent holy war against unbelievers." This is the really important point: based on those numbers, it's totally possible that no one in the survey who defined it as violent holy war also said they support it. Those two groups might not overlap at all.
Vou usar um último exemplo aqui. Uma pesquisa mostrou que 41% dos muçulmanos dos EUA apoiam as "jihads", o que é obviamente bem assustador, e foi amplamente divulgado em 2015. Quando quero validar números como esses, começo procurando o questionário original. Acontece que os jornalistas que divulgaram aquela estatística, ignoraram uma questão mais abaixo na pesquisa, que perguntava aos entrevistados como eles definiam "jihad". E a maioria deles definiu como: "Luta pacífica e pessoal dos muçulmanos para serem mais religiosos". Apenas 16% definiu "jihad" como: "guerra santa e violenta contra céticos". Este é o ponto mais importante: baseado naqueles números, é totalmente possível que nenhum que definiu "jihad" como guerra santa violenta também tenha dito que a apoia. Aqueles dois grupos podem não se sobrepor.
It's also worth asking how the survey was carried out. This was something called an opt-in poll, which means anyone could have found it on the internet and completed it. There's no way of knowing if those people even identified as Muslim. And finally, there were 600 respondents in that poll. There are roughly three million Muslims in this country, according to Pew Research Center. That means the poll spoke to roughly one in every 5,000 Muslims in this country.
Vale a pena perguntar também como a pesquisa foi feita. Essa foi um tipo de pesquisa voluntária, o que significa que estava disponível para qualquer um na internet. Não há como saber se essas pessoas são realmente muçulmanas. E, finalmente, 600 pessoas responderam à pesquisa. Há aproximadamente 3 milhões de muçulmanos no país, de acordo com o Pew Research Center. Ou seja, a pesquisa alcançou, aproximadamente, 1 em cada 5 mil muçulmanos deste país.
This is one of the reasons why government statistics are often better than private statistics. A poll might speak to a couple hundred people, maybe a thousand, or if you're L'Oreal, trying to sell skin care products in 2005, then you spoke to 48 women to claim that they work.
Essa é uma das razões pela qual estatísticas governamentais quase sempre são melhores que as privadas. Uma pesquisa pode atingir centenas, talvez milhares de pessoas, ou, se você é a L'Oreal, vendendo produtos de cuidados faciais em 2005, falar com 48 mulheres para atestar que funcionam.
(Laughter)
(Risos)
Private companies don't have a huge interest in getting the numbers right, they just need the right numbers. Government statisticians aren't like that. In theory, at least, they're totally impartial, not least because most of them do their jobs regardless of who's in power. They're civil servants. And to do their jobs properly, they don't just speak to a couple hundred people. Those unemployment numbers I keep on referencing come from the Bureau of Labor Statistics, and to make their estimates, they speak to over 140,000 businesses in this country.
Empresas privadas não têm um grande interesse em obter números corretos, elas apenas precisam dos números certos. Estatísticos do governo não são assim. Pelo menos em teoria, são totalmente imparciais. Também porque a maioria deles trabalha independentemente de quem está no poder. Eles são funcionários públicos. E para fazer o trabalho direito, não pesquisam apenas algumas centenas de pessoas. Os números de desemprego que fico citando vieram do Bureau of Labor Statistics, e para fazer essas estimativas, eles falam com mais de 140 mil empresas neste país. Eu sei, é frustrante.
I get it, it's frustrating. If you want to test a statistic that comes from a private company, you can buy the face cream for you and a bunch of friends, test it out, if it doesn't work, you can say the numbers were wrong. But how do you question government statistics? You just keep checking everything. Find out how they collected the numbers. Find out if you're seeing everything on the chart you need to see. But don't give up on the numbers altogether, because if you do, we'll be making public policy decisions in the dark, using nothing but private interests to guide us.
Para validar estatísticas de uma empresa privada, você e um grupo de amigas compram o creme facial, testam, e, se não funcionar, os números estavam errados. Mas como questionar as estatísticas do governo? Verifique tudo. Descubra como eles coletaram os números. Descubra se o gráfico está mostrando tudo o que você precisa ver. Mas não desista totalmente dos números, porque se você desistir, estaremos tomando decisões de políticas públicas no escuro, sem nada para nos guiar a não ser o interesse privado. Obrigada.
Thank you.
(Aplausos)
(Applause)