I'm going to be talking about statistics today. If that makes you immediately feel a little bit wary, that's OK, that doesn't make you some kind of crazy conspiracy theorist, it makes you skeptical. And when it comes to numbers, especially now, you should be skeptical. But you should also be able to tell which numbers are reliable and which ones aren't. So today I want to try to give you some tools to be able to do that. But before I do, I just want to clarify which numbers I'm talking about here. I'm not talking about claims like, "9 out of 10 women recommend this anti-aging cream." I think a lot of us always roll our eyes at numbers like that. What's different now is people are questioning statistics like, "The US unemployment rate is five percent." What makes this claim different is it doesn't come from a private company, it comes from the government.
Oggi parlerò di statistiche. Se questo vi fa sentire subito un po' sospettosi, va bene, non siete una specie di pazzi terroristi della cospirazione, siete scettici. Quando si tratta di numeri, specialmente adesso, dovreste essere scettici. Ma dovreste essere in grado di dire quali numeri sono affidabili e quali non lo sono. Oggi voglio provare a darvi degli strumenti per farlo. Ma prima che lo faccia, voglio chiarire di che numeri sto parlando qui. Non sto parlando di affermazioni come: "9 donne su 10 raccomandano questa crema anti età". Penso che molti alzino gli occhi al cielo per numeri come questi. La differenza è che ora la gente contesta statistiche del tipo: "la disoccupazione negli Stati Uniti è al 5%". Quest'affermazione è diversa perché non viene da un gruppo privato, viene dal governo.
About 4 out of 10 Americans distrust the economic data that gets reported by government. Among supporters of President Trump it's even higher; it's about 7 out of 10. I don't need to tell anyone here that there are a lot of dividing lines in our society right now, and a lot of them start to make sense, once you understand people's relationships with these government numbers. On the one hand, there are those who say these statistics are crucial, that we need them to make sense of society as a whole in order to move beyond emotional anecdotes and measure progress in an [objective] way. And then there are the others, who say that these statistics are elitist, maybe even rigged; they don't make sense and they don't really reflect what's happening in people's everyday lives.
Circa 4 americani su 10 non si fidano dei dati economici diffusi dal governo. Tra i sostenitori di Trump il dato è ancora più alto; è di circa 7 su 10. Non ho bisogno di dirvi che ci sono tante linee di divisione nella nostra società oggi e molte iniziano ad avere senso quando si capisce la relazione della gente con i numeri dati dal governo. Da un lato, c'è chi dice che queste statistiche sono fondamentali, che servono per avere un'idea della società nell'insieme per andare al di là degli aneddoti emotivi e misurare il progresso in maniera [oggettiva]. Poi ci sono altri, che dicono che le statistiche sono elitarie, forse persino manipolate; non hanno senso e non riflettono in realtà quello che accade nella vita di ogni giorno.
It kind of feels like that second group is winning the argument right now. We're living in a world of alternative facts, where people don't find statistics this kind of common ground, this starting point for debate. This is a problem. There are actually moves in the US right now to get rid of some government statistics altogether. Right now there's a bill in congress about measuring racial inequality. The draft law says that government money should not be used to collect data on racial segregation. This is a total disaster. If we don't have this data, how can we observe discrimination, let alone fix it? In other words: How can a government create fair policies if they can't measure current levels of unfairness? This isn't just about discrimination, it's everything -- think about it. How can we legislate on health care if we don't have good data on health or poverty? How can we have public debate about immigration if we can't at least agree on how many people are entering and leaving the country? Statistics come from the state; that's where they got their name. The point was to better measure the population in order to better serve it. So we need these government numbers, but we also have to move beyond either blindly accepting or blindly rejecting them. We need to learn the skills to be able to spot bad statistics.
Si ha la sensazione che il secondo gruppo prevalga in questo momento. Viviamo in un mondo di alternative, dove la gente non trova un terreno comune nelle statistiche, un punto di partenza per discutere. Questo è un problema. Ora negli Stati Uniti ci sono dei tentativi per liberarsi completamente di alcune statistiche del governo. Adesso c'è un progetto di legge per misurare la diseguaglianza sociale. La bozza della legge dice che non si dovrebbero usare soldi per raccogliere dati sulla segregazione razziale. Questo è un totale disastro. Se non abbiamo questi dati, come si può osservare la discriminazione o combatterla? In altre parole: come può un governo fare una politica equa se non può misurare il livello di ingiustizia? Non si tratta solo di discriminazione, si tratta di tutto; pensateci. Come si può legiferare sulla sanità se non ci sono dati su salute o povertà? Come si fa un dibattito pubblico sull'immigrazione se non si concorda almeno su quanta gente entra o esce dal paese? Le statistiche vengono dallo stato; da lì prendono il loro nome. Il punto era misurare meglio la popolazione per poterla servire meglio. C'è bisogno di questi numeri ufficiali ma dobbiamo andare oltre la loro ceca accettazione o la loro ceca negazione. Dobbiamo imparare l'abilità di individuare le cattive statistiche.
I started to learn some of these when I was working in a statistical department that's part of the United Nations. Our job was to find out how many Iraqis had been forced from their homes as a result of the war, and what they needed. It was really important work, but it was also incredibly difficult. Every single day, we were making decisions that affected the accuracy of our numbers -- decisions like which parts of the country we should go to, who we should speak to, which questions we should ask. And I started to feel really disillusioned with our work, because we thought we were doing a really good job, but the one group of people who could really tell us were the Iraqis, and they rarely got the chance to find our analysis, let alone question it. So I started to feel really determined that the one way to make numbers more accurate is to have as many people as possible be able to question them.
Io ho iniziato a imparare mentre lavoravo in un dipartimento di statistica che fa parte delle Nazioni Unite. Il nostro lavoro era trovare quanti iracheni erano stati cacciati di casa a causa della guerra e di cosa avevano bisogno. Un lavoro veramente importante, ma anche estremamente difficile. Ogni singolo giorno prendevamo decisioni che riguardavano l'accuratezza dei numeri. Decisioni come in che parte del paese dovevamo andare, a chi dovevamo parlare, che domande dovevamo fare. Cominciai a sentirmi demoralizzata sul nostro lavoro, perché pensavamo di fare veramente un ottimo lavoro, ma le persone che potevano confermarcelo erano gli iracheni che non avevano l'opportunità di vedere le nostre analisi, figurarsi contestarle. Cominciai a sentirmi veramente sicura che il modo di rendere i numeri più precisi è avere quanta più gente possibile capace di metterli in dubbio.
So I became a data journalist. My job is finding these data sets and sharing them with the public. Anyone can do this, you don't have to be a geek or a nerd. You can ignore those words; they're used by people trying to say they're smart while pretending they're humble. Absolutely anyone can do this.
Così divenni una giornalista di dati e il mio lavoro è trovare dati e renderli pubblici. Chiunque può farlo, non solo i fissati del computer, i geek o i nerd. Potete ignorare quelle parole; vengono usate per esprimere la propria forza fingendo di essere umili. Sicuramente tutti possono farlo.
I want to give you guys three questions that will help you be able to spot some bad statistics. So, question number one is: Can you see uncertainty? One of things that's really changed people's relationship with numbers, and even their trust in the media, has been the use of political polls. I personally have a lot of issues with political polls because I think the role of journalists is actually to report the facts and not attempt to predict them, especially when those predictions can actually damage democracy by signaling to people: don't bother to vote for that guy, he doesn't have a chance. Let's set that aside for now and talk about the accuracy of this endeavor.
Voglio darvi tre domande che vi aiuteranno a individuare alcune cattive statistiche. La domanda numero uno è: sapete vedere l'incertezza? Una delle cose che ha cambiato la relazione della gente con i numeri e la sua fiducia nei media, è stato l'uso dei sondaggi politici. Personalmente ho molti problemi con i sondaggi perché credo che il ruolo del giornalista sia quello di riferire i fatti e non tentare di predirli, soprattutto quando le previsioni possono danneggiare la democrazia segnalando alla gente: è inutile votare per quel tizio, non ha nessuna chance. Ma lasciamo stare per ora e parliamo dell'accuratezza di questo tentativo.
Based on national elections in the UK, Italy, Israel and of course, the most recent US presidential election, using polls to predict electoral outcomes is about as accurate as using the moon to predict hospital admissions. No, seriously, I used actual data from an academic study to draw this. There are a lot of reasons why polling has become so inaccurate. Our societies have become really diverse, which makes it difficult for pollsters to get a really nice representative sample of the population for their polls. People are really reluctant to answer their phones to pollsters, and also, shockingly enough, people might lie. But you wouldn't necessarily know that to look at the media. For one thing, the probability of a Hillary Clinton win was communicated with decimal places. We don't use decimal places to describe the temperature. How on earth can predicting the behavior of 230 million voters in this country be that precise? And then there were those sleek charts. See, a lot of data visualizations will overstate certainty, and it works -- these charts can numb our brains to criticism. When you hear a statistic, you might feel skeptical. As soon as it's buried in a chart, it feels like some kind of objective science, and it's not.
Considerando le elezioni nazionali nel Regno Unito, Italia, Israele e naturalmente le più recenti elezioni americane, usare i sondaggi per predire l'esito elettorale è preciso come usare la luna per predire i ricoveri ospedalieri. Seriamente, ho usato i dati di uno studio universitario per questo schema. Ci sono un sacco di ragioni per cui i sondaggi sono diventati così scorretti. Le società sono diventate molto diverse, il che rende difficile per i sondaggisti ottenere un buon campione rappresentativo della popolazione per i sondaggi. La gente non risponde volentieri ai sondaggi telefonici e inoltre, incredibile, la gente può mentire. Ma non si viene necessariamente a sapere guardando i media. Prima cosa, le probabilità di vincita di Hillary Clinton è stata data con posizioni decimali. Non usiamo posizioni decimali per parlare di temperatura. Come diavolo si può predire il comportamento di 230 milioni di votanti in modo così preciso? E poi c'erano quei grafici raffinati. Vedete, la visualizzazione dei dati spesso enfatizza la certezza, e funziona -- i grafici possono rendere il nostro cervello acritico. Quando sentite una statistica, potete essere scettici. Quando è nascosta in un grafico, ha l'aspetto di una scienza obiettiva, ma non lo è.
So I was trying to find ways to better communicate this to people, to show people the uncertainty in our numbers. What I did was I started taking real data sets, and turning them into hand-drawn visualizations, so that people can see how imprecise the data is; so people can see that a human did this, a human found the data and visualized it. For example, instead of finding out the probability of getting the flu in any given month, you can see the rough distribution of flu season. This is --
Stavo provando a trovare modi migliori per comunicarlo alla gente, per mostrare alla gente l'incertezza dei numeri. Ho iniziato a prendere dei gruppi di dati reali e trasformarli in visualizzazioni disegnate a mano perché la gente vedesse quanto imprecisi sono i dati; perché vedesse che li aveva fatti un umano, li aveva trovati e visualizzati un umano. Per esempio, invece di trovare le probabilità di prendere l'influenza in un dato mese, si vede l'andamento approssimativo dell'influenza stagionale. Questo è --
(Laughter)
(Risate)
a bad shot to show in February. But it's also more responsible data visualization, because if you were to show the exact probabilities, maybe that would encourage people to get their flu jabs at the wrong time.
un brutto colpo per Febbraio. È una visualizzazione dei dati più responsabile, perché se dovessimo mostrare le esatte probabilità, forse si incoraggerebbero le vaccinazioni antinfluenzali al momento sbagliato.
The point of these shaky lines is so that people remember these imprecisions, but also so they don't necessarily walk away with a specific number, but they can remember important facts. Facts like injustice and inequality leave a huge mark on our lives. Facts like Black Americans and Native Americans have shorter life expectancies than those of other races, and that isn't changing anytime soon. Facts like prisoners in the US can be kept in solitary confinement cells that are smaller than the size of an average parking space.
Il punto di queste linee incerte è che la gente si ricorda di queste imprecisioni, e non se ne va necessariamente con un numero specifico, ma si ricorda dei fatti importanti. Fatti come l'ingiustizia e l'ineguaglianza lasciano enormi segni nelle nostre vite. Fatti come l'aspettativa di vita più breve per neri e nativi americani rispetto ad altre razze, e questo non cambierà a breve. Fatti come la possibilità di isolare i carcerati americani in celle più piccole dello spazio medio previsto per un parcheggio.
The point of these visualizations is also to remind people of some really important statistical concepts, concepts like averages. So let's say you hear a claim like, "The average swimming pool in the US contains 6.23 fecal accidents." That doesn't mean every single swimming pool in the country contains exactly 6.23 turds. So in order to show that, I went back to the original data, which comes from the CDC, who surveyed 47 swimming facilities. And I just spent one evening redistributing poop. So you can kind of see how misleading averages can be.
Lo scopo di queste visualizzazioni è anche ricordare alla gente alcuni concetti statistici importanti, concetti come le medie. Per esempio, affermare: "Una piscina media in America contiene 6,23 evacuazioni accidentali". Non significa che ogni singola piscina del paese contiene esattamente 6,23 stronzi. Per mostrarlo, sono tornata ai dati originali del Centro di Prevenzione che ha ispezionato 47 piscine. Ho passato una sera a redistribuire la cacca. Potete vedere quanto possono essere fuorvianti le medie.
(Laughter)
(Risate)
OK, so the second question that you guys should be asking yourselves to spot bad numbers is: Can I see myself in the data? This question is also about averages in a way, because part of the reason why people are so frustrated with these national statistics, is they don't really tell the story of who's winning and who's losing from national policy. It's easy to understand why people are frustrated with global averages when they don't match up with their personal experiences. I wanted to show people the way data relates to their everyday lives. I started this advice column called "Dear Mona," where people would write to me with questions and concerns and I'd try to answer them with data. People asked me anything. questions like, "Is it normal to sleep in a separate bed to my wife?" "Do people regret their tattoos?" "What does it mean to die of natural causes?"
La seconda domanda che dovreste farvi per notare un brutto numero è: Io mi ritrovo in quel dato? Questa domanda è in qualche modo legata alle medie, perché parte della ragione per cui la gente è frustrata dalle statistiche nazionali, è che non dicono veramente la storia di chi sta vincendo o perdendo nella politica nazionale. È facile capire perché la gente è frustrata dalle medie globali quando non fanno parte delle loro esperienze personali. Volevo mostrare il modo in cui i dati si legano alla vita quotidiana. Ho iniziato questa rubrica chiamata "Cara Mona", dove la gente mi scriveva con domande e preoccupazioni e io provavo a rispondere con dei dati. Chiedevano di tutto, domande tipo: "È normale dormire in letti separati con mia moglie?" "La gente si pente dei tatuaggi?" "Cosa vuol dire morire per cause naturali?"
All of these questions are great, because they make you think about ways to find and communicate these numbers. If someone asks you, "How much pee is a lot of pee?" which is a question that I got asked, you really want to make sure that the visualization makes sense to as many people as possible. These numbers aren't unavailable. Sometimes they're just buried in the appendix of an academic study. And they're certainly not inscrutable; if you really wanted to test these numbers on urination volume, you could grab a bottle and try it for yourself.
Tutte queste domande sono grandiose perché ti fanno pensare ai modi da trovare per comunicare questi numeri. Se qualcuno vi domanda: "Quanta pipì è tanta pipì?" e questa è una domanda che mi hanno fatto, vorrete essere proprio sicuri che la visualizzazione abbia senso per più gente possibile. Questi numeri non sono indisponibili. Alle volte sono sepolti nelle appendici di uno studio universitario. Non sono certo imperscrutabili; se vuoi testare veramente questi numeri sul volume dell'urina, puoi prendere una bottiglia e provarci.
(Laughter)
(Risate)
The point of this isn't necessarily that every single data set has to relate specifically to you. I'm interested in how many women were issued fines in France for wearing the face veil, or the niqab, even if I don't live in France or wear the face veil. The point of asking where you fit in is to get as much context as possible. So it's about zooming out from one data point, like the unemployment rate is five percent, and seeing how it changes over time, or seeing how it changes by educational status -- this is why your parents always wanted you to go to college -- or seeing how it varies by gender. Nowadays, male unemployment rate is higher than the female unemployment rate. Up until the early '80s, it was the other way around. This is a story of one of the biggest changes that's happened in American society, and it's all there in that chart, once you look beyond the averages. The axes are everything; once you change the scale, you can change the story.
Il punto è che non necessariamente ogni singolo dato deve riferirsi specificamente a te. Sono interessata a quante donne sono state multate in Francia per aver il velo sul viso o il niqab, anche se non vivo in Francia o indosso il velo sul viso. Domandarsi dove ci si colloca significa avere più contesto possibile. Si tratta di allontanarsi dal singolo dato, come il tasso di disoccupazione del 5%, e vedere come cambia nel tempo, o vedere come cambia in base al grado di educazione -- per questo i genitori vogliono che andiamo all'università -- o vedere come cambia in base al genere. Oggi la disoccupazione maschile è più alta di quella femminile. Fino ai primi anni 80 era il contrario. Questa è uno dei più grandi cambiamenti verificatisi nella società americana ed è tutto in quel grafico, una volta che si guarda oltre la media. Le assi sono tutto; se cambi la scala, puoi cambiare la storia.
OK, so the third and final question that I want you guys to think about when you're looking at statistics is: How was the data collected? So far, I've only talked about the way data is communicated, but the way it's collected matters just as much. I know this is tough, because methodologies can be opaque and actually kind of boring, but there are some simple steps you can take to check this.
La terza e ultima domanda alla quale voglio che pensiate quando guardate le statistiche è: come sono stati raccolti i dati? Finora ho parlato solo di come si comunicano i dati, ma come si raccolgono è altrettanto importante. So che è difficile, perché i metodi possono essere opachi e abbastanza noiosi, ma ci sono dei passi semplici per verificare.
I'll use one last example here. One poll found that 41 percent of Muslims in this country support jihad, which is obviously pretty scary, and it was reported everywhere in 2015. When I want to check a number like that, I'll start off by finding the original questionnaire. It turns out that journalists who reported on that statistic ignored a question lower down on the survey that asked respondents how they defined "jihad." And most of them defined it as, "Muslims' personal, peaceful struggle to be more religious." Only 16 percent defined it as, "violent holy war against unbelievers." This is the really important point: based on those numbers, it's totally possible that no one in the survey who defined it as violent holy war also said they support it. Those two groups might not overlap at all.
Uso un ultimo esempio. Un sondaggio dice che in questo paese il 41% dei mussulmani sostiene la jihad, il che è abbastanza allarmante, ed è stato riportato ovunque nel 2015. Quando voglio controllare un numero come quello, inizio trovando il questionario originale. Risultò che i giornalisti che riferirono la statistica ignorarono una domanda in basso nel questionario che chiedeva agli intervistati di definire "jihad". Molti di loro la definirono: "Lotta pacifica e personale dei musulmani per essere più religiosi". Solo il 6% la definì: "violenta guerra santa contro gli infedeli". Questo è un punto molto importante: basandosi su quei numeri, è davvero possibile che nessuno di quelli che l'ha definita una violenta guerra santa abbia anche detto che la appoggiano. Quei due gruppi possono non coincidere.
It's also worth asking how the survey was carried out. This was something called an opt-in poll, which means anyone could have found it on the internet and completed it. There's no way of knowing if those people even identified as Muslim. And finally, there were 600 respondents in that poll. There are roughly three million Muslims in this country, according to Pew Research Center. That means the poll spoke to roughly one in every 5,000 Muslims in this country.
È bene anche chiedersi com'è stato fatto il sondaggio. Questo è un sondaggio chiamato opt-in, significa che chiunque lo trovi su internet può farlo. Non c'è modo di sapere se chi ha risposto fosse musulmano. Infine, hanno risposto in 600 a quel sondaggio. Ci sono circa 3 milioni di musulmani in questo paese, secondo il Pew Research Center. Significa che il sondaggio ha consultato un musulmano su 5.000 in questo paese.
This is one of the reasons why government statistics are often better than private statistics. A poll might speak to a couple hundred people, maybe a thousand, or if you're L'Oreal, trying to sell skin care products in 2005, then you spoke to 48 women to claim that they work.
Questa è una delle ragioni per cui le statistiche del governo sono spesso migliori di quelle dei privati. Un sondaggio può includere 200, forse mille persone, o, se sei L'Oreal che prova a vendere prodotti di bellezza nel 2005, consulti 48 donne per affermare che funzionano.
(Laughter)
(Risate)
Private companies don't have a huge interest in getting the numbers right, they just need the right numbers. Government statisticians aren't like that. In theory, at least, they're totally impartial, not least because most of them do their jobs regardless of who's in power. They're civil servants. And to do their jobs properly, they don't just speak to a couple hundred people. Those unemployment numbers I keep on referencing come from the Bureau of Labor Statistics, and to make their estimates, they speak to over 140,000 businesses in this country.
Le compagnie private non hanno un grande interesse nel rilevare i numeri giusti, a loro bastano i numeri giusti. Le statistiche del governo non sono così. Almeno in teoria, sono completamente imparziali, perché molti fanno il loro lavoro senza preoccuparsi di chi è al potere. Sono impiegati statali. E per far bene il loro lavoro, non parlano con solo duecento persone. I dati sulla disoccupazione a cui mi riferivo vengono dall'Ufficio di Statistica del Lavoro, e per fare le loro stime parlano con più di 140.000 aziende in questo paese.
I get it, it's frustrating. If you want to test a statistic that comes from a private company, you can buy the face cream for you and a bunch of friends, test it out, if it doesn't work, you can say the numbers were wrong. But how do you question government statistics? You just keep checking everything. Find out how they collected the numbers. Find out if you're seeing everything on the chart you need to see. But don't give up on the numbers altogether, because if you do, we'll be making public policy decisions in the dark, using nothing but private interests to guide us.
Lo so, è frustrante. Se vuoi testare la statistica di una compagnia privata, puoi comprare la crema da viso per te e un pugno di amici, provarla, e se non funziona, puoi dire che era sbagliata. Ma come contesti le statistiche del governo? Continui a controllare tutto? Scopri come raccolgono i numeri. Scopri se sullo schema c'è tutto quello che si deve vedere. Ma non perdere tutta la fiducia nei numeri perché, se lo fai, prenderemo le decisioni di politica pubblica al buio, usando solo gli interessi privati come guida.
Thank you.
Grazie.
(Applause)
(Applausi)