I'm going to be talking about statistics today. If that makes you immediately feel a little bit wary, that's OK, that doesn't make you some kind of crazy conspiracy theorist, it makes you skeptical. And when it comes to numbers, especially now, you should be skeptical. But you should also be able to tell which numbers are reliable and which ones aren't. So today I want to try to give you some tools to be able to do that. But before I do, I just want to clarify which numbers I'm talking about here. I'm not talking about claims like, "9 out of 10 women recommend this anti-aging cream." I think a lot of us always roll our eyes at numbers like that. What's different now is people are questioning statistics like, "The US unemployment rate is five percent." What makes this claim different is it doesn't come from a private company, it comes from the government.
Azi voi vorbi despre statistică. Dacă asta vă face imediat să vă simțiți un pic nesiguri, e OK, nu vă face un adept nebun al teoriilor conspirației, ci un sceptic. Când vine vorba de numere, mai ales acum, ar trebui să fiți sceptici. Dar ar trebui și să puteți spune care numere sunt de încredere și care nu sunt. Azi vreau să vă ofer niște metode pentru a putea face asta. Înainte să încep, vreau să clarific despre ce numere vorbesc aici. Nu vorbesc despre afirmații ca: „9 din 10 femei recomandă crema anti-îmbătrânire”. Cred că mulți dintre noi dau ochii peste cap la asta. Dar acum oamenii pun la îndoială statistici precum „Rata de șomaj în SUA e de 5%”. Această afirmație e specială deoarece nu vine de la o companie privată, ci de la guvern.
About 4 out of 10 Americans distrust the economic data that gets reported by government. Among supporters of President Trump it's even higher; it's about 7 out of 10. I don't need to tell anyone here that there are a lot of dividing lines in our society right now, and a lot of them start to make sense, once you understand people's relationships with these government numbers. On the one hand, there are those who say these statistics are crucial, that we need them to make sense of society as a whole in order to move beyond emotional anecdotes and measure progress in an [objective] way. And then there are the others, who say that these statistics are elitist, maybe even rigged; they don't make sense and they don't really reflect what's happening in people's everyday lives.
Aproximativ 4 din 10 americani nu au încredere în datele economice raportate de guvern. Printre suporterii președintelui Trump rata e și mai mare, aproximativ 7 din 10. Nu e nevoie să vă spun că sunt multe linii diviziblile în societatea noastră chiar acum, multe dintre ele încep să aibă sens odată ce înțelegeți relațiile oamenilor cu numerele emise de guvern. De o parte sunt cei care spun că aceste statistici sunt importante, că avem nevoie de ele ca să explicăm întreaga societate, să trecem peste anecdote emoționale și să măsurăm progresul obiectiv. Apoi sunt alții care spun că aceste statistici sunt elitiste, poate chiar măsluite, nu au sens și nu reflectă ce se întâmplă în viețile cotidiene ale oamenilor.
It kind of feels like that second group is winning the argument right now. We're living in a world of alternative facts, where people don't find statistics this kind of common ground, this starting point for debate. This is a problem. There are actually moves in the US right now to get rid of some government statistics altogether. Right now there's a bill in congress about measuring racial inequality. The draft law says that government money should not be used to collect data on racial segregation. This is a total disaster. If we don't have this data, how can we observe discrimination, let alone fix it? In other words: How can a government create fair policies if they can't measure current levels of unfairness? This isn't just about discrimination, it's everything -- think about it. How can we legislate on health care if we don't have good data on health or poverty? How can we have public debate about immigration if we can't at least agree on how many people are entering and leaving the country? Statistics come from the state; that's where they got their name. The point was to better measure the population in order to better serve it. So we need these government numbers, but we also have to move beyond either blindly accepting or blindly rejecting them. We need to learn the skills to be able to spot bad statistics.
Se pare că acum al doilea grup câștigă dezbaterea. Trăim într-o lume a faptelor alternative, unde oamenii nu văd statisticile ca un teren comun, punctul de plecare pentru dezbatere. Asta e o problemă. Acum sunt mișcări în SUA pentru a renunța de tot la niște statistici guvernamentale. Acum în guvern e un proiect de lege despre măsurarea inegalității rasiale, care spune că banii guvernului nu ar trebui folosiți pentru colectarea datelor despre segregarea rasială. E un dezastru. Dacă nu avem aceste date, cum putem observa discriminarea, și să o mai și rezolvăm? Cu alte cuvinte: cum poate un guvern crea politici corecte dacă nu poate măsura nivelul actual de nedreptate? Nu e vorba doar de discriminare, ci despre tot — gândiți-vă. Cum putem legifera sistemul de sănătate dacă nu avem date bune despre sănătate sau sărăcie? Cum putem avea dezbateri publice despre imigrație dacă nici nu putem stabili câți oameni intră și ies din țară? Statisticile vin de la stat, de acolo provine numele. Ideea era să măsoare mai bine populația ca să o servească mai bine. Deci avem nevoie de cifrele de la guvern, dar nu trebuie să le mai acceptăm sau să le respingem orbește. Trebuie să învățăm metode pentru a recunoaște statistici incorecte.
I started to learn some of these when I was working in a statistical department that's part of the United Nations. Our job was to find out how many Iraqis had been forced from their homes as a result of the war, and what they needed. It was really important work, but it was also incredibly difficult. Every single day, we were making decisions that affected the accuracy of our numbers -- decisions like which parts of the country we should go to, who we should speak to, which questions we should ask. And I started to feel really disillusioned with our work, because we thought we were doing a really good job, but the one group of people who could really tell us were the Iraqis, and they rarely got the chance to find our analysis, let alone question it. So I started to feel really determined that the one way to make numbers more accurate is to have as many people as possible be able to question them.
Eu am început să le învăț când lucram într-un departament de statistică din cadrul Națiunilor Unite. Noi trebuia să aflăm câți irakieni au fost forțați să-și părăsească casa din cauza războiului și de ce aveau nevoie. Era o muncă foarte importantă, dar și dificilă. În fiecare zi luam decizii care afectau precizia numerelor noastre, de exemplu în ce părți ale țării ar trebui să mergem, cu cine să vorbim, ce întrebări să punem. Am început să mă simt dezamăgită de munca noastră deoarece credeam că facem o treabă bună, dar singurii oameni care ne puteau spune asta erau irakienii, iar ei abia găseau analiza noastră, cu atât mai puțin s-o pună la îndoială. Asta m-a determinat să cred că unicul mod de a face numerele mai precise e să fie puse la îndoială de cât mai mulți oameni.
So I became a data journalist. My job is finding these data sets and sharing them with the public. Anyone can do this, you don't have to be a geek or a nerd. You can ignore those words; they're used by people trying to say they're smart while pretending they're humble. Absolutely anyone can do this.
Așa am devenit jurnalist de date. Treaba mea e să găsesc datele și să le împărtășesc publicului. Oricine poate face asta, nu e nevoie să fii un tocilar. Puteți ignora cuvântul ăsta, e folosit de cei care încearcă să spună că sunt deștepți încercând să pară modești. Chiar oricine poate face asta.
I want to give you guys three questions that will help you be able to spot some bad statistics. So, question number one is: Can you see uncertainty? One of things that's really changed people's relationship with numbers, and even their trust in the media, has been the use of political polls. I personally have a lot of issues with political polls because I think the role of journalists is actually to report the facts and not attempt to predict them, especially when those predictions can actually damage democracy by signaling to people: don't bother to vote for that guy, he doesn't have a chance. Let's set that aside for now and talk about the accuracy of this endeavor.
Vreau să vă dau trei întrebări care vă vor ajuta să recunoașteți statistici incorecte. Prima întrebare: Vedeți incertitudini? Un lucru care a schimbat relația oamenilor cu numerele și încrederea lor în media a fost sondajul politic. Eu personal am multe probleme cu sondajele politice deoarece cred că rolul jurnaliștilor e să raporteze faptele, nu să încerce să le prezică, mai ales când prezicerile pot deteriora democrația, sugerând oamenilor: „Nu votați pentru el, n-are nicio șansă”. Să lăsăm asta deoparte și să vorbim despre precizia acestui efort.
Based on national elections in the UK, Italy, Israel and of course, the most recent US presidential election, using polls to predict electoral outcomes is about as accurate as using the moon to predict hospital admissions. No, seriously, I used actual data from an academic study to draw this. There are a lot of reasons why polling has become so inaccurate. Our societies have become really diverse, which makes it difficult for pollsters to get a really nice representative sample of the population for their polls. People are really reluctant to answer their phones to pollsters, and also, shockingly enough, people might lie. But you wouldn't necessarily know that to look at the media. For one thing, the probability of a Hillary Clinton win was communicated with decimal places. We don't use decimal places to describe the temperature. How on earth can predicting the behavior of 230 million voters in this country be that precise? And then there were those sleek charts. See, a lot of data visualizations will overstate certainty, and it works -- these charts can numb our brains to criticism. When you hear a statistic, you might feel skeptical. As soon as it's buried in a chart, it feels like some kind of objective science, and it's not.
Pe baza alegerilor naționale în Anglia, Italia, Israel și bineînțeles, cel mai recent în SUA, folosirea sondajelor pentru a prezice rezultatele electorale e la fel de precisă ca folosirea lunii pentru a prezice admiterile în spitale. Serios, am folosit date dintr-un studiu academic să desenez asta. Sunt multe motive pentru care sondajele au devenit atât de imprecise. Societățile s-au diversificat, așa că e mai dificil pentru sondatori să găsească un eșantion reprezentativ din populație pentru sondaje. Oamenii evită să răspundă la apelurile sondatorilor și, șocant, ar putea minți. Dar nu ați ști asta din media. Probabilitatea ca Hillary Clinton să câștige alegerile a fost comunicată cu zecimale. Nu folosim zecimale nici să descriem temperatura. Cum se poate să fie comportamentul a 230 de milioane de votanți prezis cu așa precizie? Apoi au fost graficele acelea impecabile. Vizualizarea datelor va exagera certitudinea, și funcționează: aceste grafice ne pot bloca simțul critic. Când auziți o statistică, fiți sceptici. Când e ascunsă într-un grafic pare o știință obiectivă, dar nu e.
So I was trying to find ways to better communicate this to people, to show people the uncertainty in our numbers. What I did was I started taking real data sets, and turning them into hand-drawn visualizations, so that people can see how imprecise the data is; so people can see that a human did this, a human found the data and visualized it. For example, instead of finding out the probability of getting the flu in any given month, you can see the rough distribution of flu season. This is --
Am încercat să găsesc moduri de a comunica asta oamenilor, să le arăt incertitudinile din numerele noastre. Am început să iau date reale și să le transform în vizualizări desenate de mână pentru ca oamenii să vadă cât de imprecise sunt datele, să vadă că un om a făcut asta, un om a găsit datele și le-a reprezentat grafic. De exemplu, în loc să aflați probabilitatea de a lua gripă într-o anumită lună, puteți vedea distribuția sezonului de răceală. Asta nu e...
(Laughter)
(Râsete)
a bad shot to show in February. But it's also more responsible data visualization, because if you were to show the exact probabilities, maybe that would encourage people to get their flu jabs at the wrong time.
o imagine bună pentru februarie. Dar e o vizualizare de date mai responsabilă deoarece dacă ar arăta probabilitățile exacte, poate i-ar încuraja pe oameni să ia medicamente de răceală la momentul nepotrivit.
The point of these shaky lines is so that people remember these imprecisions, but also so they don't necessarily walk away with a specific number, but they can remember important facts. Facts like injustice and inequality leave a huge mark on our lives. Facts like Black Americans and Native Americans have shorter life expectancies than those of other races, and that isn't changing anytime soon. Facts like prisoners in the US can be kept in solitary confinement cells that are smaller than the size of an average parking space.
Ideea acestor linii tremurânde e să le amintească oamenilor de imprecizii ca să nu rămână cu un anumit număr în minte, ci să-și amintească fapte importante. Fapte ca nedreptatea și inegalitatea lasă o urmă imensă în viețile noastre. Fapte precum speranța de viață mai redusă a afro-americanilor și amerindienilor în comparație cu alte rase, și asta nu se va schimba curând. Fapte precum reținerea prizonerilor în SUA în celule de izolare mai mici decât un loc de parcare mediu.
The point of these visualizations is also to remind people of some really important statistical concepts, concepts like averages. So let's say you hear a claim like, "The average swimming pool in the US contains 6.23 fecal accidents." That doesn't mean every single swimming pool in the country contains exactly 6.23 turds. So in order to show that, I went back to the original data, which comes from the CDC, who surveyed 47 swimming facilities. And I just spent one evening redistributing poop. So you can kind of see how misleading averages can be.
Ideea acestor vizualizări e să le amintească oamenilor de concepte importante de statistică, precum media. Să zicem că auziți o afirmație: „Bazinul de înot mediu în SUA conține 6,23 accidente fecale.” Asta nu înseamnă că fiecare bazin din țară conține exact 6,23 rahați. Ca să arăt asta, am luat datele originale de la CDC, care au studiat 47 de bazine, și am petrecut o seară redistribuind rahat. Vedeți cât de derutante pot fi mediile.
(Laughter)
(Râsete)
OK, so the second question that you guys should be asking yourselves to spot bad numbers is: Can I see myself in the data? This question is also about averages in a way, because part of the reason why people are so frustrated with these national statistics, is they don't really tell the story of who's winning and who's losing from national policy. It's easy to understand why people are frustrated with global averages when they don't match up with their personal experiences. I wanted to show people the way data relates to their everyday lives. I started this advice column called "Dear Mona," where people would write to me with questions and concerns and I'd try to answer them with data. People asked me anything. questions like, "Is it normal to sleep in a separate bed to my wife?" "Do people regret their tattoos?" "What does it mean to die of natural causes?"
A doua întrebare pe care ar trebui s-o puneți să recunoașteți numere greșite: Pot să mă văd pe mine în date? Întrebarea asta e oarecum despre medii deoarece un motiv pentru care oamenii sunt frustrați de statisticile naționale e că nu spun o poveste despre cine câștigă și cine pierde în politicile naționale. E ușor de înțeles de ce oamenii sunt frustrați de medii globale când nu se potrivesc cu experiențele lor. Am vrut să arăt oamenilor ce rol au datele în viața cotidiană. Am inițiat coloana de consiliere „Dragă Mona”, unde oamenii îmi scriau întrebări și probleme, iar eu încercam să răspund cu date. Oamenii mă întrebau de toate: „E normal ca eu și soția mea să dormim paturi separate?” „Își regretă oamenii tatuajele?”, „Ce înseamnă să mori din cauze naturale?”.
All of these questions are great, because they make you think about ways to find and communicate these numbers. If someone asks you, "How much pee is a lot of pee?" which is a question that I got asked, you really want to make sure that the visualization makes sense to as many people as possible. These numbers aren't unavailable. Sometimes they're just buried in the appendix of an academic study. And they're certainly not inscrutable; if you really wanted to test these numbers on urination volume, you could grab a bottle and try it for yourself.
Toate întrebările sunt grozave deoarece te fac să te gândești la moduri de a găsi și a comunica aceste numere. Dacă cineva vă întreabă „Cât pipi e mult pipi?”, am primit întrebarea asta, vreți să fiți siguri că vizualizarea are sens pentru cât mai mulți oameni. Acest numere sunt disponibile. Uneori sunt ascunse în apendicele unui studiu academic. Nu sunt enigmatice, dacă vreți să testați numerele pentru volumul urinei, puteți să luați o sticlă și să încercați.
(Laughter)
(Râsete)
The point of this isn't necessarily that every single data set has to relate specifically to you. I'm interested in how many women were issued fines in France for wearing the face veil, or the niqab, even if I don't live in France or wear the face veil. The point of asking where you fit in is to get as much context as possible. So it's about zooming out from one data point, like the unemployment rate is five percent, and seeing how it changes over time, or seeing how it changes by educational status -- this is why your parents always wanted you to go to college -- or seeing how it varies by gender. Nowadays, male unemployment rate is higher than the female unemployment rate. Up until the early '80s, it was the other way around. This is a story of one of the biggest changes that's happened in American society, and it's all there in that chart, once you look beyond the averages. The axes are everything; once you change the scale, you can change the story.
Ideea nu e neapărat ca fiecare set de date să aibă legătură cu tine. Mă interesează câte femei au fost amendate în Franța pentru că purtau vălul pe față, niqab, deși nu locuiesc în Franța și nu port niqab. Scopul de a întreba unde ți-e locul e să ai cât mai mult context, să privești de departe de la un punct la altul, de exemplu rata șomajului e de 5% și vezi cum se schimbă în timp, sau cum se schimbă în funcție de nivelul de educație — de-aia părinții voștri au vrut să mergeți la facultate — sau cum variază în funcție de gen. În prezent, rata de șomaj a bărbaților e mai mare decât cea a femeilor. Până la începutul anilor '80 era invers. Asta e o poveste despre una din cele mai mari schimbări în societatea americană și e toată în acel grafic, dacă priviți dincolo de medii. Axele sunt totul: dacă schimbi scala, schimbi povestea.
OK, so the third and final question that I want you guys to think about when you're looking at statistics is: How was the data collected? So far, I've only talked about the way data is communicated, but the way it's collected matters just as much. I know this is tough, because methodologies can be opaque and actually kind of boring, but there are some simple steps you can take to check this.
A treia și ultima întrebare la care vreau să vă gândiți când vedeți statistici: Cum au fost colectate datele? Până acum am vorbit doar despre cum sunt comunicate datele, dar colectarea contează la fel de mult. Știu că e greu, deoarece metodologiile pot fi opace și destul de plictisitoare, dar sunt niște pași simpli de a verifica asta.
I'll use one last example here. One poll found that 41 percent of Muslims in this country support jihad, which is obviously pretty scary, and it was reported everywhere in 2015. When I want to check a number like that, I'll start off by finding the original questionnaire. It turns out that journalists who reported on that statistic ignored a question lower down on the survey that asked respondents how they defined "jihad." And most of them defined it as, "Muslims' personal, peaceful struggle to be more religious." Only 16 percent defined it as, "violent holy war against unbelievers." This is the really important point: based on those numbers, it's totally possible that no one in the survey who defined it as violent holy war also said they support it. Those two groups might not overlap at all.
Vă dau un ultim exemplu. Un sondaj a arătat că 41% din musulmanii din această țară susțin jihadul, ceea ce e evident înfricoșător, și a fost raportat peste tot în 2015. Când vreau să verific un număr ca ăsta, încep cu căutarea chestionarului original. Se pare că jurnaliștii care au raportat acea statistică au ignorat întrebarea din josul chestionarului care întreba participanții cum definesc ei „jihad”. Majoritatea l-au definit ca „Efortul personal, pașnic al musulmanilor de a fi mai religioși.” Doar 16% l-au definit ca „război violent sfânt împotriva necredincioșilor”. Asta e ideea importantă: pe baza acestor numere e posibil ca niciun participant care a definit „război violent sfânt” să fi spus că îl și susține. Acele două grupuri poate nu se intersectează deloc.
It's also worth asking how the survey was carried out. This was something called an opt-in poll, which means anyone could have found it on the internet and completed it. There's no way of knowing if those people even identified as Muslim. And finally, there were 600 respondents in that poll. There are roughly three million Muslims in this country, according to Pew Research Center. That means the poll spoke to roughly one in every 5,000 Muslims in this country.
Trebuie să întrebăm și cum a fost condus studiul. Acesta a fost un sondaj la alegere, adică oricine îl putea găsi pe internet și completa. Nu putem ști dacă acei oameni chiar se considerau musulmani. La final, 600 de persoane au răspuns la sondaj. Sunt aproximativ trei milioane de musulmani în această țară, conform Pew Research Center. Astă înseamnă că sondajul a vorbit cu 1 din 5.000 de musulmani din această țară.
This is one of the reasons why government statistics are often better than private statistics. A poll might speak to a couple hundred people, maybe a thousand, or if you're L'Oreal, trying to sell skin care products in 2005, then you spoke to 48 women to claim that they work.
Acesta e unul din motivele pentru care statisticile guvernamentale sunt adesea mai bune decât cele private. Un sondaj poate avea câteva sute, poate o mie de intervievați sau dacă sunteți L'Oreal și încercați să vindeți cosmetice în 2005, vorbiți cu 48 de femei pentru a pretinde că produsele sunt bune.
(Laughter)
Private companies don't have a huge interest in getting the numbers right, they just need the right numbers. Government statisticians aren't like that. In theory, at least, they're totally impartial, not least because most of them do their jobs regardless of who's in power. They're civil servants. And to do their jobs properly, they don't just speak to a couple hundred people. Those unemployment numbers I keep on referencing come from the Bureau of Labor Statistics, and to make their estimates, they speak to over 140,000 businesses in this country.
Companiile private nu sunt foarte interesate să aibă numere corecte, le trebuie doar numerele bune. Statisticienii din guvern nu sunt așa. Cel puțin teoretic, sunt imparțiali, pentru că majoritatea își fac treaba indiferent de cine e la putere. Sunt funcționari publici. Ca să-și facă bine treaba, nu doar vorbesc cu sute de oameni. Numerele despre șomaj pe care le-am menționat provin de la Biroul de Statistici de Muncă și ca să le aproximeze vorbesc cu peste 140.000 de firme din țară.
I get it, it's frustrating. If you want to test a statistic that comes from a private company, you can buy the face cream for you and a bunch of friends, test it out, if it doesn't work, you can say the numbers were wrong. But how do you question government statistics? You just keep checking everything. Find out how they collected the numbers. Find out if you're seeing everything on the chart you need to see. But don't give up on the numbers altogether, because if you do, we'll be making public policy decisions in the dark, using nothing but private interests to guide us.
Știu, e frustrant. Dacă vreți să testați o statistică de la o companie privată, puteți cumpăra crema de față s-o încercați cu câțiva prieteni și dacă n-are efect, puteți spune că numerele sunt greșite. Dar cum inspectați statistici de la guvern? Verificați totul. Aflați cum au colectat datele. Aflați dacă vedeți în grafic tot ce trebuie văzut. Dar nu renunțați în fața numerelor, pentru că dacă renunțați vom lua decizii despre politici publice pe întuneric, ghidându-ne doar după interesele personale.
Thank you.
Mulțumesc.
(Applause)
(Aplauze)