Dnes budu mluvit o statistikách a pokud to ve vás vzbuzuje určité podezření, je to v pořádku. Neznamená to, že jste nějaký bláznivý konspirátor, pouze jste skeptičtí. A pokud jde o čísla, je nezbytné být skeptický. Ale také je nezbytné poznat, která čísla důvěryhodná jsou a která nejsou. Zkusím vám nabídnout některé nástroje, které vám to umožní. Ale než to udělám, chtěla bych vyjasnit, o jakých číslech vlastně budu mluvit. Nebudu rozebírat tvrzení jako: „9 z 10 žen doporučuje tento krém na vrásky,“ většina z nás u podobných tvrzení pouze otočí oči v sloup. Ale v současnosti lidé začínají zpochybňovat i statistiky jako: „Nezaměstnanost v USA je 5 %.“ Přitom tato tvrzení nejsou od soukromé společnosti, ale od vlády.
I'm going to be talking about statistics today. If that makes you immediately feel a little bit wary, that's OK, that doesn't make you some kind of crazy conspiracy theorist, it makes you skeptical. And when it comes to numbers, especially now, you should be skeptical. But you should also be able to tell which numbers are reliable and which ones aren't. So today I want to try to give you some tools to be able to do that. But before I do, I just want to clarify which numbers I'm talking about here. I'm not talking about claims like, "9 out of 10 women recommend this anti-aging cream." I think a lot of us always roll our eyes at numbers like that. What's different now is people are questioning statistics like, "The US unemployment rate is five percent." What makes this claim different is it doesn't come from a private company, it comes from the government.
4 z 10 Američanů nedůvěřují ekonomickým datům, zveřejněným americkou vládou. Mezi podporovateli prezidenta Trumpa je tento poměr ještě vyšší: 7 z 10. Nemusím zde nikomu říkat, že právě teď naši společnost rozděluje mnoho otázek, Některé z nich začnou dávat smysl, až když si uvědomíme vztah lidí k vládou poskytovaným informacím. Na jedné straně spektra jsou lidé, kteří tyto údaje považují za zásadní, tvrdí, že popisují společnost jako celek, že jdou dále než pouhá emoční sdělení a měří pokrok [objektivním] způsobem. A potom jsou tu lidé, kteří je považují za elitářské, možná dokonce zfalšované. Nedávají podle nich smysl a nereflektují, jak vypadá každodenní život běžného člověka.
About 4 out of 10 Americans distrust the economic data that gets reported by government. Among supporters of President Trump it's even higher; it's about 7 out of 10. I don't need to tell anyone here that there are a lot of dividing lines in our society right now, and a lot of them start to make sense, once you understand people's relationships with these government numbers. On the one hand, there are those who say these statistics are crucial, that we need them to make sense of society as a whole in order to move beyond emotional anecdotes and measure progress in an [objective] way. And then there are the others, who say that these statistics are elitist, maybe even rigged; they don't make sense and they don't really reflect what's happening in people's everyday lives.
Poslední dobou to vypadá, že ta druhá skupina hádku vyhrává. Žijeme ve světě alternativních faktů, kdy nejsou ověřené statistiky považovány za vhodný základ pro další debatu. A to je problém. Dokonce se nyní objevují návrhy aby se některé vládní statistiky přestaly vytvářet. V Kongresu se právě řeší měření rasové nerovnosti a návrh zákona říká, že státní peníze by se neměly využívat na sbírání dat o rasové segregaci. Což je naprostá katastrofa. Pokud nebudeme mít tato data, nebudeme schopni diskriminaci pozorovat, natož ji vyřešit. Jinými slovy: Jak by mohla vláda vytvářet spravedlivou politiku, pokud nebude měřit současnou míru nespravedlnosti? A nejde pouze o diskriminaci, jde o všechno - zamysleme se: jak můžeme vytvářet zákony o zdravotní péči, když nemáme data o zdraví a chudobě? Jak můžeme diskutovat o imigraci, když se neshodneme ani na tom, kolik lidí do naší země přichází a kolik ji opouští? Pojem ‚statistika‘ vychází ze slova ‚stát‘. Jejím účelem bylo lépe měřit obyvatelstvo země pro lepší rozhodování. Tato vládní čísla potřebujeme, ale musíme jít dál, než je pouze slepě přijímat, nebo slepě odmítat. Musíme se naučit poznávat špatné statistiky.
It kind of feels like that second group is winning the argument right now. We're living in a world of alternative facts, where people don't find statistics this kind of common ground, this starting point for debate. This is a problem. There are actually moves in the US right now to get rid of some government statistics altogether. Right now there's a bill in congress about measuring racial inequality. The draft law says that government money should not be used to collect data on racial segregation. This is a total disaster. If we don't have this data, how can we observe discrimination, let alone fix it? In other words: How can a government create fair policies if they can't measure current levels of unfairness? This isn't just about discrimination, it's everything -- think about it. How can we legislate on health care if we don't have good data on health or poverty? How can we have public debate about immigration if we can't at least agree on how many people are entering and leaving the country? Statistics come from the state; that's where they got their name. The point was to better measure the population in order to better serve it. So we need these government numbers, but we also have to move beyond either blindly accepting or blindly rejecting them. We need to learn the skills to be able to spot bad statistics.
Některé metody jsem se naučila, když jsem pracovala v oddělení statistiky, které je součástí OSN. Naše práce bylo zjistit, kolik Íráčanů bylo vyhnáno ze svých domovů vlivem války a co potřebovali. Byla to opravdu důležitá práce, ale bylo to neuvěřitelně obtížné. Každý den jsme činili rozhodnutí, která ovlivňovala přesnost našich výsledků - rozhodnutí typu: do jaké části země se vypravíme, s kým tam budeme mluvit a na co přesně se budeme ptát. Začala jsem se cítit naši prací rozčarovaná protože jsme byli přesvědčeni, že odvádíme skvělou práci, ale jediná skupina, která nám to mohla potvrdit, byli Íráčané, kteří se ovšem k našim analýzám stěží mohli dostat, natož vyjádřit. Dospěla jsem k přesvědčení, že jediná cesta, jak zpřesnit výsledky, je umožnit co největšímu počtu lidí se k nim vyjádřit.
I started to learn some of these when I was working in a statistical department that's part of the United Nations. Our job was to find out how many Iraqis had been forced from their homes as a result of the war, and what they needed. It was really important work, but it was also incredibly difficult. Every single day, we were making decisions that affected the accuracy of our numbers -- decisions like which parts of the country we should go to, who we should speak to, which questions we should ask. And I started to feel really disillusioned with our work, because we thought we were doing a really good job, but the one group of people who could really tell us were the Iraqis, and they rarely got the chance to find our analysis, let alone question it. So I started to feel really determined that the one way to make numbers more accurate is to have as many people as possible be able to question them.
Tak jsem se stala datovou novinářkou. Moje práce je hledat soubory dat a sdílet je s veřejností. Může to dělat úplně každý, nemusíte být geek nebo nerd. Ignorujte lidi, kteří tato slova používají, naznačujíc, že jsou chytří a předstírajíc, že jsou skromní. Může to dělat opravdu každý.
So I became a data journalist. My job is finding these data sets and sharing them with the public. Anyone can do this, you don't have to be a geek or a nerd. You can ignore those words; they're used by people trying to say they're smart while pretending they're humble. Absolutely anyone can do this.
Dám vám tři otázky, s jejichž pomocí poznáte špatné statistiky. První otázka zní: „Vidíte nejistotu?“ Jedna z věcí, které ovlivnily postoj a důvěru lidí vůči číslům, ale i vůči médiím celkově, byly předvolební průzkumy. Osobně s nimi mám závažný problém, protože jsem přesvědčena, že úloha novináře je informovat a nikoliv předpovídat. Zejména když ty předpovědi mohou ublížit demokracii naznačováním: „Nenamáhejte se ho volit,“ „nemá žádnou šanci.“ Ale odhlédněme od toho a podívejme se na přesnost podobných předpovědí.
I want to give you guys three questions that will help you be able to spot some bad statistics. So, question number one is: Can you see uncertainty? One of things that's really changed people's relationship with numbers, and even their trust in the media, has been the use of political polls. I personally have a lot of issues with political polls because I think the role of journalists is actually to report the facts and not attempt to predict them, especially when those predictions can actually damage democracy by signaling to people: don't bother to vote for that guy, he doesn't have a chance. Let's set that aside for now and talk about the accuracy of this endeavor.
Podle výsledků voleb v Británii, Itálii nebo Izraeli a pochopitelně nedávných prezidentských v Americe to vypadá, že předvídat výsledek podle průzkumů je asi tak přesné jako používat Měsíc pro předpovídání zdravotních poplatků. Opravdu to tak je, mám aktuální data z akademických studií. Je mnoho důvodů, proč jsou předvolební průzkumy tak nepřesné. Naše společnosti jsou opravdu rozmanité. což ztěžuje nalezení pěkného reprezentativního vzorku populace pro jejich průzkumy. Lidé nejsou příliš ochotni odpovídat na telefonické průzkumy a také, překvapivě, lidé mohou lhát. Což se ale z článku v médiích nedozvíte. Jednak se pravděpodobnost vítězství Hillary Clinton udávala s přesností na desetinná místa. Takhle přesně nepopisujeme ani teplotu. Jak bychom tedy mohli odhadovat rozhodnutí 230 milionů voličů s takovou přesností? A potom tu byly ty elegantní grafy. Mnohé vizualizace dat pro nás totiž nadhodnocují jejich pravdivost a otupují pochybnosti našeho mozku. Když o statistice jen slyšíte, snadno ji můžete zpochybnit. Ale když jsou data v podobě grafu, hned působí objektivní věda, ale tak to není.
Based on national elections in the UK, Italy, Israel and of course, the most recent US presidential election, using polls to predict electoral outcomes is about as accurate as using the moon to predict hospital admissions. No, seriously, I used actual data from an academic study to draw this. There are a lot of reasons why polling has become so inaccurate. Our societies have become really diverse, which makes it difficult for pollsters to get a really nice representative sample of the population for their polls. People are really reluctant to answer their phones to pollsters, and also, shockingly enough, people might lie. But you wouldn't necessarily know that to look at the media. For one thing, the probability of a Hillary Clinton win was communicated with decimal places. We don't use decimal places to describe the temperature. How on earth can predicting the behavior of 230 million voters in this country be that precise? And then there were those sleek charts. See, a lot of data visualizations will overstate certainty, and it works -- these charts can numb our brains to criticism. When you hear a statistic, you might feel skeptical. As soon as it's buried in a chart, it feels like some kind of objective science, and it's not.
Hledala jsem cestu, jak čísla lidem lépe zprostředkovat, abych ukázala nejistotu, která se za našimi čísly skrývá. Takže jsem začala brát skutečné sady dat a dělat z nich ručně kreslené vizualizace, aby lidé viděli, jak nedokonalá ta data skutečně jsou. Aby bylo na první pohled vidět, že to dělali lidé, že člověk vzal data a znázornil je. Například místo grafu pravděpodobnosti v jakém měsíci chytíte chřipku, můžete vidět tuto vizualizaci chřipkové sezóny. Je to...
So I was trying to find ways to better communicate this to people, to show people the uncertainty in our numbers. What I did was I started taking real data sets, and turning them into hand-drawn visualizations, so that people can see how imprecise the data is; so people can see that a human did this, a human found the data and visualized it. For example, instead of finding out the probability of getting the flu in any given month, you can see the rough distribution of flu season. This is --
(smích)
(Laughter)
špatný obrázek pro únorovou prezentaci. Ale je to mnohem zodpovědnější vizualizace dat, protože zobrazení přesných pravděpodobností by mohlo povzbudit lidi, k onemoněcní chřipkou ve špatné době.
a bad shot to show in February. But it's also more responsible data visualization, because if you were to show the exact probabilities, maybe that would encourage people to get their flu jabs at the wrong time.
Cílem těchto otřesných čar je, aby si lidé uvědomili tyto nepřesnosti ale také si neodnesli úplně přesná čísla, spíše si zapamatovali důležité trendy a fakta. Fakta jako nespravedlnost a nerovnost mají obrovské dopady na naše životy. Například, Afroameričané a domorodí Američané se dožívají nižšího věku než ostatní rasy a že se to v nejbližší době nezmění Fakta o vězeňských celách, které jsou menší než průměrné parkovací místo.
The point of these shaky lines is so that people remember these imprecisions, but also so they don't necessarily walk away with a specific number, but they can remember important facts. Facts like injustice and inequality leave a huge mark on our lives. Facts like Black Americans and Native Americans have shorter life expectancies than those of other races, and that isn't changing anytime soon. Facts like prisoners in the US can be kept in solitary confinement cells that are smaller than the size of an average parking space.
Další cíl těchto vizualizací je připomenout lidem některé důležité statistické koncepty, jako je například průměrování. Vezměme si například toto tvrzení: „Průměrně postihne plavecký bazén v USA 6,23 fekálních nehod.“ To neznamená, že každý plavecký bazén v naší zemi obsahuje přesně 6,23 výkalů. Abych to znázornila, našla jsem si původní data od CDC, kteří zkoumali 47 plaveckých zařízení a jeden večer jsem věnovala rozložení hovínek. Zde vidíte, jak zavádějící může být zprůměrování.
The point of these visualizations is also to remind people of some really important statistical concepts, concepts like averages. So let's say you hear a claim like, "The average swimming pool in the US contains 6.23 fecal accidents." That doesn't mean every single swimming pool in the country contains exactly 6.23 turds. So in order to show that, I went back to the original data, which comes from the CDC, who surveyed 47 swimming facilities. And I just spent one evening redistributing poop. So you can kind of see how misleading averages can be.
(smích)
(Laughter)
Dobře, druhá otázka, kterou si můžete položit pro rozpoznání špatných statistik: „Najdu se v těch datech?“ Tato otázka se také týká průměrů, protože jedním z důvodů, proč lidi státní statistiky tak moc frustrují, protože neuvádějí, komu vládní politika pomáhá a komu naopak škodí. Takže je snadné pochopit, proč lidem tyto průměry vadí, když vůbec neodpovídají jejich osobním zkušenostem. Chtěla jsem lidem ukázat, jak data souvisí s jejich životem. Založila jsem sloupek: „Drahá Mono,“ kam mi lidé mohli psát své dotazy a starosti a já se jim snažila odpovědět pomocí dat. Lidé se ptali na všechno: „Je normální mít s manželkou oddělené ložnice?“ „Litují lidé svých tetování?“ „Co přesně znamená umřít přirozenou smrtí?“
OK, so the second question that you guys should be asking yourselves to spot bad numbers is: Can I see myself in the data? This question is also about averages in a way, because part of the reason why people are so frustrated with these national statistics, is they don't really tell the story of who's winning and who's losing from national policy. It's easy to understand why people are frustrated with global averages when they don't match up with their personal experiences. I wanted to show people the way data relates to their everyday lives. I started this advice column called "Dear Mona," where people would write to me with questions and concerns and I'd try to answer them with data. People asked me anything. questions like, "Is it normal to sleep in a separate bed to my wife?" "Do people regret their tattoos?" "What does it mean to die of natural causes?"
Takové otázky jsou skvělé, protože vás přinutí se zamyslet, jak tato čísla najít a ukázat. Když se vás někdo zeptá: „Kolik čurání je hodně čurání?“ což byla jedna z položených otázek, opravdu si chcete být jistí, že bude zobrazení dávat smysl co nejvíce lidem je možné. Podobná čísla nejsou nepřístupná. Jen jsou často pohřbena v přílohách akademických studií. A určitě nejsou neuchopitelná. Pokud chcete otestovat kolik toho zvládnete vymočit, můžete vzít láhev a vyzkoušet si to sami.
All of these questions are great, because they make you think about ways to find and communicate these numbers. If someone asks you, "How much pee is a lot of pee?" which is a question that I got asked, you really want to make sure that the visualization makes sense to as many people as possible. These numbers aren't unavailable. Sometimes they're just buried in the appendix of an academic study. And they're certainly not inscrutable; if you really wanted to test these numbers on urination volume, you could grab a bottle and try it for yourself.
(smích)
(Laughter)
Není nezbytně nutné, aby se každá sada dat týkala přímo vás. Zkoumala jsem, kolik žen ve Francii dostalo pokutu za zahalení tváře nebo nošení nikábu, i když ve Francii nežiji, ani si nezahaluji tvář. Otázka, jestli do dat zapadám, je zejména o uvědomění si souvislostí. Je to o odhlédnutí od jediného údaje, třeba od pětiprocentní nezaměstnanosti, ale vidět, jak se vyvíjela v čase, jak se liší podle dosaženého vzdělání - - což je důvod, proč vaši rodiče chtěli, abyste šli na univerzitu - - nebo jak se liší podle pohlaví. Dnes je mužská nezaměstnanost vyšší než nezaměstnanost ženská. Až do počátku 80. let to bylo naopak. Tohle je jedna z největších změn, která se udála v americké společnosti vidíte ji v tomto grafu, pokud se podíváte dál než jen na průměry. Osy jsou vše: když změníte měřítko, můžete změnit význam.
The point of this isn't necessarily that every single data set has to relate specifically to you. I'm interested in how many women were issued fines in France for wearing the face veil, or the niqab, even if I don't live in France or wear the face veil. The point of asking where you fit in is to get as much context as possible. So it's about zooming out from one data point, like the unemployment rate is five percent, and seeing how it changes over time, or seeing how it changes by educational status -- this is why your parents always wanted you to go to college -- or seeing how it varies by gender. Nowadays, male unemployment rate is higher than the female unemployment rate. Up until the early '80s, it was the other way around. This is a story of one of the biggest changes that's happened in American society, and it's all there in that chart, once you look beyond the averages. The axes are everything; once you change the scale, you can change the story.
Třetí a poslední otázka, kterou vám chci nabídnout k přemýšlení když se díváte na statistiky: „Jak byla data sesbírána?“ Zatím jsem mluvila pouze o tom, jak jsou data zveřejněna, ale způsob sbírání je stejně důležitý. Vím, že je to těžké, protože metodika může být nepřístupná a velmi nudná, ale je pár jednoduchých kroků, jak to ověřit.
OK, so the third and final question that I want you guys to think about when you're looking at statistics is: How was the data collected? So far, I've only talked about the way data is communicated, but the way it's collected matters just as much. I know this is tough, because methodologies can be opaque and actually kind of boring, but there are some simple steps you can take to check this.
Použiji ještě jeden příklad. Jeden průzkum zjistil, že 41 % amerických muslimů podporuje džihád, což je pochopitelně dost děsivé a bylo to v roce 2015 často zmiňováno. Když jsem chtěla tato čísla ověřit, našla jsem si původní dotazník. Ukázalo se, že novináři, kteří o tomto výzkumu psali, ignorovali otázku položenou níže v dotazníku která se ptala respondentů, jak definují džihád. Většina z nich odpověděla: „Osobní, mírumilovné úsilí být více věřící.“ Pouze 16 % jej definovalo jako ‚násilnou svatou válku proti nevěřícím‘. A tohle je velice důležité: Podle těchto čísel je totiž možné že není nikdo, kdo jej považuje za násilnou svatou válku a zároveň džihád podporuje. Tyto dvě skupiny se vůbec nemusí překrývat.
I'll use one last example here. One poll found that 41 percent of Muslims in this country support jihad, which is obviously pretty scary, and it was reported everywhere in 2015. When I want to check a number like that, I'll start off by finding the original questionnaire. It turns out that journalists who reported on that statistic ignored a question lower down on the survey that asked respondents how they defined "jihad." And most of them defined it as, "Muslims' personal, peaceful struggle to be more religious." Only 16 percent defined it as, "violent holy war against unbelievers." This is the really important point: based on those numbers, it's totally possible that no one in the survey who defined it as violent holy war also said they support it. Those two groups might not overlap at all.
Také stojí za to zjistit, jak výzkum probíhal. Šlo o takzvanou zaškrtávací anketu, což znamená, že ji každý mohl najít na internetu a vyplnit. Neexistuje způsob, jak ověřit, že se skutečně jedná o muslimy. A nakonec, celkový vzorek tvořilo 600 respondentů. V USA žijí podle Pew Research Center přibližně 3 miliony muslimů. To znamená, že anketa vyjadřovala názor přibližně 1 z každých 5000 muslimů v této zemi.
It's also worth asking how the survey was carried out. This was something called an opt-in poll, which means anyone could have found it on the internet and completed it. There's no way of knowing if those people even identified as Muslim. And finally, there were 600 respondents in that poll. There are roughly three million Muslims in this country, according to Pew Research Center. That means the poll spoke to roughly one in every 5,000 Muslims in this country.
To je jeden z důvodů, proč jsou vládní statistiky lepší než soukromé. Ankety vyjadřují názor stovek, možná tisíců lidí, ne jako když L'Oreal chtěl v roce 2005 prodávat kosmetiku a pro prohlášení, že funguje, vyzpovídal jen 48 žen.
This is one of the reasons why government statistics are often better than private statistics. A poll might speak to a couple hundred people, maybe a thousand, or if you're L'Oreal, trying to sell skin care products in 2005, then you spoke to 48 women to claim that they work.
(smích)
(Laughter)
Není v zájmu soukromých společností mít co nejpřesnější čísla, stačí jim mít čísla pro ně výhodná. Vládní statistici jsou naprosto odlišní. Minimálně teoreticky jsou naprosto nestranní, přinejmenším protože dělají pracují nezávisle na tom, kdo je právě u moci. Jsou státními úředníky. Aby dělali svoji práci správně, nestačí jim pouze mluvit se stovkami lidí. Například mnou zmiňované údaje o nezaměstnanosti jsou od Statistického úřadu práce a aby mohli provést svůj odhad, komunikují s více než 140 000 podniky v celé zemi.
Private companies don't have a huge interest in getting the numbers right, they just need the right numbers. Government statisticians aren't like that. In theory, at least, they're totally impartial, not least because most of them do their jobs regardless of who's in power. They're civil servants. And to do their jobs properly, they don't just speak to a couple hundred people. Those unemployment numbers I keep on referencing come from the Bureau of Labor Statistics, and to make their estimates, they speak to over 140,000 businesses in this country.
Chápu, může to být frustrující. Pokud chcete ověřit statistiky soukromé společnosti, můžete si koupit krém na pleť a s několika kamarádkami ho vyzkoušet, když nefunguje, víte, že čísla nesedí. Ale jak ověřovat vládní statistiky? Některé věci ověřovat musíme. Zkoumat, jak sesbírali data. Ujistit se, že je v grafech všechno, co tam má být. Rozhodně ale nesmíte statistikám přestat věřit, jinak budeme veřejné problémy rozhodovat ve tmě, vedeni jen našimi osobními zájmy.
I get it, it's frustrating. If you want to test a statistic that comes from a private company, you can buy the face cream for you and a bunch of friends, test it out, if it doesn't work, you can say the numbers were wrong. But how do you question government statistics? You just keep checking everything. Find out how they collected the numbers. Find out if you're seeing everything on the chart you need to see. But don't give up on the numbers altogether, because if you do, we'll be making public policy decisions in the dark, using nothing but private interests to guide us.
Děkuji vám.
Thank you.
(potlesk)
(Applause)