I'm going to be talking about statistics today. If that makes you immediately feel a little bit wary, that's OK, that doesn't make you some kind of crazy conspiracy theorist, it makes you skeptical. And when it comes to numbers, especially now, you should be skeptical. But you should also be able to tell which numbers are reliable and which ones aren't. So today I want to try to give you some tools to be able to do that. But before I do, I just want to clarify which numbers I'm talking about here. I'm not talking about claims like, "9 out of 10 women recommend this anti-aging cream." I think a lot of us always roll our eyes at numbers like that. What's different now is people are questioning statistics like, "The US unemployment rate is five percent." What makes this claim different is it doesn't come from a private company, it comes from the government.
Aujourd'hui, je vais vous parler de statistiques. Si cela vous rend tout de suite méfiant, c'est bien, ça ne fait pas de vous une sorte de fou conspirationniste, mais quelqu'un de sceptique. Et en matière de chiffres, surtout maintenant, vous devriez être sceptique. Mais vous devez aussi pouvoir distinguer les chiffres fiables et ceux qui ne le sont pas. Donc, je veux essayer de vous donner quelques outils pour le faire. Mais avant de commencer, je veux préciser les chiffres dont je parle ici. Pas d'affirmations comme : « 90% des femmes conseillent cette crème anti-âge ». On est nombreux à lever les yeux au ciel avec ces chiffres. La nouveauté, c'est que les gens doutent de statistiques comme : « Le taux de chômage américain est de 5% ». Cette affirmation est différente, elle ne vient pas d'une société privée, elle vient du gouvernement.
About 4 out of 10 Americans distrust the economic data that gets reported by government. Among supporters of President Trump it's even higher; it's about 7 out of 10. I don't need to tell anyone here that there are a lot of dividing lines in our society right now, and a lot of them start to make sense, once you understand people's relationships with these government numbers. On the one hand, there are those who say these statistics are crucial, that we need them to make sense of society as a whole in order to move beyond emotional anecdotes and measure progress in an [objective] way. And then there are the others, who say that these statistics are elitist, maybe even rigged; they don't make sense and they don't really reflect what's happening in people's everyday lives.
4 Américains sur 10 ne font pas confiance aux données économiques fournies par le gouvernement. Pour les partisans du président Trump, c'est même plus, ils sont à peu près 7 sur 10. Je n'ai pas besoin de vous le dire, il y a de nombreuses divisions dans notre société actuelle et elles commencent à prendre sens quand on comprend les rapports des gens à ces données gouvernementales. D'un côté, il y a ceux qui disent qu'elles sont essentielles pour appréhender la société dans son ensemble, pour dépasser les anecdotes émouvantes et mesurer le progrès de façon subjective. Et il y a les autres qui disent ces statistiques élitistes, peut-être trafiquées ; elles n'ont pas de sens et ne montrent pas vraiment ce qui arrive dans la vie quotidienne des gens.
It kind of feels like that second group is winning the argument right now. We're living in a world of alternative facts, where people don't find statistics this kind of common ground, this starting point for debate. This is a problem. There are actually moves in the US right now to get rid of some government statistics altogether. Right now there's a bill in congress about measuring racial inequality. The draft law says that government money should not be used to collect data on racial segregation. This is a total disaster. If we don't have this data, how can we observe discrimination, let alone fix it? In other words: How can a government create fair policies if they can't measure current levels of unfairness? This isn't just about discrimination, it's everything -- think about it. How can we legislate on health care if we don't have good data on health or poverty? How can we have public debate about immigration if we can't at least agree on how many people are entering and leaving the country? Statistics come from the state; that's where they got their name. The point was to better measure the population in order to better serve it. So we need these government numbers, but we also have to move beyond either blindly accepting or blindly rejecting them. We need to learn the skills to be able to spot bad statistics.
Il semblerait que ce second groupe gagne dans le débat aujourd'hui. Nous vivons entourés de faits alternatifs, où l'on ne trouve pas dans les chiffres un terrain d'entente, ce point de départ du débat. C'est un problème. Il y a de vrais mouvements aux États-Unis pour se passer entièrement des statistiques gouvernementales. Une loi est présentée au Congrès sur la mesure des inégalités raciales. Pour le projet de loi, l'argent public ne saurait servir à collecter des données sur ce sujet. C'est une véritable catastrophe. Si nous n'avons pas ces données, comment observer la discrimination et a fortiori la réduire ? En d'autres mots : comment créer des politiques équitables sans mesurer les niveaux d'injustice actuels ? Ce n'est pas que la discrimination, ça touche tout -- pensez-y. Comment légiférer sur la santé sans données précises sur la santé, la pauvreté ? Comment mener un débat sur l'immigration sans s'accorder au moins sur le nombre de gens entrant et sortant du pays ? Les statistiques viennent de l'État ; c'est leur étymologie. Le but en était de mieux mesurer la population pour mieux la servir. Il nous faut ces chiffres publics, il nous faut aussi dépasser leur acceptation aveugle ou leur rejet aveugle. Nous devons apprendre à détecter les mauvaises statistiques.
I started to learn some of these when I was working in a statistical department that's part of the United Nations. Our job was to find out how many Iraqis had been forced from their homes as a result of the war, and what they needed. It was really important work, but it was also incredibly difficult. Every single day, we were making decisions that affected the accuracy of our numbers -- decisions like which parts of the country we should go to, who we should speak to, which questions we should ask. And I started to feel really disillusioned with our work, because we thought we were doing a really good job, but the one group of people who could really tell us were the Iraqis, and they rarely got the chance to find our analysis, let alone question it. So I started to feel really determined that the one way to make numbers more accurate is to have as many people as possible be able to question them.
J'ai appris cela en travaillant dans un service statistique des Nations-Unies. Notre boulot : savoir combien d'Irakiens avaient dû fuir leurs domiciles du fait de la guerre, connaître leurs besoins. C'était un travail important, mais aussi incroyablement difficile. Chaque jour, nous prenions des décisions affectant la précision de nos chiffres -- des décisions comme les régions du pays où nous rendre, nos interlocuteurs, les questions à poser. J'ai commencé à être vraiment déçue par notre travail parce que nous faisions un vraiment bon boulot, mais les seules personnes pouvant nous le dire étaient les Irakiens. Ils trouvaient rarement nos analyses, les critiquaient encore moins. Je me sentais donc vraiment convaincue qu'un moyen de rendre ces chiffres plus fiables est de permettre au plus grand nombre possible de les critiquer.
So I became a data journalist. My job is finding these data sets and sharing them with the public. Anyone can do this, you don't have to be a geek or a nerd. You can ignore those words; they're used by people trying to say they're smart while pretending they're humble. Absolutely anyone can do this.
Journaliste de données, mon travail consiste à trouver ces données et à les partager avec le public. Tout le monde peut le faire, sans être un geek ou un binoclard. Ignorez ces mots : ils sont utilisés par des gens tentant de dire leur intelligence en prétendant être humbles. Tout le monde peut le faire.
I want to give you guys three questions that will help you be able to spot some bad statistics. So, question number one is: Can you see uncertainty? One of things that's really changed people's relationship with numbers, and even their trust in the media, has been the use of political polls. I personally have a lot of issues with political polls because I think the role of journalists is actually to report the facts and not attempt to predict them, especially when those predictions can actually damage democracy by signaling to people: don't bother to vote for that guy, he doesn't have a chance. Let's set that aside for now and talk about the accuracy of this endeavor.
Je vais vous présenter trois questions qui vont vous aider à repérer quelques mauvaises statistiques. Donc, la question numéro un est : pouvez-vous voir une incertitude ? Une des choses ayant vraiment modifié la relation des gens aux nombres, leur confiance dans les médias, a été l'utilisation des sondages politiques. J'ai des problèmes avec les sondages politiques parce que le rôle des journalistes est de rapporter des faits, pas d'essayer de les prédire, surtout quand ces prédictions peuvent endommager la démocratie en disant : ne vous embêtez pas à voter pour ce type, il n'a aucune chance. Laissons ce point pour l'instant, parlons de la justesse de cette activité.
Based on national elections in the UK, Italy, Israel and of course, the most recent US presidential election, using polls to predict electoral outcomes is about as accurate as using the moon to predict hospital admissions. No, seriously, I used actual data from an academic study to draw this. There are a lot of reasons why polling has become so inaccurate. Our societies have become really diverse, which makes it difficult for pollsters to get a really nice representative sample of the population for their polls. People are really reluctant to answer their phones to pollsters, and also, shockingly enough, people might lie. But you wouldn't necessarily know that to look at the media. For one thing, the probability of a Hillary Clinton win was communicated with decimal places. We don't use decimal places to describe the temperature. How on earth can predicting the behavior of 230 million voters in this country be that precise? And then there were those sleek charts. See, a lot of data visualizations will overstate certainty, and it works -- these charts can numb our brains to criticism. When you hear a statistic, you might feel skeptical. As soon as it's buried in a chart, it feels like some kind of objective science, and it's not.
En se basant sur les élections nationales au Royaume Uni, en Italie, en Israël et bien sûr, les récentes présidentielles américaines, prévoir les résultats par des sondages est aussi utile que d'interroger la lune pour prédire les admissions à l'hôpital. Sérieusement, j'ai utilisé les données d'une étude universitaire pour faire ça. Les sondages sont devenus si inexacts pour de nombreuses raisons. Nos sociétés sont devenues diverses, cela rend difficile pour les sondeurs d'obtenir d'un échantillon représentatif de la population. Les gens sont vraiment réticents à répondre aux sondeurs et fait choquant : ils peuvent mentir. Mais vous ne le sauriez pas forcément en suivant les médias. D'une part, la probabilité d'une victoire de Clinton a été présentée à la décimale près. On n'utilise pas les décimales pour les températures. Comment prédire le comportement de 230 millions d'électeurs dans ce pays avec cette précision ? Et il y avait aussi ces beaux graphiques. Beaucoup de visualisations des données surestiment la certitude et ça marche -- ces graphiques peuvent engourdir notre esprit critique. En entendant un chiffre, vous devez être sceptique. Traduit dans un graphique, il semble être une science objective et il ne l'est pas.
So I was trying to find ways to better communicate this to people, to show people the uncertainty in our numbers. What I did was I started taking real data sets, and turning them into hand-drawn visualizations, so that people can see how imprecise the data is; so people can see that a human did this, a human found the data and visualized it. For example, instead of finding out the probability of getting the flu in any given month, you can see the rough distribution of flu season. This is --
Je cherchais des moyens pour mieux communiquer ça aux gens, leur montrer l'incertitude des chiffres. J'ai commencé par prendre de vraies données, à les transcrire en graphiques dessinés à la main, pour que les gens voient l'imprécision des données ; pour qu'ils voient qu'un humain a fait ça, qu'il a trouvé et présenté des données. Par exemple, plutôt que de trouver la probabilité d'attraper la grippe pour chaque mois donné, vous voyiez la distribution des saisons de la grippe. C'est --
(Laughter)
(Rires)
a bad shot to show in February. But it's also more responsible data visualization, because if you were to show the exact probabilities, maybe that would encourage people to get their flu jabs at the wrong time.
à ne pas présenter en février. C'est aussi une présentation plus responsable, parce que si l'on montrait les probabilités exactes, cela encouragerait peut-être les gens à se vacciner au mauvais moment.
The point of these shaky lines is so that people remember these imprecisions, but also so they don't necessarily walk away with a specific number, but they can remember important facts. Facts like injustice and inequality leave a huge mark on our lives. Facts like Black Americans and Native Americans have shorter life expectancies than those of other races, and that isn't changing anytime soon. Facts like prisoners in the US can be kept in solitary confinement cells that are smaller than the size of an average parking space.
Le but de ces lignes tremblantes est que les gens se souviennent de ces imprécisions, mais aussi qu'ils ne retiennent pas un chiffre spécifique, qu'ils retiennent les faits importants. Que l'injustice et les inégalités marquent fortement notre vie. Des faits comme l'espérance de vie réduite des Afro-Américains et des Indiens par rapport aux autres races et que ce n'est pas près de changer. Qu'aux États-Unis les prisonniers peuvent être dans des cellules de confinement plus petites que la taille moyenne d'un emplacement de parking.
The point of these visualizations is also to remind people of some really important statistical concepts, concepts like averages. So let's say you hear a claim like, "The average swimming pool in the US contains 6.23 fecal accidents." That doesn't mean every single swimming pool in the country contains exactly 6.23 turds. So in order to show that, I went back to the original data, which comes from the CDC, who surveyed 47 swimming facilities. And I just spent one evening redistributing poop. So you can kind of see how misleading averages can be.
Le but de ces visualisations est aussi de rappeler aux gens quelques principes statistiques importants, des concepts comme les moyennes. Disons que vous entendiez : « La piscine moyenne aux États-Unis contient 6,23 accidents fécaux. » Ça ne veut pas dire que chaque piscine dans le pays contient exactement 6,23 crottes. Donc, pour le montrer, je suis revenue aux données originales, fournies par le CDC, qui a étudié 47 piscines. J'ai passé une soirée à redistribuer les crottes. que vous voyiez combien les moyennes sont trompeuses.
(Laughter)
(Rires)
OK, so the second question that you guys should be asking yourselves to spot bad numbers is: Can I see myself in the data? This question is also about averages in a way, because part of the reason why people are so frustrated with these national statistics, is they don't really tell the story of who's winning and who's losing from national policy. It's easy to understand why people are frustrated with global averages when they don't match up with their personal experiences. I wanted to show people the way data relates to their everyday lives. I started this advice column called "Dear Mona," where people would write to me with questions and concerns and I'd try to answer them with data. People asked me anything. questions like, "Is it normal to sleep in a separate bed to my wife?" "Do people regret their tattoos?" "What does it mean to die of natural causes?"
Bien, donc la seconde question que vous devez vous poser pour les mauvais chiffres : puis-je me retrouver dans ces données ? Cette question est aussi en relation avec les moyennes, la frustration des gens face à ces statistiques nationales vient en partie du fait qu'elles ne disent pas vraiment qui gagne et qui perd avec ces politiques. Il est facile de comprendre pourquoi les moyennes les frustrent si elles ne collent pas à leur expérience personnelle. Je voulais montrer comment les données sont liées à leur vie. J'ai commencé cette chronique « Chère Mona, » dans laquelle ils me posent des questions, des craintes et je réponds avec des données. On me demande tout : « Est-il normal de dormir dans un lit séparé de ma femme ? », « Regrette-t-on les tatouages ? », « Qu'est-ce que mourir de cause naturelle ? »
All of these questions are great, because they make you think about ways to find and communicate these numbers. If someone asks you, "How much pee is a lot of pee?" which is a question that I got asked, you really want to make sure that the visualization makes sense to as many people as possible. These numbers aren't unavailable. Sometimes they're just buried in the appendix of an academic study. And they're certainly not inscrutable; if you really wanted to test these numbers on urination volume, you could grab a bottle and try it for yourself.
Toutes ces questions sont bonnes, parce qu'elles font penser au moyen de trouver et communiquer ces chiffres. Pour « Quel volume d'urine fait beaucoup d'urine ? » une question que l'on m'a posée, vous voulez vraiment être sûr que la visualisation ait du sens pour le plus grand nombre de gens. Ces chiffres sont disponibles. Ils sont parfois enterrés dans les annexes d'une étude universitaire. Et ne sont pas impénétrables ; pour vraiment tester ces chiffres sur les volumes d'urine, vous prenez une bouteille et essayez vous-même.
(Laughter)
(Rires)
The point of this isn't necessarily that every single data set has to relate specifically to you. I'm interested in how many women were issued fines in France for wearing the face veil, or the niqab, even if I don't live in France or wear the face veil. The point of asking where you fit in is to get as much context as possible. So it's about zooming out from one data point, like the unemployment rate is five percent, and seeing how it changes over time, or seeing how it changes by educational status -- this is why your parents always wanted you to go to college -- or seeing how it varies by gender. Nowadays, male unemployment rate is higher than the female unemployment rate. Up until the early '80s, it was the other way around. This is a story of one of the biggest changes that's happened in American society, and it's all there in that chart, once you look beyond the averages. The axes are everything; once you change the scale, you can change the story.
Le but n'est pas nécessairement que chaque groupe de données ait un lien précis avec vous. Je m'intéresse au nombre de femmes verbalisées en France pour le port du voile, ou du niqab, même sans vivre en France, sans porter de voile. En déterminant sa place, le but est d'avoir le plus de contexte possible. C'est de s'éloigner d'un point de données, comme le taux de chômage de 5%, de voir son évolution dans le temps ou de voir son évolution selon les niveaux d'études -- ce pourquoi on a toujours insisté pour que vous alliez à la fac-- ou de voir comment il varie avec le genre. Le taux de chômage des hommes est plus élevé que celui des femmes. Jusqu'au début des années 80, c'était le contraire. C'est un des plus grands changements dans la société américaine, elle est dans ce graphique, une fois que vous dépassez les moyennes. Les axes sont tout ; en changeant l'échelle, vous pouvez changer le sens.
OK, so the third and final question that I want you guys to think about when you're looking at statistics is: How was the data collected? So far, I've only talked about the way data is communicated, but the way it's collected matters just as much. I know this is tough, because methodologies can be opaque and actually kind of boring, but there are some simple steps you can take to check this.
La troisième et dernière question à laquelle je veux que vous pensiez en regardant des statistiques est : comment sont collectées les données ? Jusqu'ici, je n'ai parlé que de leur communication, la question de la collecte est aussi importante. Je sais que c'est dur, les méthodologies peuvent être opaques et vraiment ennuyeuses, mais il y a quelques étapes simples que vous pouvez suivre.
I'll use one last example here. One poll found that 41 percent of Muslims in this country support jihad, which is obviously pretty scary, and it was reported everywhere in 2015. When I want to check a number like that, I'll start off by finding the original questionnaire. It turns out that journalists who reported on that statistic ignored a question lower down on the survey that asked respondents how they defined "jihad." And most of them defined it as, "Muslims' personal, peaceful struggle to be more religious." Only 16 percent defined it as, "violent holy war against unbelievers." This is the really important point: based on those numbers, it's totally possible that no one in the survey who defined it as violent holy war also said they support it. Those two groups might not overlap at all.
J'utiliserai ici un dernier exemple. Un sondage a trouvé que 41% des musulmans de ce pays soutiennent le djihad, ce qui est assez effrayant et il a été repris partout en 2015. Quand je veux vérifier un tel chiffre, je commence par trouver le questionnaire original. Il se trouve que les journalistes ayant présenté ce chiffre ont ignoré un item en aval dans le questionnaire demandant aux sondés leur définition du « djihad ». La majorité parmi eux l'a défini comme : « La lutte pacifique personnelle des musulmans pour être plus religieux. » Seuls 16% ont parlé d' « une guerre sainte violente contre les incroyants ». C'est le point vraiment important : avec ces chiffres, il est très possible qu'aucun sondé l'ayant défini comme une guerre sainte violente ait aussi dit l'encourager. Ces deux groupes peuvent être différents.
It's also worth asking how the survey was carried out. This was something called an opt-in poll, which means anyone could have found it on the internet and completed it. There's no way of knowing if those people even identified as Muslim. And finally, there were 600 respondents in that poll. There are roughly three million Muslims in this country, according to Pew Research Center. That means the poll spoke to roughly one in every 5,000 Muslims in this country.
Il est bon de se demander comment l'étude a été menée. C'est un sondage à consentement préalable, ce qui veut dire que chacun pouvait le trouver sur Internet, y répondre. On ne peut pas savoir si les sondés s'identifient comme musulmans. Finalement, il y a eu 600 répondants pour ce sondage. Il y a près de 3 millions de musulmans dans ce pays, selon le Pew Research Center. Ce sondage parlait d'à peu près un musulman sur 5 000 dans ce pays.
This is one of the reasons why government statistics are often better than private statistics. A poll might speak to a couple hundred people, maybe a thousand, or if you're L'Oreal, trying to sell skin care products in 2005, then you spoke to 48 women to claim that they work.
C'est l'une des raisons pour lesquelles les statistiques publiques sont souvent meilleures que les privées. Un sondage peut interroger quelques centaines ou mille personnes ou si vous êtes Loréal, tentant de vendre des produits de beauté, vous prenez 48 femmes pour affirmer que ça marche.
(Laughter)
(Rires)
Private companies don't have a huge interest in getting the numbers right, they just need the right numbers. Government statisticians aren't like that. In theory, at least, they're totally impartial, not least because most of them do their jobs regardless of who's in power. They're civil servants. And to do their jobs properly, they don't just speak to a couple hundred people. Those unemployment numbers I keep on referencing come from the Bureau of Labor Statistics, and to make their estimates, they speak to over 140,000 businesses in this country.
Les entreprises privées n'ont pas intérêt à obtenir des chiffres fiables, il leur faut des bons chiffres. Les statisticiens publics sont différents. En théorie au moins, ils sont totalement impartiaux, ne fût-ce parce qu'ils font leur boulot indépendamment du pouvoir. Ils sont fonctionnaires. Pour bien faire leur travail, ils n'interrogent pas 200 personnes. Ces chiffres de l'emploi que j'utilise viennent du Bureau of Labors Statistics, et pour leurs estimations, ils interrogent plus de 140 000 entreprises dans le pays.
I get it, it's frustrating. If you want to test a statistic that comes from a private company, you can buy the face cream for you and a bunch of friends, test it out, if it doesn't work, you can say the numbers were wrong. But how do you question government statistics? You just keep checking everything. Find out how they collected the numbers. Find out if you're seeing everything on the chart you need to see. But don't give up on the numbers altogether, because if you do, we'll be making public policy decisions in the dark, using nothing but private interests to guide us.
Je le sais, c'est frustrant. Pour tester une statistique fournie par une entreprise privée, vous pouvez acheter la crème, pour vous et quelques amies, la tester, si ça ne va pas, vous saurez : les chiffres sont faux. Comment douter des statistiques publiques ? En continuant à tout vérifier, à interroger la collecte des données, à voir si tout ce dont vous avez besoin est bien dans le graphique. Mais n'oubliez pas les chiffres, parce que si vous le faites, nos décisions politiques seront prises dans le noir, avec les seuls intérêts privés comme guides.
Thank you.
Merci.
(Applause)
(Applaudissements)