Peter Donnelly: How juries are fooled by statistics

Wie schon andere vor mir gesagt haben, ist es eine recht einschüchternde Sache – eine besonders einschüchternde Erfahrung – vor dieser Zuhörerschaft zu sprechen. Aber im Gegensatz zu anderen Rednern werde ich Ihnen nichts von den Wundern des Universums oder den Wundern der Evolution erzählen, oder über die wirklich schlauen und innovativen Methoden, mit denen die Leute die größten Ungleichheiten auf der Welt angehen. Oder von den Herausforderungen der Nationalstaaten in der modernen globalen Wirtschaft. Mein Auftrag, wie sie es eben gehört haben, ist Ihnen etwas über Statistik zu erzählen – um noch genauer zu sein, Ihnen einige aufregende Dinge über Statistik zu erzählen. Und das ist – (Gelächter) – das ist noch viel herausfordernder als all die Redner vor mir und all die, die nach mir kommen werden. (Gelächter) Einer meiner älteren Kollegen sagte mir – als ich noch Berufsanfänger war – mit einigem Stolz, Statistiker seien Menschen, die Zahlen mögen, aber ohne besondere Fähigkeiten im Umgang mit Menschen, um Buchhalter zu werden. (Gelächter) Ein anderer Insiderwitz der Statistiker ist: "Wie kann man den introvertierten vom extrovertierten Statistiker unterscheiden?" Was beantwortet wird mit: "Der extrovertierte Statistiker sieht auf die Schuhe der Anderen." (Gelächter) Aber ich will Ihnen etwas nützliches erzählen – also los geht's, konzentrieren Sie sich. Heute Abend ist ein Empfang im Museum für Naturgeschichte der Universität. Eine wunderbare Umgebung, wie Sie hoffentlich finden werden, und ein großartiges Symbol bester viktorianischer Tradition. Es ist sehr unwahrscheinlich – bei dieser speziellen Umgebung und dieser Auswahl an Personen – aber vielleicht geraten Sie in ein Gespräch mit jemandem, mit dem Sie lieber nicht reden wollen. Dann machen Sie Folgendes: Wenn man Sie fragt, "Was machen Sie beruflich?" – sagen Sie: "Ich bin Statistiker." (Gelächter) Nun, wenn sie nicht gewarnt wurden und wissen, dass Sie sich das ausdenken, wird eins von zwei Dingen passieren. Sie entdecken einen lang verschollenen Cousin am Ende des Raums und laufen zu ihm, um mit ihm zu reden. Oder sie werden plötzlich unglaublich durstig oder hungrig – meist beides – und laufen davon, um sich einen Drink und etwas zu essen zu besorgen. Dann haben Sie Ihre Ruhe und können mit einer Person Ihrer Wahl sprechen.

As other speakers have said, it's a rather daunting experience -- a particularly daunting experience -- to be speaking in front of this audience. But unlike the other speakers, I'm not going to tell you about the mysteries of the universe, or the wonders of evolution, or the really clever, innovative ways people are attacking the major inequalities in our world. Or even the challenges of nation-states in the modern global economy. My brief, as you've just heard, is to tell you about statistics -- and, to be more precise, to tell you some exciting things about statistics. And that's -- (Laughter) -- that's rather more challenging than all the speakers before me and all the ones coming after me. (Laughter) One of my senior colleagues told me, when I was a youngster in this profession, rather proudly, that statisticians were people who liked figures but didn't have the personality skills to become accountants. (Laughter) And there's another in-joke among statisticians, and that's, "How do you tell the introverted statistician from the extroverted statistician?" To which the answer is, "The extroverted statistician's the one who looks at the other person's shoes." (Laughter) But I want to tell you something useful -- and here it is, so concentrate now. This evening, there's a reception in the University's Museum of Natural History. And it's a wonderful setting, as I hope you'll find, and a great icon to the best of the Victorian tradition. It's very unlikely -- in this special setting, and this collection of people -- but you might just find yourself talking to someone you'd rather wish that you weren't. So here's what you do. When they say to you, "What do you do?" -- you say, "I'm a statistician." (Laughter) Well, except they've been pre-warned now, and they'll know you're making it up. And then one of two things will happen. They'll either discover their long-lost cousin in the other corner of the room and run over and talk to them. Or they'll suddenly become parched and/or hungry -- and often both -- and sprint off for a drink and some food. And you'll be left in peace to talk to the person you really want to talk to.

Das ist eine der Herausforderungen unseres Berufs; der Versuch ihn zu erklären. Wir stehen nie oben auf der Gästeliste einer Dinnerparty oder bei Unterhaltungen. Und ich habe auch nie wirklich einen guten Weg dafür gefunden. Meine Frau jedoch – die damals noch meine Freundin war – kam damit viel besser zurecht, als ich es je konnte. Vor vielen Jahren, als wir begannen auszugehen, arbeitete sie für BBC in England, und ich arbeitete damals in Amerika. Ich kam zu Besuch. Sie erzählte das einem ihrer Kollegen, der sagte "Nun, was macht er denn beruflich?" Sarah dachte angestrengt an die Dinge, die ich ihr erklärt hatte – und sie hörte damals aufmerksam zu. (Gelächter) Sagen sie ihr nicht, dass ich das gesagt habe. Und sie dachte über meine Arbeit an mathematischen Modellen nach, die ein Verständnis von Evolution und moderner Genetik fördern sollten. Als ihr Kollege also fragte: "Was macht er beruflich?" Machte sie ein Pause und sagte, "Er modelliert Dinge." (Gelächter) Nun, ihr Kollege wurde plötzlich viel neugieriger als ich hätte erwarten dürfen, und fragte weiter, "Was modelliert er?" Tja, Sarah dachte ein wenig mehr über meine Arbeit nach und sagte, "Gene." (Gelächter) "Er modelliert Gene."

It's one of the challenges in our profession to try and explain what we do. We're not top on people's lists for dinner party guests and conversations and so on. And it's something I've never really found a good way of doing. But my wife -- who was then my girlfriend -- managed it much better than I've ever been able to. Many years ago, when we first started going out, she was working for the BBC in Britain, and I was, at that stage, working in America. I was coming back to visit her. She told this to one of her colleagues, who said, "Well, what does your boyfriend do?" Sarah thought quite hard about the things I'd explained -- and she concentrated, in those days, on listening. (Laughter) Don't tell her I said that. And she was thinking about the work I did developing mathematical models for understanding evolution and modern genetics. So when her colleague said, "What does he do?" She paused and said, "He models things." (Laughter) Well, her colleague suddenly got much more interested than I had any right to expect and went on and said, "What does he model?" Well, Sarah thought a little bit more about my work and said, "Genes." (Laughter) "He models genes."

Das ist meine erste Liebe, und darüber werde ich Ihnen ein klein wenig erzählen. Etwas allgemeiner will ich Sie dazu bewegen, darüber nachzudenken, welchen Stellenwert Unsicherheit und Wahllosigkeit und Zufall in unserer Welt haben, wie wir darauf reagieren und wie gut oder nicht wir darüber nachdenken. Bis jetzt war es für Sie ziemlich einfach – einige Lacher, und all so was – in den Vorträgen bislang. Sie denken jetzt, ich werde Ihnen einige Fragen stellen. Hier also die Szene für meine erste Frage an Sie: Können Sie sich vorstellen, wieder und wieder eine Münze zu werfen? Und aus einem bestimmten Grund – der recht vage bleiben soll – interessiert uns ein bestimmtes Muster. Dieses zum Beispiel – Kopf, dann Zahl, dann Zahl.

That is my first love, and that's what I'll tell you a little bit about. What I want to do more generally is to get you thinking about the place of uncertainty and randomness and chance in our world, and how we react to that, and how well we do or don't think about it. So you've had a pretty easy time up till now -- a few laughs, and all that kind of thing -- in the talks to date. You've got to think, and I'm going to ask you some questions. So here's the scene for the first question I'm going to ask you. Can you imagine tossing a coin successively? And for some reason -- which shall remain rather vague -- we're interested in a particular pattern. Here's one -- a head, followed by a tail, followed by a tail.

Stellen wir uns vor, wir werfen wiederholt eine Münze. Dann kommt das Muster auf das wir jetzt so gespannt sind. Und wir zählen: eins, zwei, drei, vier, fünf, sechs, sieben, acht, neun, zehn – es kommt nach dem zehnten Wurf. Sie können sich vielleicht interessantere Dinge vorstellen, aber tun Sie mir den Gefallen. Stellen Sie sich diese Hälfte des Publikums vor, jeder nimmt eine Münze und wirft sie, bis zum ersten Mal das Kopf-Zahl-Zahl-Muster auftaucht. Beim ersten Mal kommt es vielleicht nach dem zehnten Wurf, wie hier. Beim zweiten Mal vielleicht beim vierten Wurf. Beim nächsten Mal nach dem 15. Wurf. Sie machen das viele, viele Male und mitteln diese Zahlen. Ich möchte, dass diese Seite darüber nachdenkt.

So suppose we toss a coin repeatedly. Then the pattern, head-tail-tail, that we've suddenly become fixated with happens here. And you can count: one, two, three, four, five, six, seven, eight, nine, 10 -- it happens after the 10th toss. So you might think there are more interesting things to do, but humor me for the moment. Imagine this half of the audience each get out coins, and they toss them until they first see the pattern head-tail-tail. The first time they do it, maybe it happens after the 10th toss, as here. The second time, maybe it's after the fourth toss. The next time, after the 15th toss. So you do that lots and lots of times, and you average those numbers. That's what I want this side to think about.

Die andere Hälfte des Publikums mag Kopf-Zahl-Zahl nicht – aus tiefgehenden, kulturellen Gründen halten sie es für langweilig – und finden ein anderes Muster viel interessanter – Kopf-Zahl-Kopf. Auf dieser Seite nehmen Sie also Ihre Münzen hervor und werfen sie immer wieder. Sie zählen, wie oft Sie werfen bis das Kopf-Zahl-Kopf-Muster erscheint, und Sie mitteln die Zahlen. Klar? Auf dieser Seite haben Sie also eine Zahl – und weil Sie oft geworfen haben, ist sie recht genau – sie ist die durchschnittliche Anzahl der Würfe bis Kopf-Zahl-Zahl kommt. Auf dieser Seite haben Sie eine Zahl – die durchschnittliche Anzahl der Würfe bis Kopf-Zahl-Kopf kommt.

The other half of the audience doesn't like head-tail-tail -- they think, for deep cultural reasons, that's boring -- and they're much more interested in a different pattern -- head-tail-head. So, on this side, you get out your coins, and you toss and toss and toss. And you count the number of times until the pattern head-tail-head appears and you average them. OK? So on this side, you've got a number -- you've done it lots of times, so you get it accurately -- which is the average number of tosses until head-tail-tail. On this side, you've got a number -- the average number of tosses until head-tail-head.

Jetzt kommt eine grundlegende mathematische Wahrheit – wenn Sie zwei Zahlen haben, muss eines der folgenden Dinge wahr sein. Entweder sind sie gleich, oder diese ist größer als jene, oder jene ist größer als diese. Was passiert hier also? Sie können also alle darüber nachdenken und abstimmen – und wir machen nicht weiter. Und ich will nicht zwei Minuten in Schweigen verbringen, damit Sie darüber nachdenken können, bis jeder eine Meinung äußert, okay. Was wir also machen wollen, ist die durchschnittliche Anzahl der Würfe, bis wir Kopf-Zahl-Kopf sehen, vergleichen mit der durchschnittlichen Anzahl Würfe, bis Kopf-Zahl-Zahl kommt.

So here's a deep mathematical fact -- if you've got two numbers, one of three things must be true. Either they're the same, or this one's bigger than this one, or this one's bigger than that one. So what's going on here? So you've all got to think about this, and you've all got to vote -- and we're not moving on. And I don't want to end up in the two-minute silence to give you more time to think about it, until everyone's expressed a view. OK. So what you want to do is compare the average number of tosses until we first see head-tail-head with the average number of tosses until we first see head-tail-tail.

Wer denkt, dass A richtig ist – dass im Durchschnitt Kopf-Zahl-Kopf später kommt als Kopf-Zahl-Zahl? Wer glaubt, dass B richtig ist – das durchschnittlich beide gleichzeitig kommen? Wer glaubt das C richtig ist – das durchschnittlich Kopf-Zahl-Kopf eher kommt als Kopf-Zahl-Zahl? Aha, wer hat noch nicht gewählt? Das gehört sich nicht – ich sagte, Sie müssen. (Gelächter) OK. Die meisten denken also, B sei richtig. Und es mag Sie erleichtern, dass selbst herausragende Mathematiker so fühlen. Aber es ist falsch, A ist die richtige Antwort. Im Durchschnitt dauert es länger. Tatsächlich kommt Kopf-Zahl-Kopf durchschnittlich nach 10 Würfen, während Kopf-Zahl-Zahl nach 8 Würfen kommt. Wie kann das sein? Unterscheiden sich die Muster irgendwie? Ja. Kopf-Zahl-Kopf überlappt sich selbst. Wenn man auf Kopf-Zahl-Kopf lauert, kann man das Muster listigerweise zwei Mal in nur fünf Würfen bekommen. Das geht nicht mit Kopf-Zahl-Zahl. Das stellt sich als wichtig heraus.

Who thinks that A is true -- that, on average, it'll take longer to see head-tail-head than head-tail-tail? Who thinks that B is true -- that on average, they're the same? Who thinks that C is true -- that, on average, it'll take less time to see head-tail-head than head-tail-tail? OK, who hasn't voted yet? Because that's really naughty -- I said you had to. (Laughter) OK. So most people think B is true. And you might be relieved to know even rather distinguished mathematicians think that. It's not. A is true here. It takes longer, on average. In fact, the average number of tosses till head-tail-head is 10 and the average number of tosses until head-tail-tail is eight. How could that be? Anything different about the two patterns? There is. Head-tail-head overlaps itself. If you went head-tail-head-tail-head, you can cunningly get two occurrences of the pattern in only five tosses. You can't do that with head-tail-tail. That turns out to be important.

Man kann auf zwei Arten darüber nachdenken. Ich nenne Ihnen eine: Stellen Sie sich vor – nehmen wir an, wir machen es. Auf dieser Seite – denken Sie daran, Sie sind ganz erpicht auf Kopf-Zahl-Zahl, Sie sind ganz erpicht auf Kopf-Zahl-Kopf. Wir beginnen also mir dem Münzwurf, und erhalten Kopf – und Sie sitzen plötzlich auf der Kante Ihres Stuhls, denn etwas großartiges und wunderbares könnte gleich passieren. Der nächste Wurf bringt Zahl – Sie werden wirklich aufgeregt. Den Sekt auf Eis griffbereit haben Sie die Gläser für die Feier bereits gekühlt. Mit angehaltenem Atem warten Sie auf den letzten Wurf. Es kommt Kopf, das ist großartig. Sie haben es geschafft, und Sie feiern. Wenn Zahl kommt – nun ja, dann räumen Sie einigermaßen enttäuscht die Gläser und den Sekt wieder weg. Sie werfen weiter um beim nächsten Kopf wieder begeistert zu sein.

There are two ways of thinking about this. I'll give you one of them. So imagine -- let's suppose we're doing it. On this side -- remember, you're excited about head-tail-tail; you're excited about head-tail-head. We start tossing a coin, and we get a head -- and you start sitting on the edge of your seat because something great and wonderful, or awesome, might be about to happen. The next toss is a tail -- you get really excited. The champagne's on ice just next to you; you've got the glasses chilled to celebrate. You're waiting with bated breath for the final toss. And if it comes down a head, that's great. You're done, and you celebrate. If it's a tail -- well, rather disappointedly, you put the glasses away and put the champagne back. And you keep tossing, to wait for the next head, to get excited.

Auf dieser Seite machen Sie eine andere Erfahrung. Bei den ersten beiden Teilen der Sequenz ist es noch egal. Sie sind etwas aufgeregt wenn zum ersten Mal Kopf kommt – und noch mehr, wenn dann Zahl kommt. Dann werfen Sie die Münze. Kommt Zahl, knallt der Korken, kommt Kopf sind Sie enttäuscht, aber ein Drittel Ihres Musters ist immer noch erfüllt. So stellt es sich formlos dar – das ist der Unterschied. Eine andere Betrachtungsweise – wenn wir die Münze acht Millionen Mal werfen, erwarten wir eine Million Kopf-Zahl-Kopf und eine Million Kopf-Zahl-Zahl – aber Kopf-Zahl-Kopf kann nur gruppiert auftauchen. Wenn Sie also eine Million Dinge auf acht Millionen Positionen unterbringen wollen, und Sie eine Überlappung zulassen, dann sind die Gruppen weiter auseinander. So kann man auch zur Intuition gelangen.

On this side, there's a different experience. It's the same for the first two parts of the sequence. You're a little bit excited with the first head -- you get rather more excited with the next tail. Then you toss the coin. If it's a tail, you crack open the champagne. If it's a head you're disappointed, but you're still a third of the way to your pattern again. And that's an informal way of presenting it -- that's why there's a difference. Another way of thinking about it -- if we tossed a coin eight million times, then we'd expect a million head-tail-heads and a million head-tail-tails -- but the head-tail-heads could occur in clumps. So if you want to put a million things down amongst eight million positions and you can have some of them overlapping, the clumps will be further apart. It's another way of getting the intuition.

Worauf will ich hinaus? Es ist ein sehr, sehr einfaches Beispiel, eine einfach formulierte Frage zur Wahrscheinlichkeit, die jeder – Sie sind in guter Gesellschaft – jeder falsch beantwortet. Hier meine kleine Abschweifung zu meiner wahren Leidenschaft – Genetik. Es gibt eine Verbindung zwischen Kopf-Zahl-Kopf und Kopf-Zahl-Zahl in der Genetik, und zwar Folgende: Wenn Sie eine Münze werfen, erhalten Sie eine Abfolge von Kopf und Zahl. Wenn Sie sich die DNA ansehen, gibt es auch dort eine Abfolge zweier Dinge – Kopf und Zahl – aber mit vier Buchstaben – A, G, C und T. Und es gibt kleine chemische Scheren, die man Restriktionsenzyme nennt, die DNA trennen, wo immer sie ein bestimmtes Muster finden. Sie sind ein unglaubliches nützliches Werkzeug der modernen Molekularbiologie. Aber anstatt zu fragen, "Wie lang bis Kopf-Zahl-Kopf kommt?" – können Sie fragen, "Wie groß werden die Abschnitte,wenn ich ein Restriktionsenzym verwende, dass immer schneidet, wenn es zum Beispile G-A-A-G antrifft? Wie groß werden die Stücke?"

What's the point I want to make? It's a very, very simple example, an easily stated question in probability, which every -- you're in good company -- everybody gets wrong. This is my little diversion into my real passion, which is genetics. There's a connection between head-tail-heads and head-tail-tails in genetics, and it's the following. When you toss a coin, you get a sequence of heads and tails. When you look at DNA, there's a sequence of not two things -- heads and tails -- but four letters -- As, Gs, Cs and Ts. And there are little chemical scissors, called restriction enzymes which cut DNA whenever they see particular patterns. And they're an enormously useful tool in modern molecular biology. And instead of asking the question, "How long until I see a head-tail-head?" -- you can ask, "How big will the chunks be when I use a restriction enzyme which cuts whenever it sees G-A-A-G, for example? How long will those chunks be?"

Das ist eine eher triviale Verbindung zwischen Wahrscheinlichkeit und Genetik. Es gibt eine viel profundere Verbindung, für deren Erklärung mir die Zeit fehlt, und zwar, dass moderne Genetik ein wirklich aufregedes Wissenschaftsgebiet ist. Wir werden später im Rahmen der Konferenz noch Vorträge speziell dazu hören. Aber es stellt sich heraus, der Schlüssel zu Informationen aus modernen experimentellen Technologien liegt in ziemlich ausgeklügelten – es wird Sie erleichtern, dass ich meinen Lebensunterhalt mit etwas Nützlichem verdiene, raffinierter als die Kopf-Zahl-Kopf-Geschichte – nämlich ziemlich abgefahrene Computer- und mathematische Modelle und moderne statistische Verfahren. Ich präsentiere Ihnen nur zwei Ausschnitte – zwei Beispiele – Projekte, an denen mein Team in Oxford teil nimmt, die ich beide sehr aufregend finde. Sie kennen das Human Genome Project. Ziel des Projekts war, das menschliche Genom zu erfassen. Was macht man, wenn man damit fertig ist? Natürlich das: das International HapMap Project, eine Zusammenarbeit von fünf Laboren in sechst verschiedene Ländern. Stellen Sie sich das Human Genome Project als unser gemeinsames Lernen vor, und das HapMap Project als den Versuch die Herkunft der Unterschiede verschiedener Menschen zu verstehen.

That's a rather trivial connection between probability and genetics. There's a much deeper connection, which I don't have time to go into and that is that modern genetics is a really exciting area of science. And we'll hear some talks later in the conference specifically about that. But it turns out that unlocking the secrets in the information generated by modern experimental technologies, a key part of that has to do with fairly sophisticated -- you'll be relieved to know that I do something useful in my day job, rather more sophisticated than the head-tail-head story -- but quite sophisticated computer modelings and mathematical modelings and modern statistical techniques. And I will give you two little snippets -- two examples -- of projects we're involved in in my group in Oxford, both of which I think are rather exciting. You know about the Human Genome Project. That was a project which aimed to read one copy of the human genome. The natural thing to do after you've done that -- and that's what this project, the International HapMap Project, which is a collaboration between labs in five or six different countries. Think of the Human Genome Project as learning what we've got in common, and the HapMap Project is trying to understand where there are differences between different people.

Warum interessiert uns das? Nun, es gibt eine Menge Gründe. Der dringendste ist, dass wir verstehen wollen, warum einige Unterscheide manche Menschen anfälliger für eine Krankheit machen – Typ-2 Diabetes zum Beispiel – und andere Unterschiede Menschen anfälliger für Herzkrankheiten machen, oder Schlaganfall, oder Autismus, und so fort. Da gibt es ein großes Projekt. Es gibt ein weiteres großes Projekt, kürzlich finanziert durch den Wellcome Trust in diesem Land, dabei geht es um sehr große Studien – Tausende Individuen, mit jeder von acht verschiedenen Krankheiten, verbreitete Krankheiten wie Typ-1 und Typ-2 Diabetes, koronare Herzerkrankung, Bipolare Störung und so weiter – um diese Krankheiten zu verstehen. Um zu verstehen, welche genetischen Unterschiede die Krankheiten verursachen. Warum wollen wir das tun? Weil wir sehr wenig über die meisten menschlichen Krankheiten wissen. Wir wissen nicht, was sie verursacht. Und wenn wir dem auf den Grund gelangen, und die Genetik verstehen, haben wir einen Einblick in die Funktionsweise der Krankheit. Und können auf ganz neue Weise über Therapien, Vorbeugung und dergleichen nachdenken. Dies also der kleine Exkurs zu meiner eigentlichen Liebe.

Why do we care about that? Well, there are lots of reasons. The most pressing one is that we want to understand how some differences make some people susceptible to one disease -- type-2 diabetes, for example -- and other differences make people more susceptible to heart disease, or stroke, or autism and so on. That's one big project. There's a second big project, recently funded by the Wellcome Trust in this country, involving very large studies -- thousands of individuals, with each of eight different diseases, common diseases like type-1 and type-2 diabetes, and coronary heart disease, bipolar disease and so on -- to try and understand the genetics. To try and understand what it is about genetic differences that causes the diseases. Why do we want to do that? Because we understand very little about most human diseases. We don't know what causes them. And if we can get in at the bottom and understand the genetics, we'll have a window on the way the disease works, and a whole new way about thinking about disease therapies and preventative treatment and so on. So that's, as I said, the little diversion on my main love.

Zurück zu eher weltlichen Angelenheiten, wegen derer man sich mit Unsicherheit beschäftigt. Ich habe noch ein Quiz für Sie – angenommen, wir haben einen Test für eine Krankheit, der nicht unfehlbar ist, aber ziemlich gut. Er zeigt in 99 Prozent der Fälle das richtige Ergebnis. Und ich wähle einen von Ihnen oder von der Straße aus, und teste ihn hinsichtlich der betreffenden Krankheit. Angenommen, es ist ein HIV-Test – für das Virus, das AIDS auslöst – und angenommen, der Test sagt, die Person sei infiziert. Wie hoch ist die Trefferwahrscheinlichkeit? Der Test liegt in 99 von 100 Fällen richtig. Dann ist die Antwort natürlich 99 Prozent. Wem gefällt diese Antwort? Na los – jeder soll mitmachen. Glauben Sie nicht, Sie vertrauen mir nicht mehr. (Gelächter) Tja, Sie sind zu Recht skeptisch, denn die Antwort ist falsch. Das haben Sie sich gedacht. Sie ist falsch, und zwar nicht nur, weil das Teil der Geschichte ist. Es hängt tatsächlich davon ab, wie verbreitet oder selten die Krankheit ist. Lassen Sie mich versuchen, dass zu veranschaulichen. Hier eine kleine Karikatur einer Million Individuen. Denken wir also über eine Krankheit nach – sie ist recht selten, sie betrifft nur eine von 10.000 Personen. Von diesen eine Million Individuen sind die meisten gesund, und einige werden krank sein. Tatsächlich werden bei dieser Prävalenz etwa 100 krank sein, und die Übrigen gesund. Angenommen, wir testen sie alle. Was passiert? Nun, bei den 100 Kranken wird der Test bei 99 Prozent richtig liegen, und 99 positiv testen. Von den anderen Leuten, die nicht krank sind wird der Test auch 99 Prozent richtig testen, und nur bei einem Prozent daneben liegen. Aber es gibt so viele Gesunde, das es eine Menge falscher Positiv-Tests geben wird. Anders gesagt – von allen die positiv getestet werden – hier sieht man sie, die dazu gehören – haben weniger als 100 wirklich die Krankheit. Obwohl wir also glauben der Test sei treffsicher, ist das Entscheidende hierbei, dass wir noch eine Zusatzinformation benötigen.

Back to some of the more mundane issues of thinking about uncertainty. Here's another quiz for you -- now suppose we've got a test for a disease which isn't infallible, but it's pretty good. It gets it right 99 percent of the time. And I take one of you, or I take someone off the street, and I test them for the disease in question. Let's suppose there's a test for HIV -- the virus that causes AIDS -- and the test says the person has the disease. What's the chance that they do? The test gets it right 99 percent of the time. So a natural answer is 99 percent. Who likes that answer? Come on -- everyone's got to get involved. Don't think you don't trust me anymore. (Laughter) Well, you're right to be a bit skeptical, because that's not the answer. That's what you might think. It's not the answer, and it's not because it's only part of the story. It actually depends on how common or how rare the disease is. So let me try and illustrate that. Here's a little caricature of a million individuals. So let's think about a disease that affects -- it's pretty rare, it affects one person in 10,000. Amongst these million individuals, most of them are healthy and some of them will have the disease. And in fact, if this is the prevalence of the disease, about 100 will have the disease and the rest won't. So now suppose we test them all. What happens? Well, amongst the 100 who do have the disease, the test will get it right 99 percent of the time, and 99 will test positive. Amongst all these other people who don't have the disease, the test will get it right 99 percent of the time. It'll only get it wrong one percent of the time. But there are so many of them that there'll be an enormous number of false positives. Put that another way -- of all of them who test positive -- so here they are, the individuals involved -- less than one in 100 actually have the disease. So even though we think the test is accurate, the important part of the story is there's another bit of information we need.

Hier ist die entscheidende Intuition. Wir müssen, sobald wir wissen, dass der Test positiv ausgefallen ist, die Plausibilität, oder die Wahrscheinlichkeit konkurrierender Erklärungen abwägen. Jede dieser Erklärungen hat einen wahrscheinlichen und einen unwahrscheinlichen Teil. Eine Erklärung ist, das die Person nicht infiziert ist – das ist überwiegend wahrscheinlich, wenn man jemanden zufällig auswählt – aber der Test liegt falsch, was unwahrscheinlich ist. Die andere Erklärung ist, das die Person krank ist – das ist unwahrscheinlich – aber der Test ist richtig, was wahrscheinlich ist. Zum Schluss erhalten wir eine Zahl – die ein wenig kleiner ist als 1 in 100 – sie zeigt, wie wahrscheinlich die eine Erklärung im Vergleich mit der anderen ist. Jede von ihnen zusammen genommen ist unwahrscheinlich.

Here's the key intuition. What we have to do, once we know the test is positive, is to weigh up the plausibility, or the likelihood, of two competing explanations. Each of those explanations has a likely bit and an unlikely bit. One explanation is that the person doesn't have the disease -- that's overwhelmingly likely, if you pick someone at random -- but the test gets it wrong, which is unlikely. The other explanation is that the person does have the disease -- that's unlikely -- but the test gets it right, which is likely. And the number we end up with -- that number which is a little bit less than one in 100 -- is to do with how likely one of those explanations is relative to the other. Each of them taken together is unlikely.

Nun ein themenbezogeneres Beispiel für genau die gleiche Sache. Die Zuhörer in England werden vertraut sein mit dem ziemlich berühmten Fall einer Frau namens Sally Clark, deren zwei Kinder plötzlich starben. Zunächst hielt man es für Fälle vom Tod im Kindbett, wie das gemeinhin genannt wird, etwas formaler spricht man von plötzlichem Kindstod. Aus verschiedenen Gründen wurde sie später des Mordes angeklagt. Und während ihrer Verhandlung bezeugte ein sehr angesehener Kinderarzt, dass die Wahrscheinlichkeit zweier Kindsbett-Tode, ohne Fremdeinwirkung, in einer Familie wie der ihren – die sachkundig und Nichtraucher waren – bei eins zu 73 Millionen lag. Um die Geschichte abzukürzen, sie wurde damals verurteilt. Kürzlich wurde sie im Berufungsverfahren frei gesprochen – tatsächlich erst bei der zweiten Berufung. Nur damit Sie den Kontext im Auge behalten, stellen Sie sich vor, wie schlimm es sein muss, ein Kind verloren zu haben, dann noch eins, und obwohl Sie unschuldig sind werden Sie dafür verurteilt, sie ermordet zu haben. Den Belastungen durch die Verhandlung ausgesetzt zu sein, für den Mord an ihnen verurteilt werden – und einige Zeit im Frauengefängnis einzusitzen, wo all die anderen Gefangenen sie für den Mörder ihrer Kinder halten – das ist wirklich ein entsetzliches Geschick. Und zum größten Teil kam es dazu, weil der Experte die Zahlen auf zweierlei Art fürchterlich durcheinander brachte.

Here's a more topical example of exactly the same thing. Those of you in Britain will know about what's become rather a celebrated case of a woman called Sally Clark, who had two babies who died suddenly. And initially, it was thought that they died of what's known informally as "cot death," and more formally as "Sudden Infant Death Syndrome." For various reasons, she was later charged with murder. And at the trial, her trial, a very distinguished pediatrician gave evidence that the chance of two cot deaths, innocent deaths, in a family like hers -- which was professional and non-smoking -- was one in 73 million. To cut a long story short, she was convicted at the time. Later, and fairly recently, acquitted on appeal -- in fact, on the second appeal. And just to set it in context, you can imagine how awful it is for someone to have lost one child, and then two, if they're innocent, to be convicted of murdering them. To be put through the stress of the trial, convicted of murdering them -- and to spend time in a women's prison, where all the other prisoners think you killed your children -- is a really awful thing to happen to someone. And it happened in large part here because the expert got the statistics horribly wrong, in two different ways.

Wie kam er auf die 1 in 73 Millionen Zahl? Er sah sich einige Forschung an, wonach die Wahrscheinlichkeit für plötzlichen Kindstod in einer Familie wie der Sally Clarks bei eins zu 8.500 liegt. Er postulierte: "Ich nehme an, das nach einem plötzlichen Kindstod in einer Familie die Wahrscheinlichkeit für einen weiteren gleich bleibt." Statistiker nennen das Vermutung stochastischer Unabhängigkeit. Als würde man sagen, "Wenn Kopf kommt, verändert das nicht die Wahrscheinlichkeit beim zweiten Wurf Kopf zu bekommen." Wenn man also eine Münze zweimal wirft, ist die Aussicht zweimal Kopf zu erhalten ½ – das ist die Wahrscheinlichkeit beim ersten Mal – mal ½ – der Wahrscheinlichkeit beim zweiten Mal. Er sagte also, "Nehmen wir hier an – ich nehme hier an, diese Ereignisse sind unabhängig voneinander. Wenn man 8.500 mit sich selbst multipliziert, kommt etwa 73 Millionen heraus." Und nichts davon wurde dem Gericht als These vorgetragen, oder den Geschworen so dargestellt. Unglücklicherweise – und wirklich zum großen Bedauern – muss man zunächst empirische Belege finden. Und dann ist das offenkundig falsch. Es gibt so viel Unbekanntes im Zusammenhang mit plötzlichem Kindstod. Uns unbekannte Umweltfaktoren könnten eine Rolle spielen, und das gilt sehr wahrscheinlich auch für genetische Faktoren, deren wir uns nicht bewusst sind. Wenn also eine Familie von plötzlichem Kindstod betroffen ist, ordnet man sie einer Hochrisikogruppe zu. Für sie gelten wahrscheinlich die Umwelt-Risikofaktoren oder genetische Risikofaktoren, von denen wir nichts wissen. Und über den zweiten Tod zu räsonieren, als ob man von dem ersten nichts wüsste ist wirklich dumm. Es ist schlimmer als dumm – es ist schlechte Wissenschaft. Trotzdem ist es so präsentiert worden, und niemand beim Verfahren erhob Einwände. Das ist das eine Problem. Das andere ist, was bedeutet die Zahl eins in 73 Millionen? Nachdem Sally Clark verurteilt war – sie können sich vorstellen, wie das in der Presse einschlug – schrieb einer der Journalisten einer angeseheneren Englischen Zeitung, der Experte habe gesagt, "Die Wahrscheinlichkeit das die unschuldig ist liegt bei eins zu 73 Millionen." Das ist nun ein logischer Fehler. Und zwar genau der gleiche logische Fehler, anzunehmen, dass nach einem Krankheits-Test, der zu 99 Prozent zuverlässig ist, die Wahrscheinlichkeit, krank zu sein, 99 Prozent beträgt. Bei diesem Beispiel müssen wir an zwei Dinge denken, zum einen an die Fehlerwahrscheinlichkeit des Tests, zum anderen die Wahrscheinlichkeit – a priori – das die Person krank ist. In diesem Zusammenhang ist es haargenau so. Es geht um zwei Dinge – zwei Teile der Erklärung. Wir wollen wissen, wie wahrscheinlich – in Relation zueinander – die beiden Erklärungen sind. Eine ist, dass Sally Clark unschuldig ist – was a priori überwältigend wahrscheinlich ist – die wenigsten Mütter töten ihre Kinder. Und der zweite Teil der Erklärung ist, das ihr etwas unglaublich unwahrscheinliches zustieß. Nicht so unwahrscheinlich wie eins in 73 Millionen, aber dennoch ziemlich unwahrscheinlich. Die andere Erklärung ist, dass sie schuldig ist. Jetzt nehmen wir wohl a priori an, das sei unwahrscheinlich. Und im Rahmen eines Strafverfahrens sollten wir natürlich annehmen, das sei unwahrscheinlich, wegen der Unschuldsvermutung. Und wenn sie versucht hat, die Kinder zu töten, hatte sie Erfolg. Die Wahrscheinlichkeit ihrer Unschuld ist also nicht eins in 73 Millionen. Wir kennen sie nicht. Es hängt zusammen mit der Abwägung der Kraft anderer Beweise gegen sie und den statistischen Beweisen. Wir wissen, dass die Kinder gestorben sind. Es kommt darauf an, wie wahrscheinlich oder unwahrscheinlich die beiden Erklärungen im Verhältnis zueinander sind. Sie sind beide nicht plausibel. Hier haben Sie ein Beispiel für profunde und wirklich schicksalhafte Auswirkungen von Fehlern der Statistik. Tatsächlich gibt es noch zwei weitere Frauen, die wegen Aussagen dieses Kinderarztes verurteilt wurden und später durch Berufung frei kamen. Viele Fälle wurden noch einmal aufgerollt. Das ist besonders aktuell, weil er gegenwärtig wegen einer Leumundsklage Englands Allgemeinem Medizinischen Rat gegenübersteht.

So where did he get the one in 73 million number? He looked at some research, which said the chance of one cot death in a family like Sally Clark's is about one in 8,500. So he said, "I'll assume that if you have one cot death in a family, the chance of a second child dying from cot death aren't changed." So that's what statisticians would call an assumption of independence. It's like saying, "If you toss a coin and get a head the first time, that won't affect the chance of getting a head the second time." So if you toss a coin twice, the chance of getting a head twice are a half -- that's the chance the first time -- times a half -- the chance a second time. So he said, "Here, I'll assume that these events are independent. When you multiply 8,500 together twice, you get about 73 million." And none of this was stated to the court as an assumption or presented to the jury that way. Unfortunately here -- and, really, regrettably -- first of all, in a situation like this you'd have to verify it empirically. And secondly, it's palpably false. There are lots and lots of things that we don't know about sudden infant deaths. It might well be that there are environmental factors that we're not aware of, and it's pretty likely to be the case that there are genetic factors we're not aware of. So if a family suffers from one cot death, you'd put them in a high-risk group. They've probably got these environmental risk factors and/or genetic risk factors we don't know about. And to argue, then, that the chance of a second death is as if you didn't know that information is really silly. It's worse than silly -- it's really bad science. Nonetheless, that's how it was presented, and at trial nobody even argued it. That's the first problem. The second problem is, what does the number of one in 73 million mean? So after Sally Clark was convicted -- you can imagine, it made rather a splash in the press -- one of the journalists from one of Britain's more reputable newspapers wrote that what the expert had said was, "The chance that she was innocent was one in 73 million." Now, that's a logical error. It's exactly the same logical error as the logical error of thinking that after the disease test, which is 99 percent accurate, the chance of having the disease is 99 percent. In the disease example, we had to bear in mind two things, one of which was the possibility that the test got it right or not. And the other one was the chance, a priori, that the person had the disease or not. It's exactly the same in this context. There are two things involved -- two parts to the explanation. We want to know how likely, or relatively how likely, two different explanations are. One of them is that Sally Clark was innocent -- which is, a priori, overwhelmingly likely -- most mothers don't kill their children. And the second part of the explanation is that she suffered an incredibly unlikely event. Not as unlikely as one in 73 million, but nonetheless rather unlikely. The other explanation is that she was guilty. Now, we probably think a priori that's unlikely. And we certainly should think in the context of a criminal trial that that's unlikely, because of the presumption of innocence. And then if she were trying to kill the children, she succeeded. So the chance that she's innocent isn't one in 73 million. We don't know what it is. It has to do with weighing up the strength of the other evidence against her and the statistical evidence. We know the children died. What matters is how likely or unlikely, relative to each other, the two explanations are. And they're both implausible. There's a situation where errors in statistics had really profound and really unfortunate consequences. In fact, there are two other women who were convicted on the basis of the evidence of this pediatrician, who have subsequently been released on appeal. Many cases were reviewed. And it's particularly topical because he's currently facing a disrepute charge at Britain's General Medical Council.

Nur um zum Schluss zu kommen – welche Lehren können Sie mit nach Hause nehmen? Nun, wir wissen, dass Beliebigkeit, Unsicherheit und Zufall ein großer Teil unseres täglichen Lebens sind. Auch wahr ist – obwohl Sie als Gemeinschaft in vielen Dingen verschieden sind, dass sie absolut typisch waren bei Ihren falschen Antworten zu meinen Beispielen. Es ist gut dokumentiert, dass Menschen irren. Sie machen logische Fehler, wenn sie über Unsicherheiten nachdenken. Wir können mit den Feinheiten der Sprache wunderbar zurecht kommen – es gibt einige interessante evolutionäre Fragen dazu, wie uns das gelingt. Im Einschätzen von Wahrscheinlichkeiten sind wir nicht gut. Das ist im Alltag ein Problem. Und wie Sie bei vielen Vorträgen gehört haben, untermauert Statistik einen riesigen Teil wissenschaftlicher Forschung – in den Sozialwisssenschaften, der Medizin, und tatsächlich auch oft in der Industrie. Die ganze Qualitätskontrolle, die weitreichende Auswirkungen auf die industrielle Verarbeitung hat, wird getragen von Statistik. Etwas, in dem wir schlecht sind. Das sollten wir wenigstens anerkennen, aber wir neigen nicht dazu. Um nochmal zum rechtlichen Kontext zurück zu kommen, beim Verfahren von Sally Clark haben alle Anwälte einfach akzeptiert, was die Experten sagten. Wenn also der Kinderarzt vor die Geschworenen getreten wäre, und gesagt hätte, "Ich weiß wie man Brücken baut. Ich habe am Ende der Straße eine gebaut. Bitte fahren Sie mit Ihrem Auto dort lang nach Hause," hätten sie gesagt, "Nun, was wissen Kinderärzte schon vom Brückenbau. Das ist eine Ingenieuraufgabe." Andererseits, sagte er im Grunde, oder implizierte, "Ich kenne mich mit Wahrscheinlichkeiten aus. Ich weiß, wie man Statistik macht." Und alle sagten, "Tja, na schön. Er ist der Experte." Wir müssen also die Grenzen unserer Kompetenz kennen. Genau die gleichen Probleme tauchten in den Anfängen des DNS-Profiling auf, als Wissenschaftler, und Anwälte, manchmal sogar Richter, regelmäßig Beweise mißverstanden. Für gewöhnlich – so hofft man – gutgläubig, aber sie interpretierten Beweise falsch. Forensiker sagten, "Die Wahrscheinlichkeit, dass dieser Kerl unschuldig ist, beträgt eins zu drei Millionen." Selbst wenn man der Zahl glaubt, wie 73 Millionen zu eins, ist das nicht, was sie bedeutet. Und es gab deshalb in England und anderswo gefeierte Wiederaufnahmeverfahren.

So just to conclude -- what are the take-home messages from this? Well, we know that randomness and uncertainty and chance are very much a part of our everyday life. It's also true -- and, although, you, as a collective, are very special in many ways, you're completely typical in not getting the examples I gave right. It's very well documented that people get things wrong. They make errors of logic in reasoning with uncertainty. We can cope with the subtleties of language brilliantly -- and there are interesting evolutionary questions about how we got here. We are not good at reasoning with uncertainty. That's an issue in our everyday lives. As you've heard from many of the talks, statistics underpins an enormous amount of research in science -- in social science, in medicine and indeed, quite a lot of industry. All of quality control, which has had a major impact on industrial processing, is underpinned by statistics. It's something we're bad at doing. At the very least, we should recognize that, and we tend not to. To go back to the legal context, at the Sally Clark trial all of the lawyers just accepted what the expert said. So if a pediatrician had come out and said to a jury, "I know how to build bridges. I've built one down the road. Please drive your car home over it," they would have said, "Well, pediatricians don't know how to build bridges. That's what engineers do." On the other hand, he came out and effectively said, or implied, "I know how to reason with uncertainty. I know how to do statistics." And everyone said, "Well, that's fine. He's an expert." So we need to understand where our competence is and isn't. Exactly the same kinds of issues arose in the early days of DNA profiling, when scientists, and lawyers and in some cases judges, routinely misrepresented evidence. Usually -- one hopes -- innocently, but misrepresented evidence. Forensic scientists said, "The chance that this guy's innocent is one in three million." Even if you believe the number, just like the 73 million to one, that's not what it meant. And there have been celebrated appeal cases in Britain and elsewhere because of that.

Und nur, um den Kontext des Rechtssystems abzuschließen. Es ist schön und gut zu sagen, "Wir wollen nach besten Möglichkeiten die Beweise vorlegen." Aber mehr und mehr erwarten wir in Fällen des DNA-Profiling – hier ein weiterer – dass Geschworene, die gewöhnliche Menschen sind – und von denen man weiß, dass sie sehr schlecht darin sind – wir erwarten von Geschworenen, mit allen möglichen Argumentationen zurecht zu kommen. Wenn in anderen Lebensbereichen Menschen – nun ja, die Politik vielleicht ausgenommen – aber wenn in anderen Lebensbereichen Menschen unlogisch argumentieren, erkennen wir das als schlechte Sache. Von Politikern erwarten wir es irgendwie und haben die Hoffnung aufgegeben. Was Wahrscheinlichkeiten angeht, liegen wir ständig daneben – und wenigstens sollten wir uns dessen bewusst sein. Idealerweise jedoch könnten wir versuchen, dass zu ändern. Vielen Dank.

And just to finish in the context of the legal system. It's all very well to say, "Let's do our best to present the evidence." But more and more, in cases of DNA profiling -- this is another one -- we expect juries, who are ordinary people -- and it's documented they're very bad at this -- we expect juries to be able to cope with the sorts of reasoning that goes on. In other spheres of life, if people argued -- well, except possibly for politics -- but in other spheres of life, if people argued illogically, we'd say that's not a good thing. We sort of expect it of politicians and don't hope for much more. In the case of uncertainty, we get it wrong all the time -- and at the very least, we should be aware of that, and ideally, we might try and do something about it. Thanks very much.

Peter Donnelly: How juries are fooled by statistics

Peter Donnelly: How juries are fooled by statistics

Related talks

Hans Rosling: The best stats you've ever seen

Michael Shermer: Why people believe weird things

Emily Oster: Flip your thinking on AIDS in Africa

Robert Full: Learning from the gecko's tail

Aubrey de Grey: A roadmap to end aging

E.O. Wilson: Advice to a young scientist

Related talks

Hans Rosling: The best stats you've ever seen

Michael Shermer: Why people believe weird things

Emily Oster: Flip your thinking on AIDS in Africa

Robert Full: Learning from the gecko's tail

Aubrey de Grey: A roadmap to end aging

E.O. Wilson: Advice to a young scientist