Statistics are persuasive. So much so that people, organizations, and whole countries base some of their most important decisions on organized data. But there's a problem with that. Any set of statistics might have something lurking inside it, something that can turn the results completely upside down. For example, imagine you need to choose between two hospitals for an elderly relative's surgery. Out of each hospital's last 1000 patient's, 900 survived at Hospital A, while only 800 survived at Hospital B. So it looks like Hospital A is the better choice. But before you make your decision, remember that not all patients arrive at the hospital with the same level of health. And if we divide each hospital's last 1000 patients into those who arrived in good health and those who arrived in poor health, the picture starts to look very different. Hospital A had only 100 patients who arrived in poor health, of which 30 survived. But Hospital B had 400, and they were able to save 210. So Hospital B is the better choice for patients who arrive at hospital in poor health, with a survival rate of 52.5%. And what if your relative's health is good when she arrives at the hospital? Strangely enough, Hospital B is still the better choice, with a survival rate of over 98%. So how can Hospital A have a better overall survival rate if Hospital B has better survival rates for patients in each of the two groups? What we've stumbled upon is a case of Simpson's paradox, where the same set of data can appear to show opposite trends depending on how it's grouped. This often occurs when aggregated data hides a conditional variable, sometimes known as a lurking variable, which is a hidden additional factor that significantly influences results. Here, the hidden factor is the relative proportion of patients who arrive in good or poor health. Simpson's paradox isn't just a hypothetical scenario. It pops up from time to time in the real world, sometimes in important contexts. One study in the UK appeared to show that smokers had a higher survival rate than nonsmokers over a twenty-year time period. That is, until dividing the participants by age group showed that the nonsmokers were significantly older on average, and thus, more likely to die during the trial period, precisely because they were living longer in general. Here, the age groups are the lurking variable, and are vital to correctly interpret the data. In another example, an analysis of Florida's death penalty cases seemed to reveal no racial disparity in sentencing between black and white defendants convicted of murder. But dividing the cases by the race of the victim told a different story. In either situation, black defendants were more likely to be sentenced to death. The slightly higher overall sentencing rate for white defendants was due to the fact that cases with white victims were more likely to elicit a death sentence than cases where the victim was black, and most murders occurred between people of the same race. So how do we avoid falling for the paradox? Unfortunately, there's no one-size-fits-all answer. Data can be grouped and divided in any number of ways, and overall numbers may sometimes give a more accurate picture than data divided into misleading or arbitrary categories. All we can do is carefully study the actual situations the statistics describe and consider whether lurking variables may be present. Otherwise, we leave ourselves vulnerable to those who would use data to manipulate others and promote their own agendas.
통계는 설득력이 있습니다. 너무 설득력이 있어서 사람들, 단체, 그리고 국가들은 그 정리된 데이터를 기반으로 중대한 결정을 내립니다. 하지만 거기에는 문제가 있습니다. 어떤 통계든,결과를 완전히 뒤집을 수 있는 무언가가 숨어있을 수도 있습니다. 예를 들어, 여러분이 나이 든 친척 어른의 수술을 위해 두 병원 중 하나를 골라야 한다고 생각해봅시다. 최근 두 병원에서 치료받은 1,000명의 환자 중에 병원 A에서는 900명이 살아남았고 반면, 병원 B에서는 800명이 살아 남았습니다. 그렇다면 병원 A가 더 나은 선택 같이 보입니다. 하지만 그러한 결정을 내리기 전에 모든 환자가 똑같은 건강 상태로 병원에 오는 것이 아니라는 사실을 기억해야 합니다. 최근에 두 병원에 온 환자 1,000명을 건강한 사람과 아픈 사람으로 나눠 보면 상황이 달라 보이기 시작할 것입니다. 병원 A에는 나쁜 건강 상태의 환자가 100명 밖에 오지 않았고 그 중에 30명이 살았습니다. 병원 B에는 나쁜 건강 상태의 환자 400명이 왔고 210명을 살릴 수 있었습니다. 따라서 병원 B가 더 나은 선택입니다. 나쁜 건강 상태로 병원에 온 환자들에게 말이죠. 생존율이 52.5%나 되니까요. 하지만 만약 당신의 친척이 좋은 건강 상태로 병원을 가신다면 어떨까요? 이상하게도, 병원 B가 여전히 더 나은 선택입니다. 생존율이 98%나 되니까요. 그런데도 어떻게 병원 A의 전반적인 생존율이 더 높을 수 있을까요? 병원 B가 각각 2개 그룹 환자의 더 높은 생존율을 가지고 있는데도 말입니다. 여기서 우리가 알아야 할 것이 바로 심슨의 역설입니다. 같은 자료라도 어떻게 분류하는 지에 따라 정반대의 결과를 보일 수 있는 거죠. 이는 취합한 데이터가 조건부 변수를 감추고 있을 때 종종 발생합니다. 그 변수를 잠복 변수라고도 합니다. 결과에 중대한 영향을 미치는 숨겨진 추가적 요인이죠. 이 병원 사례에서 숨겨진 요인은 병원에 온 환자들의 건강 상태에 대한 상대적인 비율이라고 할 수 있습니다. 심슨의 역설은 단지 가상 시나리오가 아닙니다. 그것은 현실에서도 종종 나타납니다. 때로는 중요한 순간에 말입니다. 영국의 한 연구에서는 흡연자들이 비흡연자들보다 더 높은 생존율을 보였습니다. 20년 동안 연구를 한 결과 말이죠. 그것은 참가자들을 연령대별로 분류하기 전까지 맞는 말이었습니다. 그런데 비흡연 참가자들은 평균적으로 나이가 많은 사람들이었습니다. 그래서 연구 기간 동안 사망할 확률이 더 높았던거죠. 정확히 말하면, 그들이 그냥 더 오래 살았기 때문이었어요. 여기서는 연령대가 숨은 변수이자 데이터를 바르게 해석하기 위한 필수적인 요소였습니다. 다른 예에서는 플로리다주의 사형 사건들을 분석해 보면 살인죄로 유죄를 선고받은 흑인과 백인 피고인들 사이에 인종 차별이 없는 것을 알 수 있습니다. 하지만 사건을 피해자의 인종에 따라 분류할 경우, 이야기는 달라집니다. 각각의 경우 흑인 피고인이 사형을 선고받은 확률이 더 높았습니다. 백인 피고인에 대한 전체적인 사형 선고율이 조금 높아지는 이유는 피해자가 백인인 경우의 사건에서 사형 선고를 받을 가능성이 높기 때문입니다. 피해자가 흑인일 경우보다 말입니다. 그리고 대부분의 살인은 같은 인종 간에 발생했습니다. 그렇다면 우리는 어떻게 하면 이러한 역설을 피할 수 있을까요? 불행히도, 딱 정해진 답이 없습니다. 자료는 수많은 기준에 따라 분류 될 수 있으며 오히려 데이터 전체가 더 정확한 그림을 보여주기도 합니다. 자의적이고 잘못된 방식으로 분류된 데이터보다 말이죠. 우리가 할 수 있는 것은 통계가 묘사하는 실제 상황을 꼼꼼히 연구하고 숨은 변수가 있지는 않은지 생각해보는 것입니다. 그렇지 않으면 우리는 스스로를 지키기 힘들어집니다.