Nicholas Christakis: How social networks predict epidemics

For the last 10 years, I've been spending my time trying to figure out how and why human beings assemble themselves into social networks. And the kind of social network I'm talking about is not the recent online variety, but rather, the kind of social networks that human beings have been assembling for hundreds of thousands of years, ever since we emerged from the African savannah. So, I form friendships and co-worker and sibling and relative relationships with other people who in turn have similar relationships with other people. And this spreads on out endlessly into a distance. And you get a network that looks like this. Every dot is a person. Every line between them is a relationship between two people -- different kinds of relationships. And you can get this kind of vast fabric of humanity, in which we're all embedded.

Suốt 10 năm vừa qua, tôi đã dành thời gian cố gắng tìm hiểu làm cách nào và tại sao con người tập hợp thành các mạng lưới xã hội. Và thứ mạng xã hội tôi đang nói đến không phải là thể loại online gần đây, mà là những mạng lưới xã hội mà con người đã hình thành từ hàng trăm ngàn năm trước, từ khi chúng ta mới xuất hiện trên thảo nguyên châu Phi. Do đó, tôi hình thành quan hệ bạn bè và đồng nghiệp và anh chị em, họ hàng với những người mà cũng có những quan hệ tương tự với người khác. Và việc đó cứ lan rộng vô tận. Bạn được một mạng lưới trông như thế này. Mỗi chấm là một người. Mỗi đường nối là một quan hệ giữa hai người -- những quan hệ khác nhau. Và thế là bạn có được tấm vải rộng lớn của nhân loại mà chúng ta đều nằm trong đó.

And my colleague, James Fowler and I have been studying for quite sometime what are the mathematical, social, biological and psychological rules that govern how these networks are assembled and what are the similar rules that govern how they operate, how they affect our lives. But recently, we've been wondering whether it might be possible to take advantage of this insight, to actually find ways to improve the world, to do something better, to actually fix things, not just understand things. So one of the first things we thought we would tackle would be how we go about predicting epidemics.

Cộng sự của tôi, James Fowler, và tôi đã nghiên cứu khá lâu những quy luật toán học, xã hội, sinh học và tâm lý học điều khiển sự tập hợp các mạng lưới và những luật lệ tương tự vận hành và ảnh hưởng tới cuộc sống của chúng ta như thế nào. Gần đây chúng tôi đã tự hỏi liệu có thể tận dụng đánh giá này để thực sự tìm ra cách phát triển thế giới, và làm điều gì đó tốt đẹp hơn, để thực sự sửa chữa chứ không chỉ là hiểu các vấn đề. Do đó, một trong những việc đầu tiên chúng tôi cho rằng mình có thể xử lý được đó là dự báo đại dịch.

And the current state of the art in predicting an epidemic -- if you're the CDC or some other national body -- is to sit in the middle where you are and collect data from physicians and laboratories in the field that report the prevalence or the incidence of certain conditions. So, so and so patients have been diagnosed with something, or other patients have been diagnosed, and all these data are fed into a central repository, with some delay. And if everything goes smoothly, one to two weeks from now you'll know where the epidemic was today. And actually, about a year or so ago, there was this promulgation of the idea of Google Flu Trends, with respect to the flu, where by looking at people's searching behavior today, we could know where the flu -- what the status of the epidemic was today, what's the prevalence of the epidemic today.

Và kỹ thuật tiên tiến nhất trong dự đoán đại dịch -- nếu bạn thuộc CDC hay tổ chức quốc gia nào đó -- là ngồi tại chỗ và thu thập dữ liệu từ các bác sĩ và phòng thí nghiệm trong lĩnh vực mà báo cáo về sự lan tràn hoặc bùng phát những ca đặc biệt nào đó. Thế nên, bệnh nhận bị chẩn đoán mắc một bệnh nào đó [ở đây], hay những bệnh nhân khác cũng đã bị chẩn đoán mắc bệnh [ở kia], và tất cả các dữ liệu này được đưa về một bộ phận trung tâm sau một khoảng thời gian nhất định. Và nếu mọi chuyện trơn tru, một hay hai tuần sau bạn sẽ biết đại dịch bắt đầu từ hôm nay. Thực tế, khoảng một năm trước, có dư luận về Chức năng Xu hướng dịch cúm của Google, nơi mà khi nhìn vào hoạt động tìm kiếm của mọi người một hôm nào đó chúng ta có thể dịch cúm... tình trạng của đại dịch hôm đó ra sao, đại dịch lan tràn ở đâu hôm đó.

But what I'd like to show you today is a means by which we might get not just rapid warning about an epidemic, but also actually early detection of an epidemic. And, in fact, this idea can be used not just to predict epidemics of germs, but also to predict epidemics of all sorts of kinds. For example, anything that spreads by a form of social contagion could be understood in this way, from abstract ideas on the left like patriotism, or altruism, or religion to practices like dieting behavior, or book purchasing, or drinking, or bicycle-helmet [and] other safety practices, or products that people might buy, purchases of electronic goods, anything in which there's kind of an interpersonal spread. A kind of a diffusion of innovation could be understood and predicted by the mechanism I'm going to show you now.

Nhưng thứ mà tôi muốn cho các bạn xem hôm nay là một cách để ta có thể đưa ra không chỉ những cảnh báo tức thời mà còn có thể phát hiện sớm đại dịch. Và ý tưởng này có thể được dùng không chỉ để dự báo các đại dịch gây ra bởi vi trùng mà còn để dự đoán tất cả các loại đại dịch. Chẳng hạn, bất cứ thứ gì lan truyền bởi lây nhiễm khi tiếp xúc xã hội có thể được hiểu theo cách này, từ các khái niệm trừu tượng bên trái như lòng yêu nước, nhân đạo, hay tôn giáo, cho tới những thói quen như ăn kiêng, đặt mua sách hay uống rượu bia, hay đội mũ bảo hiểm xe đạp và sử dụng các đồ bảo vệ khác, hoặc những sản phẩm mà mọi người thường mua, các đồ điện tử mọi việc mà trong đó có những lan truyền từ người sang người. Việc lan truyền những sự đổi mới có thể được hiểu và dự đoán bởi cơ chế mà tôi sẽ cho các bạn xem bây giờ.

So, as all of you probably know, the classic way of thinking about this is the diffusion-of-innovation, or the adoption curve. So here on the Y-axis, we have the percent of the people affected, and on the X-axis, we have time. And at the very beginning, not too many people are affected, and you get this classic sigmoidal, or S-shaped, curve. And the reason for this shape is that at the very beginning, let's say one or two people are infected, or affected by the thing and then they affect, or infect, two people, who in turn affect four, eight, 16 and so forth, and you get the epidemic growth phase of the curve. And eventually, you saturate the population. There are fewer and fewer people who are still available that you might infect, and then you get the plateau of the curve, and you get this classic sigmoidal curve. And this holds for germs, ideas, product adoption, behaviors, and the like. But things don't just diffuse in human populations at random. They actually diffuse through networks. Because, as I said, we live our lives in networks, and these networks have a particular kind of a structure.

Vậy thì, như tất cả các bạn đã biết, thông thường việc này được đánh giá như việc lan truyền những đổi mới, hay đường biểu thị sự chấp nhận. Trên trục Y, chúng ta có phần trăm người bị ảnh hưởng, và trên trục X, chúng ta có thời gian. Lúc đầu, không có nhiều người bị ảnh hưởng, và bạn có đồ thị hình sin quen thuộc, hay hình chữ S. Lý do có hình này là bởi ban đầu, chẳng hạn có một hay hai người bị ảnh hưởng, hay bị lây nhiễm bởi vi rút, và sau đó họ lây nhiễm cho hai người khác, đến lượt họ lại lây truyền cho bốn, tám, 16 và cứ thế mãi, và bạn có đồ thị giai đoạn phát triển đại dịch. Cuối cùng, chúng chiếm gần toàn bộ dân số. Những người còn lại để lây nhiễm ngày một ít và đồ thị chững lại, ta được đường hình sin quen thuộc. Điều này đúng cho cả vi rút, ý tưởng, sự chấp nhận sản phẩm, hành vi và tương tự. Nhưng vi rút không lây lan trên người một cách ngẫu nhiên. Thực tế chúng lây lan qua các mạng lưới xã hội. Bởi, như tôi đã nói, chúng ta sống trong những mạng lưới và các mạng lưới này có một cấu trúc đặc biệt.

Now if you look at a network like this -- this is 105 people. And the lines represent -- the dots are the people, and the lines represent friendship relationships. You might see that people occupy different locations within the network. And there are different kinds of relationships between the people. You could have friendship relationships, sibling relationships, spousal relationships, co-worker relationships, neighbor relationships and the like. And different sorts of things spread across different sorts of ties. For instance, sexually transmitted diseases will spread across sexual ties. Or, for instance, people's smoking behavior might be influenced by their friends. Or their altruistic or their charitable giving behavior might be influenced by their coworkers, or by their neighbors. But not all positions in the network are the same.

Giờ nếu bạn nhìn vào một mạng lưới thế này... Đây là 105 người. Và các đường thẳng biểu thị...những chấm tròn là mọi người, và các đường thẳng biểu diễn những quan hệ bạn bè. Họ có thể nhận thấy mọi người chiếm những vị trí khác nhau trong mạng lưới. Và có những quan hệ khác nhau giữa mọi người. Các bạn có thể có quan hệ bạn bè, anh chị em, chồng vợ, đồng nghiệp, hàng xóm và tương tự. Những loại vi rút khác nhau lan truyền qua những mối quan hệ khác nhau. Chẳng hạn, bệnh truyền qua đường tình dục sẽ lây lan qua các quan hệ tình dục. Hay chẳng hạn, việc hút thuốc có thể được ảnh hưởng từ bạn bè. Hoặc các việc làm nhân đạo, từ thiện có thể được ảnh hưởng bởi đồng nghiệp hay hàng xóm. Nhưng không phải mọi vị trí trong mạng lưới đều giống nhau.

So if you look at this, you might immediately grasp that different people have different numbers of connections. Some people have one connection, some have two, some have six, some have 10 connections. And this is called the "degree" of a node, or the number of connections that a node has. But in addition, there's something else. So, if you look at nodes A and B, they both have six connections. But if you can see this image [of the network] from a bird's eye view, you can appreciate that there's something very different about nodes A and B. So, let me ask you this -- I can cultivate this intuition by asking a question -- who would you rather be if a deadly germ was spreading through the network, A or B? (Audience: B.) Nicholas Christakis: B, it's obvious. B is located on the edge of the network. Now, who would you rather be if a juicy piece of gossip were spreading through the network? A. And you have an immediate appreciation that A is going to be more likely to get the thing that's spreading and to get it sooner by virtue of their structural location within the network. A, in fact, is more central, and this can be formalized mathematically. So, if we want to track something that was spreading through a network, what we ideally would like to do is to set up sensors on the central individuals within the network, including node A, monitor those people that are right there in the middle of the network, and somehow get an early detection of whatever it is that is spreading through the network.

Nếu bạn nhìn vào đây, bạn sẽ lập tức hiểu rằng những người khác nhau có các mối quan hệ khác nhau. Một số người có một mối quan hệ, một số có hai, sáu, một số có mười quan hệ. Và đây được gọi là "bậc" của một nút, hay số kết nối mà một điểm nút có. Nhưng ngoài ra còn một thứ khác. Nếu bạn nhìn vào điểm nút A và B, chúng đều có sáu kết nối. Nhưng nếu bạn có thể thấy bức ảnh từ trên cao, các bạn có thể hiểu còn một điểm khác biệt giữa nút A và B. Tôi sẽ hỏi một câu hỏi -- Tôi có thể tạo ra trực giác bằng cách hỏi -- bạn sẽ là ai nếu một vi rút chết người đang lan truyền qua mạng lưới, A hay B? (Khán giả: B.) Nicholas Christakis: B, hiển nhiên. B nằm tại rìa mạng lưới. Giờ thì, bạn muốn là ai nếu một mẩu tin đồn đang lan truyền trong mạng lưới? A. Và bạn lập tức hiểu A dễ nhận được thứ đang lan truyền hơn và nhanh hơn nhờ vào vị trí cấu trúc trong mạng lưới. A, trong thực tế, ở gần trung tâm hơn, và có công thức toán học khẳng định điều này. Vậy, nếu chúng ta muốn theo dõi điều gì đó đang lan truyền qua một mạng lưới, việc lý tưởng sẽ là đặt cảm biến ở những cá nhân thuộc trung tâm mạng lưới, bao gồm A, theo dõi những người ở chính giữa mạng lưới và bằng cách nào đó nhận biết sớm bất cứ thứ gì đang lan truyền.

So if you saw them contract a germ or a piece of information, you would know that, soon enough, everybody was about to contract this germ or this piece of information. And this would be much better than monitoring six randomly chosen people, without reference to the structure of the population. And in fact, if you could do that, what you would see is something like this. On the left-hand panel, again, we have the S-shaped curve of adoption. In the dotted red line, we show what the adoption would be in the random people, and in the left-hand line, shifted to the left, we show what the adoption would be in the central individuals within the network. On the Y-axis is the cumulative instances of contagion, and on the X-axis is the time. And on the right-hand side, we show the same data, but here with daily incidence. And what we show here is -- like, here -- very few people are affected, more and more and more and up to here, and here's the peak of the epidemic. But shifted to the left is what's occurring in the central individuals. And this difference in time between the two is the early detection, the early warning we can get, about an impending epidemic in the human population.

Nếu bạn thấy họ nhiễm vi rút hay có một thông tin mới, bạn sẽ biết rằng, không lâu sau mọi người cũng sẽ nhiễm vi rút hay thông tin mới này. Làm như thế sẽ tốt hơn là theo dõi sáu người ngẫu nhiên, mà không quan tâm tới cấu trúc xã hội. Trong thực tế, nếu bạn có thể làm thế, bạn sẽ thấy một thứ như thế này. Phía bên trái, một lần nữa ta lại có đường chữ S về sự tiếp nhận. Đường chấm màu đỏ biểu thị sự tiếp nhận ở những người ngẫu nhiên, và đường tay trái, dịch về bên trái, biểu thị sự tiếp nhận ở những người thuộc trung tâm mạng lưới. Trên trục Y là những thời điểm lan truyền, và trục X là thời gian. Phía tay phải là những dữ liệu tương tự nhưng với các sự kiện hàng ngày. Ở đây thể hiện rất ít người bị ảnh hưởng, nhiều dần lên ở đây và đây là đỉnh của đại dịch. Nhưng dịch sang bên trái là những người ở trung tâm. Và điểm khác biệt về thời gian ở hai nhóm là sự phát hiện sớm, cảnh báo mà ta có thể đưa ra sớm về một đại dịch sắp đến trong toàn dân.

The problem, however, is that mapping human social networks is not always possible. It can be expensive, not feasible, unethical, or, frankly, just not possible to do such a thing. So, how can we figure out who the central people are in a network without actually mapping the network? What we came up with was an idea to exploit an old fact, or a known fact, about social networks, which goes like this: Do you know that your friends have more friends than you do? Your friends have more friends than you do, and this is known as the friendship paradox. Imagine a very popular person in the social network -- like a party host who has hundreds of friends -- and a misanthrope who has just one friend, and you pick someone at random from the population; they were much more likely to know the party host. And if they nominate the party host as their friend, that party host has a hundred friends, therefore, has more friends than they do. And this, in essence, is what's known as the friendship paradox. The friends of randomly chosen people have higher degree, and are more central than the random people themselves.

Tuy nhiên, vấn đề đó là lập bản đồ các mạng xã hội của con người không phải lúc nào cũng khả thi. Việc này có thể tốn rất nhiều chi phí, rất khó khăn, phi đạo đức, hay, thẳng thắn mà nói, chỉ đơn giản là không thể làm được. Vậy, làm cách nào chúng ta tìm ra ai là những người ở trung tâm mà không phải thực sự lập bản đồ mạng lưới? Chúng tôi có một ý tưởng về việc lợi dụng một thực tế đã cũ về mạng xã hội, đó là: Bạn có biết rằng các bạn mình có nhiều bạn bè hơn bạn? Bạn của bạn có nhiều bạn hơn bạn. Và đây được coi là nghịch lý quan hệ bạn bè. Tưởng tượng một người giao tiếp rất rộng trong mạng xã hôi -- như là một người hay tổ chức tiệc tùng có hàng trăm bạn bè -- và một người xa lánh cộng đồng chỉ có một người bạn, và bạn chọn ai đó ngẫu nhiên từ cộng đồng; thì nhiều khả năng người đó sẽ biết người tổ chức tiệc tùng. Và nếu họ có bạn là người hay tổ chức party, người đó có hàng trăm bạn bè, nên có nhiều bạn bè hơn người ban đầu. Về bản chất đây là nghịch lý bạn bè. Bạn bè của người được chọn ngẫu nhiên có "bậc" cao hơn, và thuộc trung tâm nhiều hơn là chính người ngẫu nhiên đó.

And you can get an intuitive appreciation for this if you imagine just the people at the perimeter of the network. If you pick this person, the only friend they have to nominate is this person, who, by construction, must have at least two and typically more friends. And that happens at every peripheral node. And in fact, it happens throughout the network as you move in, everyone you pick, when they nominate a random -- when a random person nominates a friend of theirs, you move closer to the center of the network. So, we thought we would exploit this idea in order to study whether we could predict phenomena within networks. Because now, with this idea we can take a random sample of people, have them nominate their friends, those friends would be more central, and we could do this without having to map the network.

Bạn có thể hiểu điều này nếu hình dung những người ở rìa mạng lưới. Nếu bạn chọn người này, người bạn duy nhất họ có là người này, và theo cấu trúc lưới, phải có ít nhất hai người bạn, thường là nhiều hơn. Điều này xảy ra ở mọi nút rìa. Thực tế, nó xảy ra ở toàn mạng lưới khi ta đi dần vào, mọi người được chọn, khi một người ngẫu nhiên chọn một người bạn, bạn tiến gần hơn trung tâm mạng lưới. Thế nên chúng tôi nghĩ có thể sử dụng ý tưởng này để nghiên cứu xem liệu ta có thể dự đoán hiện tượng trong các mạng lưới hay không. Bởi bây giờ, với ý tưởng này, ta có thể tập hợp một nhóm người ngẫu nhiên, để họ chọn các bạn bè mình, những người bạn đó sẽ gần trung tâm hơn, và chúng ta có thể làm thế mà không phải lập bản đồ cả mạng lưới.

And we tested this idea with an outbreak of H1N1 flu at Harvard College in the fall and winter of 2009, just a few months ago. We took 1,300 randomly selected undergraduates, we had them nominate their friends, and we followed both the random students and their friends daily in time to see whether or not they had the flu epidemic. And we did this passively by looking at whether or not they'd gone to university health services. And also, we had them [actively] email us a couple of times a week. Exactly what we predicted happened. So the random group is in the red line. The epidemic in the friends group has shifted to the left, over here. And the difference in the two is 16 days. By monitoring the friends group, we could get 16 days advance warning of an impending epidemic in this human population.

Chúng tôi đã thử nghiệm ý tưởng này khi dịch H1N1 bùng phát tại Đại học Harvard vào thu đông 2009, chỉ vài tháng trước. Chúng tôi chọn ngẫu nhiên 1300 sinh viên và yêu cầu họ chọn ra một số người bạn, chúng tôi theo dõi cả những sinh viên ngẫu nhiên và bạn của họ hằng ngày để xem liệu họ có nhiễm dịch hay không. Chúng tôi làm việc này một cách thụ động bằng cách quan sát họ có đến khu dịch vụ y tế của trường hay không. Chúng tôi yêu cầu họ chủ động email cho chúng tôi hai lần mỗi tuần. Chính xác những điều chúng tôi dự đoán đã xảy ra. Thế nên nhóm ngẫu nhiên thuộc đường màu đỏ. Dịch bệnh trong nhóm bạn đã dịch sang trái, tới đây. Sự khác biệt giữa hai nhóm là 16 ngày. Bằng việc quan sát nhóm những người bạn, chúng ta có thể có cảnh báo sớm hơn 16 ngày. về một dịch bệnh sắp đến.

Now, in addition to that, if you were an analyst who was trying to study an epidemic or to predict the adoption of a product, for example, what you could do is you could pick a random sample of the population, also have them nominate their friends and follow the friends and follow both the randoms and the friends. Among the friends, the first evidence you saw of a blip above zero in adoption of the innovation, for example, would be evidence of an impending epidemic. Or you could see the first time the two curves diverged, as shown on the left. When did the randoms -- when did the friends take off and leave the randoms, and [when did] their curve start shifting? And that, as indicated by the white line, occurred 46 days before the peak of the epidemic. So this would be a technique whereby we could get more than a month-and-a-half warning about a flu epidemic in a particular population.

Thêm vào đó, nếu bạn là một nhà phân tích đang nghiên cứu một dịch bệnh hay dự đoán sự chấp nhận một sản phẩm chẳng hạn, bạn có thể chọn một nhóm ngẫu nhiên và để họ chọn các bạn mình, theo dõi những người bạn, và theo dõi cả nhóm ngẫu nhiên. Ở những người bạn, một điểm trên mức sàn trong việc tiếp nhận thay đổi, ví dụ như vậy, có thể là bằng chứng cho một đại dịch sắp tới. Hay bạn có thể thấy lần đầu hai đường cong tách ra, như ta thấy ở bên trái. Khi nào thì nhóm bạn đi lên và tách khỏi nhóm ngẫu nhiên, và đường biểu thị của họ bắt đầu dịch chuyển? Việc đó, như đường màu trắng biểu diễn, diễn ra trong 46 ngày trước khi chạm đỉnh đại dịch. Thế nên đây có thể là một kỹ thuật nhờ đó ta có thể cảnh báo sớm hơn một tháng rưỡi về dịch cúm trong một nhóm dân cụ thể.

I should say that how far advanced a notice one might get about something depends on a host of factors. It could depend on the nature of the pathogen -- different pathogens, using this technique, you'd get different warning -- or other phenomena that are spreading, or frankly, on the structure of the human network. Now in our case, although it wasn't necessary, we could also actually map the network of the students.

Cảnh báo sớm bao nhiêu phụ thuộc vào nhiều yếu tố. Đó có thể là bản chất dịch bệnh -- các dịch bệnh khác nhau, với kỹ thuật này, bạn có các cảnh báo khác nhau -- hay những hiện tượng cũng đang lây lan khác hay là cấu trúc của mạng xã hội. Trong trường hợp của chúng ta, dù không cần thiết, chúng ta cũng có thể thực sự lập bản đồ mạng lưới các sinh viên.

So, this is a map of 714 students and their friendship ties. And in a minute now, I'm going to put this map into motion. We're going to take daily cuts through the network for 120 days. The red dots are going to be cases of the flu, and the yellow dots are going to be friends of the people with the flu. And the size of the dots is going to be proportional to how many of their friends have the flu. So bigger dots mean more of your friends have the flu. And if you look at this image -- here we are now in September the 13th -- you're going to see a few cases light up. You're going to see kind of blooming of the flu in the middle. Here we are on October the 19th. The slope of the epidemic curve is approaching now, in November. Bang, bang, bang, bang, bang -- you're going to see lots of blooming in the middle, and then you're going to see a sort of leveling off, fewer and fewer cases towards the end of December. And this type of a visualization can show that epidemics like this take root and affect central individuals first, before they affect others.

Đây là một mạng lưới 714 sinh viên và các quan hệ bạn bè giữa họ. Trong vòng một phút, tôi sẽ cho mạng lưới này chuyển động. Chúng ta sẽ xem các biến động trong mạng lưới trong 120 ngày. Những chấm đỏ là các ca bị cúm, và những chấm vàng là bạn của những người bị mắc cúm. Kích cỡ các chấm tròn tỉ lệ với số người bạn mắc cúm của một người. Vậy nên chấm to hơn nghĩa là người đó có nhiều bạn mắc cúm hơn. Nếu nhìn vào hình này -- chúng ta đang ở ngày 13 tháng 9 -- các bạn sẽ thấy một số ca xuất hiện. Bạn sẽ thấy sự bùng nổ dịch cúm ở giữa. Đây là ngày 19 tháng Mười. Sườn nghiêng của đường cong đang tới gần, vào tháng 11. Bang, bang, bang, bang, bang, các bạn sẽ thấy sự bùng nổ ở giữa, và sau đó gần như chững lại, càng ngày càng ít ca hơn cho tới hết tháng 12. Và cách minh họa này cho thấy dịch bệnh như thế này bắt đầu và ảnh hưởng tới những người ở trung tâm đầu tiên, trước khi họ lây nhiễm cho người khác.

Now, as I've been suggesting, this method is not restricted to germs, but actually to anything that spreads in populations. Information spreads in populations, norms can spread in populations, behaviors can spread in populations. And by behaviors, I can mean things like criminal behavior, or voting behavior, or health care behavior, like smoking, or vaccination, or product adoption, or other kinds of behaviors that relate to interpersonal influence. If I'm likely to do something that affects others around me, this technique can get early warning or early detection about the adoption within the population. The key thing is that for it to work, there has to be interpersonal influence. It cannot be because of some broadcast mechanism affecting everyone uniformly.

Như tôi đã gợi ý, phương pháp này không chỉ giới hạn cho vi trùng, mà còn áp dụng được cho mọi thứ lan truyền trong cộng đồng. Thông tin lan truyền trong cộng đồng. Các chuẩn mực có thể lan truyền trong cộng đồng. Hành vi có thể lan truyền trong cộng đồng. Và hành vi có thể là tội phạm, bầu cử, hay chăm sóc sức khỏe như hút thuốc, tiêm vaccin hay tiếp nhận sản phẩm, hay các hành vi khác liên quan đến ảnh hưởng từ người này sang người khác. Nếu tôi có thể làm việc gì đó ảnh hưởng tới mọi người quanh mình, kỹ thuật này sẽ cho cảnh báo sớm, hay chẩn đoán sớm về sự tiếp nhận của mọi người. Điều quan trọng là, để nó có hiệu quả phải có ảnh hưởng qua lại giữa các cá nhân. Nó không thể phát sinh từ một cơ chế đại chúng tác động đến mọi người đều giống nhau.

Now the same insights can also be exploited -- with respect to networks -- can also be exploited in other ways, for example, in the use of targeting specific people for interventions. So, for example, most of you are probably familiar with the notion of herd immunity. So, if we have a population of a thousand people, and we want to make the population immune to a pathogen, we don't have to immunize every single person. If we immunize 960 of them, it's as if we had immunized a hundred [percent] of them. Because even if one or two of the non-immune people gets infected, there's no one for them to infect. They are surrounded by immunized people. So 96 percent is as good as 100 percent. Well, some other scientists have estimated what would happen if you took a 30 percent random sample of these 1000 people, 300 people and immunized them. Would you get any population-level immunity? And the answer is no. But if you took this 30 percent, these 300 people and had them nominate their friends and took the same number of vaccine doses and vaccinated the friends of the 300 -- the 300 friends -- you can get the same level of herd immunity as if you had vaccinated 96 percent of the population at a much greater efficiency, with a strict budget constraint.

Các cơ chế tương tự cũng có thể được sử dụng theo những cách khác, chẳng hạn, trong việc hướng đến một số người cụ thể để can thiệp. Chẳng hạn, một số trong các bạn đã quen với khái niệm miễn dịch bầy đàn. Nếu ta có 1000 người, và muốn khiến họ miễn dịch với một loại bênh, ta không phải miễn nhiễm cho từng người. Nếu ta miễn nhiễm cho 960 người trong số họ, cũng giống như đã miễn nhiễm 100%. Bởi ngay cả khi một hay hai người chưa miễn nhiễm bị mắc bệnh, sẽ không có ai để họ lây bệnh sang. Họ được bao quanh bởi những người đã bị miễn nhiễm. Thế nên 96 % cũng như là 100%. Một số nhà khoa học khác đã ước tính xem chuyện gì sẽ xảy ra nếu bạn lấy ngẫu nhiên 30% trong 1000 người, 300 người và miễn nhiễm cho họ. Liệu bạn có đạt được miễn dịch cho toàn bộ mọi người không? Câu trả lời là không. Nhưng nếu bạn lấy 30% này, 300 người này, và để họ chọn một người bạn rồi với cùng lượng vaccin đó tiêm cho bạn bè của 300 người kia, 300 người bạn, bạn sẽ đạt được sự miễn dịch cho toàn bộ tương tự như khi tiêm vaccin cho 96 phần trăm dân số với hiệu quả cao hơn, ngân quỹ thấp hơn.

And similar ideas can be used, for instance, to target distribution of things like bed nets in the developing world. If we could understand the structure of networks in villages, we could target to whom to give the interventions to foster these kinds of spreads. Or, frankly, for advertising with all kinds of products. If we could understand how to target, it could affect the efficiency of what we're trying to achieve. And in fact, we can use data from all kinds of sources nowadays [to do this].

Ý tưởng tương tự có thể được sử dụng trong việc phân phát những thứ như màn chống muỗi ở các nước đang phát triển. Nếu ta có thể hiểu cấu trúc mạng lưới trong những ngôi làng, chúng ta sẽ có thể tìm đúng người để tác động và hỗ trợ thêm sự lan truyền. Hay cho việc quảng cáo mọi loại sản phẩm. Nếu ta có thể hiểu cách định hướng đối tượng ra sao, nó có thể ảnh hưởng tới hiệu quả của việc ta đang muốn đạt được. Trong thực tế, chúng ta có thể sử dụng dữ liệu từ mọi nguồn hiện nay để làm việc đó.

This is a map of eight million phone users in a European country. Every dot is a person, and every line represents a volume of calls between the people. And we can use such data, that's being passively obtained, to map these whole countries and understand who is located where within the network. Without actually having to query them at all, we can get this kind of a structural insight. And other sources of information, as you're no doubt aware are available about such features, from email interactions, online interactions, online social networks and so forth. And in fact, we are in the era of what I would call "massive-passive" data collection efforts. They're all kinds of ways we can use massively collected data to create sensor networks to follow the population, understand what's happening in the population, and intervene in the population for the better. Because these new technologies tell us not just who is talking to whom, but where everyone is, and what they're thinking based on what they're uploading on the Internet, and what they're buying based on their purchases. And all this administrative data can be pulled together and processed to understand human behavior in a way we never could before.

Đây là bản đồ tám triệu người dùng điện thoại tại một quốc gia châu Âu. Mỗi chấm là một người, và mỗi đường thẳng biểu thị tổng số cuộc gọi giữa mọi người. Chúng ta có thể sử dụng dữ liệu như thế, đạt được một cách thụ động, để lập bản đồ toàn bộ quốc gia và tìm hiểu vị trí của mọi người trong mạng lưới. Không phải tra hỏi họ chút nào, ta có thể đạt được một sự thấu hiểu về cấu trúc. Những nguồn thông tin khác, như các bạn đều biết, cũng mang các đặc điểm đó, từ email, tương tác online, mạng xã hội online và tương tự. Thực tế, chúng ta đang ở trong thời đại mà tôi cho rằng thu thập một khối lượng dữ liệu đồ sộ và thụ động. Đây là những cách ta có thể dùng dữ liệu thu thập thụ động để tạo ra mạng lưới cảm biến theo dõi cộng đồng, thấu hiểu điều đang diễn ra trong cộng đồng, và tác động để đạt được điều tốt đẹp hơn. Bởi vì những công nghệ mới cho ta biết không chỉ ai đang nói chuyện với ai, mà còn mọi người đang ở đâu, và họ đang nghĩ gì dựa vào những gì họ đang tải lên mạng, và những gì họ đang mua dựa trên đơn đặt hàng của họ. Tất cả các dữ liệu quản lý này có thể được tập hợp và xử lý để tìm hiểu hành vi xã hội theo một cách mà trước đây bất khả thi.

So, for example, we could use truckers' purchases of fuel. So the truckers are just going about their business, and they're buying fuel. And we see a blip up in the truckers' purchases of fuel, and we know that a recession is about to end. Or we can monitor the velocity with which people are moving with their phones on a highway, and the phone company can see, as the velocity is slowing down, that there's a traffic jam. And they can feed that information back to their subscribers, but only to their subscribers on the same highway located behind the traffic jam! Or we can monitor doctors prescribing behaviors, passively, and see how the diffusion of innovation with pharmaceuticals occurs within [networks of] doctors. Or again, we can monitor purchasing behavior in people and watch how these types of phenomena can diffuse within human populations.

Chẳng hạn, chúng ta có thể sử dụng những lần đổ xăng của người lái xe tải. Những người lái xe đơn giản là làm công việc của họ, và mua xăng. Khi thấy gia tăng trong những lần mua xăng, ta biết rằng suy thoái sắp kết thúc. Hay chúng ta có thể theo dỗi vận tốc mà mọi người đang đi trên đường cao tốc với điện thoại của họ, và công ty điện thoại có thể thấy, khi vận tốc giảm xuống là có tắc đường. Họ có thể đưa thông tin đó lại cho những người đã đăng ký nhận tin, nhưng chỉ cho những người ở trên tuyến đường đó mà ở đằng trước đoạn tắc! Hoặc ta có thể theo dõi những lần kê đơn của bác sĩ, một cách thụ động, và quan sát sự lan truyền của những tiến bộ dược phẩm diễn ra như thế nào trong mạng lưới các bác sĩ. Hoặc chúng ta có thể theo dõi việc đặt hàng của mọi người và xem những hiện tượng này lan truyền như thế nào trong mọi người.

And there are three ways, I think, that these massive-passive data can be used. One is fully passive, like I just described -- as in, for instance, the trucker example, where we don't actually intervene in the population in any way. One is quasi-active, like the flu example I gave, where we get some people to nominate their friends and then passively monitor their friends -- do they have the flu, or not? -- and then get warning. Or another example would be, if you're a phone company, you figure out who's central in the network and you ask those people, "Look, will you just text us your fever every day? Just text us your temperature." And collect vast amounts of information about people's temperature, but from centrally located individuals. And be able, on a large scale, to monitor an impending epidemic with very minimal input from people. Or, finally, it can be more fully active -- as I know subsequent speakers will also talk about today -- where people might globally participate in wikis, or photographing, or monitoring elections, and upload information in a way that allows us to pool information in order to understand social processes and social phenomena.

Có ba cách mà những dữ liệu này có thể được sử dụng. Một là hoàn toàn thụ động, như tôi vừa miêu tả -- như trong ví dụ người lái xe tải, khi ta không thực sự tác động tới mọi người theo bất cứ cách nào. Một là bán chủ động, như ví dụ dịch cúm, khi ta cần một số người chọn ra bạn của họ và theo dõi những người bạn một cách thụ động -- họ có bị cúm hay không? -- và đưa ra cảnh báo. Một ví dụ khác, nếu bạn có một công ty điện thoại, bạn tìm ra người nào ở trung tâm mạng lưới, và yêu cầu những người đó, "Các bạn sẽ nhắn tin cho chúng tôi về dịch sốt mỗi ngày nhé? Chỉ đơn giản nhắn nhiệt độ cơ thể thôi." Và thu thập những khối lượng thông tin đồ sộ về thân nhiệt của mọi người, nhưng từ những người ở trung tâm. Và bạn có thể theo dõi một dịch bệnh sắp đến trên diện rộng với chỉ đóng góp tối thiểu từ mọi người. Cuối cùng, nó có thể là hoàn toàn chủ động -- như tôi biết các diễn giả tiếp theo sẽ trình bày hôm nay -- theo cách đó mọi người toàn thế giới có thể tham gia vào các wiki, chụp ảnh, theo dõi bầu cử, rồi upload thông tin sao cho chúng ta có thể sắp xếp thông tin nhằm phân tích các quá trình xã hội và hiện tượng xã hội.

In fact, the availability of these data, I think, heralds a kind of new era of what I and others would like to call "computational social science." It's sort of like when Galileo invented -- or, didn't invent -- came to use a telescope and could see the heavens in a new way, or Leeuwenhoek became aware of the microscope -- or actually invented -- and could see biology in a new way. But now we have access to these kinds of data that allow us to understand social processes and social phenomena in an entirely new way that was never before possible. And with this science, we can understand how exactly the whole comes to be greater than the sum of its parts. And actually, we can use these insights to improve society and improve human well-being.

Thực tế, sự tiện dụng của những dữ liệu này hé mở một thời kỳ mới mà tôi và những người khác muốn gọi là "khoa học xã hội tính toán" Như là khi Galileo phát minh ra -- hay là, không phát minh -- sử dụng kính viễn vọng và có thể nhìn thấy thiên đàng theo một cách mới, hay Leeuwenhoek biết đến kính hiển vi -- thực ra là phát minh ra -- và có thể nhìn sinh học theo một cách mới. Giờ đây chúng ta có thể tiếp cận những loại dữ liệu cho phép ta nghiên cứu các quá trình xã hội và hiện tượng xã hội theo một cách hoàn toàn mới mà trước đây chưa thể làm được. Và với ngành khoa học này, chúng ta có thể thấu hiểu chính xác làm cách nào chỉnh thể lớn hơn tổng các phần cộng lại. Và thực sự, chúng ta có thể sử dụng các quan sát này để phát triển xã hội và nâng cao đời sống mọi người.

Thank you.

Cảm ơn các bạn.

Thank you.

Cảm ơn các bạn.

Nicholas Christakis: How social networks predict epidemics

Nicholas Christakis: How social networks predict epidemics

Related talks

Nicholas Christakis: The hidden influence of social networks

Dan Dennett: Dangerous memes

Laurie Garrett: Lessons from the 1918 flu

Gary Slutkin: Let's treat violence like a contagious disease

Andreas Raptopoulos: No roads? There's a drone for that

Eric Berlow and Sean Gourley: Mapping ideas worth spreading

Related talks

Nicholas Christakis: The hidden influence of social networks

Dan Dennett: Dangerous memes

Laurie Garrett: Lessons from the 1918 flu

Gary Slutkin: Let's treat violence like a contagious disease

Andreas Raptopoulos: No roads? There's a drone for that

Eric Berlow and Sean Gourley: Mapping ideas worth spreading