Posledních 10 let trávím čas tím, že se snažím zjistit, jak a proč se lidé sdružují v sociálních sítích. Sociálními sítěmi, které mám na mysli, nejsou současné online sítě, ale ty sociální sítě, ve kterých se lidé sdružují po stovky tisíc let, od té doby co jsme se objevili na afrických savanách. Takže, navazuji přátelství, vztahy s kolegy, sourozenecké a příbuzenské vztahy s ostatními lidmi, kteří mají obdobné vztahy s dalšími lidmi. A to se jde dál a dál. Získáme síť, která vypadá takto. Každý bod je jeden člověk. Každá čára představuje vztah mezi dvěma lidmi -- různé typy vztahů. Získáte tak rozsáhlou spleť lidstva, jehož jsme všichni součástí.
For the last 10 years, I've been spending my time trying to figure out how and why human beings assemble themselves into social networks. And the kind of social network I'm talking about is not the recent online variety, but rather, the kind of social networks that human beings have been assembling for hundreds of thousands of years, ever since we emerged from the African savannah. So, I form friendships and co-worker and sibling and relative relationships with other people who in turn have similar relationships with other people. And this spreads on out endlessly into a distance. And you get a network that looks like this. Every dot is a person. Every line between them is a relationship between two people -- different kinds of relationships. And you can get this kind of vast fabric of humanity, in which we're all embedded.
S kolegou Jamesem Fowlerem už delší dobu studujeme, jaká jsou matematická, společenská, biologická a psychologická pravidla, která určují, jak jsou tyto sítě sestavovány, a stejně tak pravidla určující jak fungují a jak ovlivňují naše životy. Poslední dobou jsme přemýšleli, jestli by bylo možné využít těchto poznatků při hledání způsobů jak zlepšit svět, něco zlepšit, něco opravdu vylepšit, nejen tomu porozumět. Jedna z prvních věcí, na které jsme se rozhodli zaměřit, je jak předpovídat epidemie.
And my colleague, James Fowler and I have been studying for quite sometime what are the mathematical, social, biological and psychological rules that govern how these networks are assembled and what are the similar rules that govern how they operate, how they affect our lives. But recently, we've been wondering whether it might be possible to take advantage of this insight, to actually find ways to improve the world, to do something better, to actually fix things, not just understand things. So one of the first things we thought we would tackle would be how we go about predicting epidemics.
Současný způsob předvídání epidemií -- jste-li CDC (Centrum kontroly a prevence chorob) či jiné národní centrum -- je být uprostřed a sbírat údaje od lékařů a laboratoří v dané oblasti, kteří referují o rozšíření nebo výskytu určitých podmínek. Ti a ti pacienti byli s něčím diagnostikováni, ti pacienti byli diagnostikováni [tady], a všechny tyto údaje se s jistým zpožděním shromažďují v centrálním archivu. A jde-li vše hladce, budete ode dneška za týden či dva vědět, kde byla epidemie dnes. Vlastně, asi tak před rokem byl spuštěn projekt Google Flu Trends (Google vývoj chřipky), kde na základě toho, jak a co dnes lidé vyhledávají, můžeme říct, že chřipka … jaký je dnešní stav epidemie, jak je epidemie rozšířená právě dnes.
And the current state of the art in predicting an epidemic -- if you're the CDC or some other national body -- is to sit in the middle where you are and collect data from physicians and laboratories in the field that report the prevalence or the incidence of certain conditions. So, so and so patients have been diagnosed with something, or other patients have been diagnosed, and all these data are fed into a central repository, with some delay. And if everything goes smoothly, one to two weeks from now you'll know where the epidemic was today. And actually, about a year or so ago, there was this promulgation of the idea of Google Flu Trends, with respect to the flu, where by looking at people's searching behavior today, we could know where the flu -- what the status of the epidemic was today, what's the prevalence of the epidemic today.
Nyní bych vám však chtěl ukázat způsob, díky němuž bychom mohli získat nejen rychlé varování před epidemií, ale rovněž možnost odhalit nákazu v jejím začátku. Tento způsob může být použit nejen k předvídání epidemií bacilů, ale k předvídání nákaz nejrůznějšího druhu. To znamená vše, co se může šířit mezi lidmi formou společenské nákazy, od abstraktních idejí, nalevo, jako je vlastenectví, altruismus nebo náboženství k zvyklostem jako jsou diety, nákup knih, pití alkoholu, používání cyklistické helmy a jiné bezpečnostní praktiky, nebo zboží, které si lidé mohou koupit, nákup elektroniky, cokoliv, co se může šířit mezilidskými vztahy. Jakékoliv šíření inovací může být chápáno a předpovídáno způsobem, který vám teď ukážu.
But what I'd like to show you today is a means by which we might get not just rapid warning about an epidemic, but also actually early detection of an epidemic. And, in fact, this idea can be used not just to predict epidemics of germs, but also to predict epidemics of all sorts of kinds. For example, anything that spreads by a form of social contagion could be understood in this way, from abstract ideas on the left like patriotism, or altruism, or religion to practices like dieting behavior, or book purchasing, or drinking, or bicycle-helmet [and] other safety practices, or products that people might buy, purchases of electronic goods, anything in which there's kind of an interpersonal spread. A kind of a diffusion of innovation could be understood and predicted by the mechanism I'm going to show you now.
Jak asi všichni víte, klasicky se používá model "šíření inovací" neboli křivka osvojení. Zde, osa Y znázorňuje procento ovlivněných lidí a na ose X máme čas. Na úplném začátku je jen velmi málo ovlivněných lidí, získáme tuto klasickou sigmoidu, neboli křivku ve tvaru S. Tento tvar má díky tomu, že na úplném začátku je řekněme jeden nebo dva lidé, kteří jsou tím něčím zasaženi nebo nakaženi, ti pak to pak přenesou dál a nakazí další dva, kteří pak následně nakazí 4, 8, 16 lidí, a tak dál, a tak získáte vzrůstající fázi křivky epidemie. A nakonec nasytíte populaci. Je zde méně a méně lidí, které ještě stále můžete infikovat, a to je moment, kdy je křivka opět rovná, a vznikne tak tato klasická sigmoidní křivka. To platí po bacily, ideje, osvojení zboží, chování, a tak podobně. Ale věci se nešíří lidskou populací náhodně. Ve skutečnosti se šíří skrze sítě. Jak jsem již řekl, žijeme v sítích a tyto sítě mají určitou strukturu.
So, as all of you probably know, the classic way of thinking about this is the diffusion-of-innovation, or the adoption curve. So here on the Y-axis, we have the percent of the people affected, and on the X-axis, we have time. And at the very beginning, not too many people are affected, and you get this classic sigmoidal, or S-shaped, curve. And the reason for this shape is that at the very beginning, let's say one or two people are infected, or affected by the thing and then they affect, or infect, two people, who in turn affect four, eight, 16 and so forth, and you get the epidemic growth phase of the curve. And eventually, you saturate the population. There are fewer and fewer people who are still available that you might infect, and then you get the plateau of the curve, and you get this classic sigmoidal curve. And this holds for germs, ideas, product adoption, behaviors, and the like. But things don't just diffuse in human populations at random. They actually diffuse through networks. Because, as I said, we live our lives in networks, and these networks have a particular kind of a structure.
Teď, když se podíváte na síť jako je tato... Toto je 105 lidí. Ty čáry představují ... body jsou lidé a čáry představují přátelské vztahy. Můžete vidět, že lidé se nachází na různých místech v rámci sítě. A vztahy mezi lidmi mají nejrůznější charakter. Můžete mít přátelský či sourozenecký vztah, manželský nebo pracovní vztah, sousedský vztah, a tak dále. A různé věci se šíří prostřednictvím odlišných vazeb. Například, sexuálně přenosné choroby se budou šíří sexuálními vazbami. Nebo třeba vztah lidí ke kouření může být ovlivněn jejich přáteli. Jejich altruismus či ochota přispívat na charitu mohou být ovlivněny jejich spolupracovníky či sousedy. Ne všechna postavení v rámci sítě jsou totožná.
Now if you look at a network like this -- this is 105 people. And the lines represent -- the dots are the people, and the lines represent friendship relationships. You might see that people occupy different locations within the network. And there are different kinds of relationships between the people. You could have friendship relationships, sibling relationships, spousal relationships, co-worker relationships, neighbor relationships and the like. And different sorts of things spread across different sorts of ties. For instance, sexually transmitted diseases will spread across sexual ties. Or, for instance, people's smoking behavior might be influenced by their friends. Or their altruistic or their charitable giving behavior might be influenced by their coworkers, or by their neighbors. But not all positions in the network are the same.
Podíváte-li se sem, okamžitě si všimnete, že různí lidé mají odlišný počet vazeb. Někteří mají jednu vazbu, jiní dvě, někteří šest a jiní deset. Tomu se říká "stupeň" uzlového bodu, čili množství vazeb, které daný uzel má. A pak je tu ještě jedna věc. Když se podíváte na uzel A a B, oba mají šest vazeb. Ale podíváte-li se na tento obrázek z ptačího pohledu, uvědomíte si, že mezi uzlem A a B je velký rozdíl. Takže se vás zeptám -- trochu to tou otázkou rozvinu -- kým byste chtěli být, kdyby se sítí šířila smrtelná bakterie, A nebo B? (Publikum: B) Nicholas Christakis: B, samozřejmě. B se nachází na okraji sítě. Teď, kým byste chtěli být, kdyby se sítí šířil šťavnatý drb? A. Okamžitě vám je jasné, že A má mnohem větší šanci dostat to, co se šíří, a že to dostane rychleji díky své pozici v rámci dané struktury sítě. Ve skutečnosti je 'A' mnohem více v centru, což může být vyjádřeno matematicky. Takže pokud chceme sledovat to, co se šíří sítí, ideálně bychom měli umístit senzory na jedince, kteří jsou v centru sítě, včetně uzlu A, sledovat tyto osoby, jež jsou v centru sítě, a tím nějak včasně odhalit to, ať už je to cokoliv, co se šíří sítí.
So if you look at this, you might immediately grasp that different people have different numbers of connections. Some people have one connection, some have two, some have six, some have 10 connections. And this is called the "degree" of a node, or the number of connections that a node has. But in addition, there's something else. So, if you look at nodes A and B, they both have six connections. But if you can see this image [of the network] from a bird's eye view, you can appreciate that there's something very different about nodes A and B. So, let me ask you this -- I can cultivate this intuition by asking a question -- who would you rather be if a deadly germ was spreading through the network, A or B? (Audience: B.) Nicholas Christakis: B, it's obvious. B is located on the edge of the network. Now, who would you rather be if a juicy piece of gossip were spreading through the network? A. And you have an immediate appreciation that A is going to be more likely to get the thing that's spreading and to get it sooner by virtue of their structural location within the network. A, in fact, is more central, and this can be formalized mathematically. So, if we want to track something that was spreading through a network, what we ideally would like to do is to set up sensors on the central individuals within the network, including node A, monitor those people that are right there in the middle of the network, and somehow get an early detection of whatever it is that is spreading through the network.
Takže, kdybyste viděli, že mají nějaký bacil nebo informaci, věděli byste, že časem ten bacil nebo tu informaci budou mít i všichni ostatní. Tohle by bylo mnohem lepší než sledovat šest náhodně vybraných jedinců bez ohledu na strukturu dané populace. Takže pokud byste to udělali, uviděli byste něco takovéhoto. Nalevo máme opět esovitou křivku osvojení. Červeně tečkovaná linie ukazuje, jaké by bylo osvojení u náhodného vzorku, a křivka nalevo, posunutá doleva, ukazuje, jaké by bylo osvojení v případě jedinců uprostřed sítě. Osa Y ukazuje narůstající případy nákazy a osa X znázorňuje čas. Napravo máme ty samé údaje, které tentokrát ukazují výskyt podle dní. Zde vidíte -- třeba tady -- jen několik málo lidí je zasaženo, víc, víc a víc až sem, a toto je vrchol epidemie. Křivka posunutá doleva ukazuje situaci u jedinců v centru. A tento rozdíl v čase mezi těmito dvěma křivkami říká, jak včasné odhalení či upozornění můžeme získat o epidemii šířící se populací.
So if you saw them contract a germ or a piece of information, you would know that, soon enough, everybody was about to contract this germ or this piece of information. And this would be much better than monitoring six randomly chosen people, without reference to the structure of the population. And in fact, if you could do that, what you would see is something like this. On the left-hand panel, again, we have the S-shaped curve of adoption. In the dotted red line, we show what the adoption would be in the random people, and in the left-hand line, shifted to the left, we show what the adoption would be in the central individuals within the network. On the Y-axis is the cumulative instances of contagion, and on the X-axis is the time. And on the right-hand side, we show the same data, but here with daily incidence. And what we show here is -- like, here -- very few people are affected, more and more and more and up to here, and here's the peak of the epidemic. But shifted to the left is what's occurring in the central individuals. And this difference in time between the two is the early detection, the early warning we can get, about an impending epidemic in the human population.
Problémem ovšem je, že ne vždy je možné mapovat lidské společenské sítě. Může to být drahé, obtížné, neetické, nebo to prostě není proveditelné. Takže, jak můžeme zjistit, kdo jsou lidé ve středu sítě, aniž bychom tu síť mapovali? Napadalo nás využít starou známou skutečnost, známý fakt o společenských sítích, který říká: Víte, že vaši přátelé mají více přátel než vy? Vaši přátelé mají více přátel než vy. To je označováno jako paradox přátelství. Představte si velmi oblíbeného člena společenské sítě -- třeba hostitele party, který má stovky přátel -- a misantropa, který má jen jednoho přítele, a náhodně vyberte několik lidí z populace. Je mnohem větší šance, že budou znát daného organizátora party. Pokud oni označí tohoto hostitele jako svého přítele, tento hostitel má stovky přátel, takže má více přátel než oni sami. A to je v podstatě to, čemu se říká paradox přátelství. Přátelé náhodně vybraného vzorku mají vyšší stupeň a jsou více v centru, než jedinci z náhodného vzorku samotní.
The problem, however, is that mapping human social networks is not always possible. It can be expensive, not feasible, unethical, or, frankly, just not possible to do such a thing. So, how can we figure out who the central people are in a network without actually mapping the network? What we came up with was an idea to exploit an old fact, or a known fact, about social networks, which goes like this: Do you know that your friends have more friends than you do? Your friends have more friends than you do, and this is known as the friendship paradox. Imagine a very popular person in the social network -- like a party host who has hundreds of friends -- and a misanthrope who has just one friend, and you pick someone at random from the population; they were much more likely to know the party host. And if they nominate the party host as their friend, that party host has a hundred friends, therefore, has more friends than they do. And this, in essence, is what's known as the friendship paradox. The friends of randomly chosen people have higher degree, and are more central than the random people themselves.
Což je zřejmé ve chvíli, kdy si představíte pouze lidi na obvodu dané sítě. Pokud vyberete tuto osobu, ta může jako svého přítele označit pouze tuto osobu, která musí mít, vzhledem ke struktuře, alespoň dva, ale většinou více přátel. K tomu dochází na každém okrajovém uzlu. To se děje v celé sítí, jak se pohybujete směrem ke středu, když náhodně vybraný člověk označí svého přítele, dostanete se blíže ke středu sítě. Tak jsme si řekli, že využijeme tuto teorii, abychom zjistili, jestli můžeme předvídat jevy v rámci sítí. Na základě této ideje totiž můžeme vzít náhodný vzorek, který označí své přátele, a ti budou blíže středu, to můžeme dělat, aniž bychom tu síť museli mapovat.
And you can get an intuitive appreciation for this if you imagine just the people at the perimeter of the network. If you pick this person, the only friend they have to nominate is this person, who, by construction, must have at least two and typically more friends. And that happens at every peripheral node. And in fact, it happens throughout the network as you move in, everyone you pick, when they nominate a random -- when a random person nominates a friend of theirs, you move closer to the center of the network. So, we thought we would exploit this idea in order to study whether we could predict phenomena within networks. Because now, with this idea we can take a random sample of people, have them nominate their friends, those friends would be more central, and we could do this without having to map the network.
Rozhodli jsme se to otestovat, když propukla chřipka H1N1 na harvardské koleji na podzim a v zimě 2009, což je před pár měsíci. Náhodně jsme vybrali 1300 vysokoškoláků, nechali jsme je označit své přátele a denně jsme sledovali jak náhodně vybrané studenty tak jejich přátele, abychom viděli, jestli tu chřipku mají nebo nemají. Pasivně jsme sledovali, zda byli či nebyli v univerzitním zdravotnickém středisku. Také jsme je požádali, aby nám několikrát za týden poslali email. Stalo se přesně to, co jsme předpověděli. Náhodný vzorek je červená linka. Epidemie u skupiny 'přátelé' se posunula doleva, zde. Rozdíl mezi těmito dvěma skupinami je 16 dní. Sledováním skupiny 'přátelé' bychom získali varování před blížící se epidemii v lidské populaci o 16 dní dříve.
And we tested this idea with an outbreak of H1N1 flu at Harvard College in the fall and winter of 2009, just a few months ago. We took 1,300 randomly selected undergraduates, we had them nominate their friends, and we followed both the random students and their friends daily in time to see whether or not they had the flu epidemic. And we did this passively by looking at whether or not they'd gone to university health services. And also, we had them [actively] email us a couple of times a week. Exactly what we predicted happened. So the random group is in the red line. The epidemic in the friends group has shifted to the left, over here. And the difference in the two is 16 days. By monitoring the friends group, we could get 16 days advance warning of an impending epidemic in this human population.
Navíc, jste-li analytik, který se snaží studovat nějakou nákazu, nebo například předvídat osvojení produktu, můžete vzít náhodný vzorek populace, nechat je vybrat své přátele a sledovat tyto přátele, sledovat jak náhodný vzorek, tak skupinu 'přátelé'. Jakmile by v případě 'přátel' vzskočila křivka osvojení inovace nad nulu znamenalo by to, že nastupuje epidemie. Nalevo můžete vidět, kdy se ty dvě křivky poprvé rozchází. Kdy se přátelé odtrhnou a nechají náhodný vzorek za sebou a kdy se jejich křivka začne posouvat? To, což ukazuje bílá linka, nastalo 46 dní před vyvrcholením epidemie. Takže tímto způsobem můžeme získat upozornění na epidemii chřipky v konkrétní populaci víc než měsíc a půl předem.
Now, in addition to that, if you were an analyst who was trying to study an epidemic or to predict the adoption of a product, for example, what you could do is you could pick a random sample of the population, also have them nominate their friends and follow the friends and follow both the randoms and the friends. Among the friends, the first evidence you saw of a blip above zero in adoption of the innovation, for example, would be evidence of an impending epidemic. Or you could see the first time the two curves diverged, as shown on the left. When did the randoms -- when did the friends take off and leave the randoms, and [when did] their curve start shifting? And that, as indicated by the white line, occurred 46 days before the peak of the epidemic. So this would be a technique whereby we could get more than a month-and-a-half warning about a flu epidemic in a particular population.
Měl bych říct, že to jak moc dopředu dostaneme na něco upozornění, záleží na množství faktorů. Může to záležet na povaze patogenu -- u různých patogenů, použitím této techniky, můžete dostat různá varování -- nebo dalších jevech, které se šíří, strukturou lidské sítě. V našem případě, i přestože to nebylo nutné, jsme mohli rovněž mapovat síť studentů.
I should say that how far advanced a notice one might get about something depends on a host of factors. It could depend on the nature of the pathogen -- different pathogens, using this technique, you'd get different warning -- or other phenomena that are spreading, or frankly, on the structure of the human network. Now in our case, although it wasn't necessary, we could also actually map the network of the students.
Tahle mapa zobrazuje 714 studentů a jejich přátelské vztahy. Za dám tu mapu do pohybu. Uvidíte situaci den po dni, po dobu 120 dní. Červené body budou případy chřipky, a žluté body budou přátelé lidí s chřipkou. Velikost každého bodu je úměrná počtu přátel s chřipkou. Je-li bod větší, znamená to, že máte více přátel, kteří mají chřipku. Když se podíváte na tento obrázek -- 13. září -- uvidíte, že se rozzáří několik případů. Uprostřed uvidíte jakýsi rozkvět chřipky. Toto je 19. října. Svažování křivky epidemie se blíží, tady, v listopadu. bum, bum, bum, bum, bum, uvidíte velký rozkvět uprostřed, a pak uvidíte jakousi stabilizaci, méně a méně případů ke konci prosince. Tento typ vizualizace může ukázat, že epidemie, jako je tato, mají základy a působí jako první na osoby uprostřed, předtím než zasáhnou ostatní.
So, this is a map of 714 students and their friendship ties. And in a minute now, I'm going to put this map into motion. We're going to take daily cuts through the network for 120 days. The red dots are going to be cases of the flu, and the yellow dots are going to be friends of the people with the flu. And the size of the dots is going to be proportional to how many of their friends have the flu. So bigger dots mean more of your friends have the flu. And if you look at this image -- here we are now in September the 13th -- you're going to see a few cases light up. You're going to see kind of blooming of the flu in the middle. Here we are on October the 19th. The slope of the epidemic curve is approaching now, in November. Bang, bang, bang, bang, bang -- you're going to see lots of blooming in the middle, and then you're going to see a sort of leveling off, fewer and fewer cases towards the end of December. And this type of a visualization can show that epidemics like this take root and affect central individuals first, before they affect others.
Jak jsem již naznačoval, tato metoda neplatí pouze na bacily, ale na vše, co se šíří populací. Informace se šíří populací. Normy se mohou šíří populací. Chování se může šířit populací. Chováním mám na mysli, například kriminální jednání, nebo jak lidé volí, jak se starají o své zdraví například vztah ke kouření, očkování, nebo osvojování produktů, či jiná jednání, která souvisí s tím, jak se lidé ovlivňují mezi sebou. Chci-li udělat něco, co bude mít vliv na lidi kolem mě, tato metoda mě může upozornit nebo včasně odhalit osvojení v rámci populace. Má-li to fungovat, klíčovým faktorem je přítomnost mezilidského vlivu. Nemůže to být postaveno na nějakém vysílání, které působí na všechny jednotně.
Now, as I've been suggesting, this method is not restricted to germs, but actually to anything that spreads in populations. Information spreads in populations, norms can spread in populations, behaviors can spread in populations. And by behaviors, I can mean things like criminal behavior, or voting behavior, or health care behavior, like smoking, or vaccination, or product adoption, or other kinds of behaviors that relate to interpersonal influence. If I'm likely to do something that affects others around me, this technique can get early warning or early detection about the adoption within the population. The key thing is that for it to work, there has to be interpersonal influence. It cannot be because of some broadcast mechanism affecting everyone uniformly.
Tato zjištění můžeme použít -- s ohledem na síť -- můžeme použít i jinými způsoby, například pro zacílení těch, kteří by měli být zasaženi či vybráni. Například, většina z vás je nejspíše obeznámena s pojmem imunita stáda. Takže, máme-li skupinu čítající tisíc obyvatel. a chceme, aby tito obyvatelé byli imunní vůči určitému patogenu, nemusíme očkovat všechny jedince v dané skupině. Oočkujeme-li 960 z nich, je to, jako bychom oočkovali sto [procent]. I kdyby se jeden nebo dva z těch, kteří nebyli očkování, nakazili, oni sami nemají koho nakazit. Jsou obklopeni oočkovanými. Takže 96 procent je stejně dobrých jako 100 procent. Jiní vědci odhadli, co by se stalo, kdybyste vzali náhodný vzorek 30% z 1000 lidí, tedy 300 lidí a oočkovali je. Je možné, aby pak daná skupina byla imunní? Odpověď je ne. Ale pokud vezmete těchto 300 lidí, a necháte je nominovat své přátele, budete mít stejné množství vakcín jako předtím, a oočkujete jen přátele těch náhodných 300 lidí, tedy 300 přátel, získáte stejnou úroveň stádové imunity, jako byste oočkovali 96 procent dané populace, s větší účinností a s omezeným rozpočtem.
Now the same insights can also be exploited -- with respect to networks -- can also be exploited in other ways, for example, in the use of targeting specific people for interventions. So, for example, most of you are probably familiar with the notion of herd immunity. So, if we have a population of a thousand people, and we want to make the population immune to a pathogen, we don't have to immunize every single person. If we immunize 960 of them, it's as if we had immunized a hundred [percent] of them. Because even if one or two of the non-immune people gets infected, there's no one for them to infect. They are surrounded by immunized people. So 96 percent is as good as 100 percent. Well, some other scientists have estimated what would happen if you took a 30 percent random sample of these 1000 people, 300 people and immunized them. Would you get any population-level immunity? And the answer is no. But if you took this 30 percent, these 300 people and had them nominate their friends and took the same number of vaccine doses and vaccinated the friends of the 300 -- the 300 friends -- you can get the same level of herd immunity as if you had vaccinated 96 percent of the population at a much greater efficiency, with a strict budget constraint.
Podobně lze například určit, jak distribuovat například moskytiéry v rozvojových zemích. Když porozumíme struktuře vztahů ve vesnicích můžeme určit jedince, které zplnomocníme, aby měli dané šíření na starosti. Nebo pro reklamu a různé produkty. Pochopíme-li, jak určit cíl, můžeme ovlivnit účinnost toho, čeho se snažíme dosáhnout. Takto, můžeme použít údaje z nejrůznějších zdrojů.
And similar ideas can be used, for instance, to target distribution of things like bed nets in the developing world. If we could understand the structure of networks in villages, we could target to whom to give the interventions to foster these kinds of spreads. Or, frankly, for advertising with all kinds of products. If we could understand how to target, it could affect the efficiency of what we're trying to achieve. And in fact, we can use data from all kinds of sources nowadays [to do this].
Toto je mapa 8 milionů uživatelů mobilů v jedné z evropských zemí. Každý bod je osoba a každá linka představuje množství hovorů mezi těmito lidmi. Tyto údaje, které jsme získali pasivně, můžeme použít k zmapování těchto zemí a k pochopení, kdo se nachází kde v rámci této sítě. Aniž bychom museli s kýmkoliv mluvit, můžeme zjistit, jaká je struktura dané sítě. Dalším zdrojem takovýchto informací, což si určitě uvědomujete, je výměna emailů, online interakce, online sociální sítě, a tak dále. Nacházíme se v době, kterou bych mohl nazvat "masivně pasivní" snahou o sběr dat. Jsou zde různé způsoby, jak můžeme použít masově získaná data k vytvoření senzorů v síti, abychom sledovali danou populaci a pochopili, k čemu v této populaci dochází, a mohli tak zasáhnout a přispět ke zlepšení. Protože nové technologie nám nejen řeknou, kdo mluví s kým, ale také kde se kdo nachází, a podle toho, co zveřejňují na internetu, co si myslí, a podle toho co kupují, podle jejich předešlých nákupů. Všechny takovéto informace mohou být shromážděny a použity k pochopili lidského jednání způsobem, jaký do té doby nebyl možný.
This is a map of eight million phone users in a European country. Every dot is a person, and every line represents a volume of calls between the people. And we can use such data, that's being passively obtained, to map these whole countries and understand who is located where within the network. Without actually having to query them at all, we can get this kind of a structural insight. And other sources of information, as you're no doubt aware are available about such features, from email interactions, online interactions, online social networks and so forth. And in fact, we are in the era of what I would call "massive-passive" data collection efforts. They're all kinds of ways we can use massively collected data to create sensor networks to follow the population, understand what's happening in the population, and intervene in the population for the better. Because these new technologies tell us not just who is talking to whom, but where everyone is, and what they're thinking based on what they're uploading on the Internet, and what they're buying based on their purchases. And all this administrative data can be pulled together and processed to understand human behavior in a way we never could before.
Mohli bychom například použít údaje o nákupu paliva autodopravci. Takže autodopravce dělá svou práci, a kupuje palivo. My vidíme, že autodopravcův nákup paliva vyskočil nahoru, a víme, že recese brzo skončí. Nebo můžeme monitorovat rychlost, s jakou se lidé s telefony pohybují na dálnici, takže telefonní společnost může vidět, že se rychlost snižuje, takže je tam dopravní zácpa. Tyto informace pak mohou zpět poskytnout svým klientům, ale pouze těm, kteří jsou na té samé dálnici mířící k té dopravní zácpě! Můžeme pasivně sledovat, jak doktoři předepisují léky, a uvidíme, jak se nové farmaceutické produkty šíří v rámci [sítě] doktorů. Opět, můžeme monitorovat, jak lidé nakupují a sledovat jak se takové jevy mohou šířit v rámci populace.
So, for example, we could use truckers' purchases of fuel. So the truckers are just going about their business, and they're buying fuel. And we see a blip up in the truckers' purchases of fuel, and we know that a recession is about to end. Or we can monitor the velocity with which people are moving with their phones on a highway, and the phone company can see, as the velocity is slowing down, that there's a traffic jam. And they can feed that information back to their subscribers, but only to their subscribers on the same highway located behind the traffic jam! Or we can monitor doctors prescribing behaviors, passively, and see how the diffusion of innovation with pharmaceuticals occurs within [networks of] doctors. Or again, we can monitor purchasing behavior in people and watch how these types of phenomena can diffuse within human populations.
Zde jsou tři způsoby, jak tato masivně pasivní data mohou být použita. První je zcela pasivní, jak jsem již popsal -- třeba ten příklad autodopravců, kde vlastně vůbec nezasahujeme do dané populace. Druhý je napůl aktivní, jako příklad chřipky, který jsem uvedl, kde necháme určité lidi nominovat své přátele, a pak pasivně sledujeme tyto přátele -- mají chřipku, nebo ne? -- až dostaneme varování. Další příklad by byl, jste-li telefonní společnost, zjistíte, kdo je v centru sítě, a zeptáte se jich: "Můžete nám každý den poslat SMS se svou tělesnou teplotou? Jen nám pošlete svou teplotu." Sbíráte rozsáhlé informace o teplotě lidí, ale od lidí, kteří jsou ve středu. A jste schopni, ve velkém měřítku, monitorovat hrozící epidemii s jen minimálním vkladem informací od lidí. A nakonec třetí, který je aktivní -- následující řečník o tom dnes bude rovněž mluvit -- kde se lidé mohou globálně účastnit ve wiki systémech, nebo fotografování, monitorování voleb, a nahrávání údajů způsobem, který nám umožňuje sdílet informace za účelem porozumět sociálním procesům a společenským jevům.
And there are three ways, I think, that these massive-passive data can be used. One is fully passive, like I just described -- as in, for instance, the trucker example, where we don't actually intervene in the population in any way. One is quasi-active, like the flu example I gave, where we get some people to nominate their friends and then passively monitor their friends -- do they have the flu, or not? -- and then get warning. Or another example would be, if you're a phone company, you figure out who's central in the network and you ask those people, "Look, will you just text us your fever every day? Just text us your temperature." And collect vast amounts of information about people's temperature, but from centrally located individuals. And be able, on a large scale, to monitor an impending epidemic with very minimal input from people. Or, finally, it can be more fully active -- as I know subsequent speakers will also talk about today -- where people might globally participate in wikis, or photographing, or monitoring elections, and upload information in a way that allows us to pool information in order to understand social processes and social phenomena.
Myslím, že dostupnost těchto údajů, ohlašuje určitou novou éru, něčeho, co bych spolu s ostatními chtěl označit jako "výpočetní společenské vědy". To je jako když Galileo vynalezl -- nevynalezl -- začal používat telescop a uviděl nebe novým způsobem, nebo Leeuwenhoek, který začal používat mikroskop -- -- vlastně vynalezl -- pohlédl na biologii novým způsobem. Nyní máme přístup k těmto údajům, které nám umožňují pochopit společenské procesy a společenské jevy zcela novým způsobem, který do té doby nebyl možný. S touto znalostí můžeme pochopit, jak přesně celek může být větší než součet jeho částí. Dokonce můžeme použít tyto zjištění ke zlepšení společnosti a lidského blahobytu.
In fact, the availability of these data, I think, heralds a kind of new era of what I and others would like to call "computational social science." It's sort of like when Galileo invented -- or, didn't invent -- came to use a telescope and could see the heavens in a new way, or Leeuwenhoek became aware of the microscope -- or actually invented -- and could see biology in a new way. But now we have access to these kinds of data that allow us to understand social processes and social phenomena in an entirely new way that was never before possible. And with this science, we can understand how exactly the whole comes to be greater than the sum of its parts. And actually, we can use these insights to improve society and improve human well-being.
Děkuji.
Thank you.