If you remember that first decade of the web, it was really a static place. You could go online, you could look at pages, and they were put up either by organizations who had teams to do it or by individuals who were really tech-savvy for the time. And with the rise of social media and social networks in the early 2000s, the web was completely changed to a place where now the vast majority of content we interact with is put up by average users, either in YouTube videos or blog posts or product reviews or social media postings. And it's also become a much more interactive place, where people are interacting with others, they're commenting, they're sharing, they're not just reading.
Si vous vous souvenez des débuts de l'internet, c'était vraiment très statique. Vous pouviez aller en ligne, regarder des pages internet, mises en ligne par des organisations qui avaient des équipes pour le faire ou par des individus qui s'y connaissaient vraiment en nouvelles technologies. Et avec la montée des médias sociaux et des réseaux sociaux au début des années 2000, la toile est devenue un endroit où maintenant la majorité du contenu que nous pouvons voir est mis en ligne par des utilisateurs moyens, que ce soit des vidéos sur YouTube ou des articles de blogs ou des critiques de produits ou des messages de médias sociaux. C'est devenu cet endroit bien plus interactif, où les gens interagissent les uns avec les autres, ils commentent, ils partagent, ils ne font pas que lire.
So Facebook is not the only place you can do this, but it's the biggest, and it serves to illustrate the numbers. Facebook has 1.2 billion users per month. So half the Earth's Internet population is using Facebook. They are a site, along with others, that has allowed people to create an online persona with very little technical skill, and people responded by putting huge amounts of personal data online. So the result is that we have behavioral, preference, demographic data for hundreds of millions of people, which is unprecedented in history. And as a computer scientist, what this means is that I've been able to build models that can predict all sorts of hidden attributes for all of you that you don't even know you're sharing information about. As scientists, we use that to help the way people interact online, but there's less altruistic applications, and there's a problem in that users don't really understand these techniques and how they work, and even if they did, they don't have a lot of control over it. So what I want to talk to you about today is some of these things that we're able to do, and then give us some ideas of how we might go forward to move some control back into the hands of users.
Il n'y a pas que Facebook évidemment, mais c'est le plus important, et il sert à illustrer le propos. Facebook a 1,2 milliards d'utilisateurs par mois. La moitié de la population internet de la Terre utilise Facebook. C'est un site, comme d'autres, qui permet aux gens de se créer un personnage internet sans grandes connaissances techniques, et les gens y mettent une quantité énorme de données personnelles. On se retrouve donc avec des données comportementales, préférentielles, démographiques pour des centaines de millions de personnes, pour la première fois dans l'histoire. En tant qu'informaticienne, ça signifie que j'ai pu construire des modèles qui peuvent prédire toutes sortes d'attributs cachés sur vous sans savoir que vous partagez ce genre d'informations. En tant que scientifiques, on utilise ça pour aider les gens à mieux interagir en ligne, mais il y a aussi des utilisations bien moins altruistes, et le problème est que les utilisateurs ne comprennent pas vraiment ces techniques ni comment elles fonctionnent, et même s'ils les comprenaient, ils ne peuvent pas les contrôler. Donc, j'aimerais vous parler aujourd'hui de certaines de ces choses que l'on peut faire, et donner une petite idée sur comment redonner un peu de ce contrôle aux utilisateurs.
So this is Target, the company. I didn't just put that logo on this poor, pregnant woman's belly. You may have seen this anecdote that was printed in Forbes magazine where Target sent a flyer to this 15-year-old girl with advertisements and coupons for baby bottles and diapers and cribs two weeks before she told her parents that she was pregnant. Yeah, the dad was really upset. He said, "How did Target figure out that this high school girl was pregnant before she told her parents?" It turns out that they have the purchase history for hundreds of thousands of customers and they compute what they call a pregnancy score, which is not just whether or not a woman's pregnant, but what her due date is. And they compute that not by looking at the obvious things, like, she's buying a crib or baby clothes, but things like, she bought more vitamins than she normally had, or she bought a handbag that's big enough to hold diapers. And by themselves, those purchases don't seem like they might reveal a lot, but it's a pattern of behavior that, when you take it in the context of thousands of other people, starts to actually reveal some insights. So that's the kind of thing that we do when we're predicting stuff about you on social media. We're looking for little patterns of behavior that, when you detect them among millions of people, lets us find out all kinds of things.
Voici Target, l'entreprise. Je n'ai pas mis ce logo sur le ventre de cette femme enceinte. Vous avez peut-être entendu parler de cette histoire: Target a envoyé un prospectus à cette jeune fille de 15 ans avec de la publicité et des ristournes pour des biberons, des langes et des berceaux deux semaines avant qu'elle ne dise à ces parents qu'elle était enceinte. Oui, le père n'était pas content. Il a dit : « Comment Target a-t-il compris que cette ado était enceinte avant même qu'elle le dise à ces parents ? » En fait, Target garde un historique d'achat pour des centaines de milliers de clients et ils calculent ce qu'ils appellent un score de grossesse, qui ne dit pas simplement si une femme est enceinte ou pas, mais aussi sa date d'accouchement. Et ils calculent cela pas en regardant ce qui est flagrant, comme le fait qu'elle achète un berceau ou des vêtements pour bébés, mais comme le fait qu'elle achète plus de vitamines que d'habitude, ou elle a acheté un sac assez grand pour y mettre des langes. Seuls, ces achats ne semblent pas révéler grand chose, mais c'est une suite de comportements qui, quand vous le prenez dans un contexte de milliers d'autres personnes, commence à donner une certaine idée. C'est ce genre de choses-là que l'on fait quand on prédit des choses sur vous sur les médias sociaux. On va chercher des suites de comportements qui, quand vous les détectez parmi des millions de gens, nous permet de trouver des tas de choses.
So in my lab and with colleagues, we've developed mechanisms where we can quite accurately predict things like your political preference, your personality score, gender, sexual orientation, religion, age, intelligence, along with things like how much you trust the people you know and how strong those relationships are. We can do all of this really well. And again, it doesn't come from what you might think of as obvious information.
Dans mon laboratoire, avec mes collègues, nous avons développé des mécanismes qui nous permettent de prédire certaines choses très précisément, comme votre penchant politique, votre score de personnalité, votre sexe, orientation sexuelle, religion, âge, intelligence, comme aussi si vous faites confiance aux gens que vous connaissez et si ces liens sont forts ou pas. On peut savoir tout ça très facilement. Et de nouveau, ça ne vient pas forcément d'informations flagrantes.
So my favorite example is from this study that was published this year in the Proceedings of the National Academies. If you Google this, you'll find it. It's four pages, easy to read. And they looked at just people's Facebook likes, so just the things you like on Facebook, and used that to predict all these attributes, along with some other ones. And in their paper they listed the five likes that were most indicative of high intelligence. And among those was liking a page for curly fries. (Laughter) Curly fries are delicious, but liking them does not necessarily mean that you're smarter than the average person. So how is it that one of the strongest indicators of your intelligence is liking this page when the content is totally irrelevant to the attribute that's being predicted? And it turns out that we have to look at a whole bunch of underlying theories to see why we're able to do this. One of them is a sociological theory called homophily, which basically says people are friends with people like them. So if you're smart, you tend to be friends with smart people, and if you're young, you tend to be friends with young people, and this is well established for hundreds of years. We also know a lot about how information spreads through networks. It turns out things like viral videos or Facebook likes or other information spreads in exactly the same way that diseases spread through social networks. So this is something we've studied for a long time. We have good models of it. And so you can put those things together and start seeing why things like this happen. So if I were to give you a hypothesis, it would be that a smart guy started this page, or maybe one of the first people who liked it would have scored high on that test. And they liked it, and their friends saw it, and by homophily, we know that he probably had smart friends, and so it spread to them, and some of them liked it, and they had smart friends, and so it spread to them, and so it propagated through the network to a host of smart people, so that by the end, the action of liking the curly fries page is indicative of high intelligence, not because of the content, but because the actual action of liking reflects back the common attributes of other people who have done it.
Mon exemple préféré vient de cette étude publiée il y a un an dans les « Proceedings of the National Academies ». Vous pouvez la trouver sur Google. Quatre pages, très faciles à lire. Ils n'ont regardé que les mentions « J'aime » de Facebook, ce que vous pouvez aimer sur Facebook, et utilisé ça pour prédire toutes ces caractéristiques, et d'autres encore. Et dans leur article, ils ont listé ces 5 mentions « J'aime » les plus indicatives d'une grande intelligence. Et parmi celles-là, il y avait un mention « J'aime » pour les frites bouclées. (Rires) C'est délicieux les frites bouclées, mais les aimer ne veut pas nécessairement dire que vous êtes plus intelligent que la moyenne. Donc, comment cela se fait-il qu'un des indicateurs les plus importants de votre intelligence est le fait d'aimer cette page alors que le contenu est sans rapport avec l'attribut qu'il prédit ? Nous avons dû étudier toute une série de théories pour comprendre comment on peut y arriver. L'une d'elle est une théorie sociale appelée homophilie, qui dit que les gens sont en général amis avec des gens comme eux. Si vous êtes intelligents, vous allez être amis avec des gens intelligents, et si vous êtes jeunes, vous allez être amis avec des jeunes, C'est un fait averé depuis des centaines d'années. On sait aussi comment les informations se répandent sur les réseaux. En fait, les vidéos virales ou les mentions « J'aime » sur Facebook ou d'autres informations se répandent de la même façon que les maladies. C'est quelque chose qu'on étudie depuis longtemps. On en a fait de bon modèles. On peut donc mettre toutes ces choses ensemble et voir pourquoi ce genre de choses arrive. Donc, si je devais faire une hypothèse : c'est quelqu'un d'intelligent qui a commencé cette page, ou qu'une des premières personnes qui l'a aimée avait un haut score d'intelligence. Et il l'a aimé, et ses amis l'ont vu, et par homophilie, on sait qu'il a des amis intelligents, et ça s'est répandu chez eux, et ils l'ont aimé, et ils avaient des amis intelligents, et ça s'est répandu chez eux, et comme ça à travers le réseau, chez plein de gens intelligents, et donc à la fin, l'action d'aimer la page des frites bouclées est indicative d'une grande intelligence, pas à cause du contenu, mais à cause de l'action même d'aimer qui reflète les attributs communs à tous ces autres qui l'ont aimé aussi.
So this is pretty complicated stuff, right? It's a hard thing to sit down and explain to an average user, and even if you do, what can the average user do about it? How do you know that you've liked something that indicates a trait for you that's totally irrelevant to the content of what you've liked? There's a lot of power that users don't have to control how this data is used. And I see that as a real problem going forward.
Ça à l'air très compliqué, non ? Ce n'est pas facile à expliquer à un utilisateur moyen, et même en le faisant, que peut-il y faire ? Comment pouvez-vous savoir que vous avez aimé quelque chose qui indique un trait qui pour vous n'a rien à voir avec le contenu de ce que vous avez aimé ? Et les utilisateurs n'ont aucun pouvoir à contrôler comment ces données sont utilisées. Et pour moi, c'est un vrai problème pour le futur.
So I think there's a couple paths that we want to look at if we want to give users some control over how this data is used, because it's not always going to be used for their benefit. An example I often give is that, if I ever get bored being a professor, I'm going to go start a company that predicts all of these attributes and things like how well you work in teams and if you're a drug user, if you're an alcoholic. We know how to predict all that. And I'm going to sell reports to H.R. companies and big businesses that want to hire you. We totally can do that now. I could start that business tomorrow, and you would have absolutely no control over me using your data like that. That seems to me to be a problem.
Il y a, je pense, plusieurs chemins que nous pouvons regarder si nous voulons donner un peu de contrôle aux utilisateurs sur l'utilisation de ces données, parce qu'elles ne vont pas toujours être utilisées à leur avantage. Un exemple que je donne souvent est que si un jour ça m'ennuie d'être professeur, je lancerai une entreprise qui prédit tous ces attributs et des choses comme le fait de bien travailler en équipe et si vous prenez des drogues et êtes alcoolique. Nous savons comment prédire tout ça. Et je vais vendre ces rapports à de grandes entreprises et des compagnies R.H. qui voudraient vous engager. On peut faire ça maintenant. Je pourrais commencer ça demain, et vous n'auriez absolument aucun contrôle sur le fait que j'utiliserais vos données comme ça. Pour moi, ça c'est un problème.
So one of the paths we can go down is the policy and law path. And in some respects, I think that that would be most effective, but the problem is we'd actually have to do it. Observing our political process in action makes me think it's highly unlikely that we're going to get a bunch of representatives to sit down, learn about this, and then enact sweeping changes to intellectual property law in the U.S. so users control their data.
Donc, un des chemins que l'on pourrait prendre est celui de la politique et de la loi. Et ça serait sans doute le chemin le plus efficace, mais le problème est qu'il faudrait le faire vraiment. Connaissant les procédures politiques ça m'étonnerait vraiment qu'on arrive à ce que des représentants s'asseyent, prennent connaissance de ceci, et promulguent des changements de grande envergure sur les lois sur la propriété intellectuelle aux USA pour que les utilisateurs contrôlent leurs données.
We could go the policy route, where social media companies say, you know what? You own your data. You have total control over how it's used. The problem is that the revenue models for most social media companies rely on sharing or exploiting users' data in some way. It's sometimes said of Facebook that the users aren't the customer, they're the product. And so how do you get a company to cede control of their main asset back to the users? It's possible, but I don't think it's something that we're going to see change quickly.
On pourrait prendre le chemin politique, où les compagnies de médias sociaux diraient : « Vous savez quoi ? Vos données sont à vous. C'est vous qui contrôlez comment elles sont utilisées. » Le problème est que les modèles de revenus de la plupart de ces entreprises dépendent du partage et de l'exploitation des données des utilisateurs. On dit de Facebook, que les utilisateurs ne sont pas les clients, ils sont le produit. Comment demander à une entreprise de redonner le contrôle de son capital aux usagers ? C'est possible, mais je ne pense pas que ça se réalise rapidement.
So I think the other path that we can go down that's going to be more effective is one of more science. It's doing science that allowed us to develop all these mechanisms for computing this personal data in the first place. And it's actually very similar research that we'd have to do if we want to develop mechanisms that can say to a user, "Here's the risk of that action you just took." By liking that Facebook page, or by sharing this piece of personal information, you've now improved my ability to predict whether or not you're using drugs or whether or not you get along well in the workplace. And that, I think, can affect whether or not people want to share something, keep it private, or just keep it offline altogether. We can also look at things like allowing people to encrypt data that they upload, so it's kind of invisible and worthless to sites like Facebook or third party services that access it, but that select users who the person who posted it want to see it have access to see it. This is all super exciting research from an intellectual perspective, and so scientists are going to be willing to do it. So that gives us an advantage over the law side.
L'autre chemin que l'on pourrait prendre et qui serait aussi efficace est plus scientifique. C'est la science qui nous a permis de développer ces mécanismes calculant ces données personnelles. Et ce sont des recherches similaires qu'il va falloir faire si nous voulons développer des mécanismes qui peuvent dire aux usagers : « Tu as fais ça, voici le risque encouru. » En aimant cette page Facebook, ou en partageant cette information personnelle, tu viens de m'aider à pouvoir prédire le fait que tu te drogues ou pas ou que tu t'entendes bien avec tes collègues de travail. Et ça peux affecter le fait que les gens veulent partager quelque chose, le garder privé, ou ne pas le mettre en ligne du tout. On peut aussi décider de laisser les gens encoder les données qu'ils mettent en ligne, pour qu'elles soient invisibles et inutiles pour des sites comme Facebook ou des tiers qui y ont accès, mais que seuls des utilisateurs choisis peuvent y accéder. Ce sont des recherches très intéressantes d'un point de vue intellectuel, et donc les scientifiques vont les faire. Ça nous donne aussi un avantage sur le côté légal.
One of the problems that people bring up when I talk about this is, they say, you know, if people start keeping all this data private, all those methods that you've been developing to predict their traits are going to fail. And I say, absolutely, and for me, that's success, because as a scientist, my goal is not to infer information about users, it's to improve the way people interact online. And sometimes that involves inferring things about them, but if users don't want me to use that data, I think they should have the right to do that. I want users to be informed and consenting users of the tools that we develop.
Un des problèmes dont parlent les gens quand je lance ce sujet est, ils disent, que si les gens gardent toutes ces données privées, toutes ces méthodes qu'on a développées pour prédire leurs traits ne vont plus fonctionner. Et je réponds : « Absolument, et pour moi, ça serait un succès, parce qu'en tant que scientifique, mon objectif n'est pas de déduire des informations sur les utilisateurs, mais d'améliorer la façon dont les gens interagissent en ligne. Et parfois ça implique de déduire des choses sur eux, mais s'ils ne veulent pas que j'utilise ces données, ils devraient avoir le droit de le faire. Je veux que les utilisateurs soient informés et consentants sur les outils que nous développons.
And so I think encouraging this kind of science and supporting researchers who want to cede some of that control back to users and away from the social media companies means that going forward, as these tools evolve and advance, means that we're going to have an educated and empowered user base, and I think all of us can agree that that's a pretty ideal way to go forward.
Donc, encourager cette science et ses chercheurs qui veulent rendre un peu de ce contrôle aux utilisateurs et le prendre à ces compagnies de médias sociaux veux dire qu'aller de l'avant, alors que ces outils se développent et s'améliorent, veux dire que l'on va avoir des utilisateurs éduqués et responsabilisés, et je crois qu'on est tous d'accord que c'est de cette façon-là que l'on doit avancer.
Thank you.
Merci.
(Applause)
(Applaudissements)