If you remember that first decade of the web, it was really a static place. You could go online, you could look at pages, and they were put up either by organizations who had teams to do it or by individuals who were really tech-savvy for the time. And with the rise of social media and social networks in the early 2000s, the web was completely changed to a place where now the vast majority of content we interact with is put up by average users, either in YouTube videos or blog posts or product reviews or social media postings. And it's also become a much more interactive place, where people are interacting with others, they're commenting, they're sharing, they're not just reading.
Se você lembra da primeira década da Internet, era um lugar bem estático. Dava para entrar na Internet, olhar as páginas, e elas eram criadas ou por organizações que tinham equipes para isso ou por "experts" em tecnologia para a época. E com a ascenção da mídia social e redes sociais no início dos anos 2000, a Internet mudou completamente para um lugar onde, agora, a grande maioria do conteúdo com que interagimos é criado por usuários comuns, seja em vídeos no YouTube ou "posts" em "blogs" ou críticas de produtos ou "posts" em mídia social. E também se tornou um lugar muito mais interativo, onde pessoas interagem umas com as outras, estão comentando, compartilhando, não estão só lendo.
So Facebook is not the only place you can do this, but it's the biggest, and it serves to illustrate the numbers. Facebook has 1.2 billion users per month. So half the Earth's Internet population is using Facebook. They are a site, along with others, that has allowed people to create an online persona with very little technical skill, and people responded by putting huge amounts of personal data online. So the result is that we have behavioral, preference, demographic data for hundreds of millions of people, which is unprecedented in history. And as a computer scientist, what this means is that I've been able to build models that can predict all sorts of hidden attributes for all of you that you don't even know you're sharing information about. As scientists, we use that to help the way people interact online, but there's less altruistic applications, and there's a problem in that users don't really understand these techniques and how they work, and even if they did, they don't have a lot of control over it. So what I want to talk to you about today is some of these things that we're able to do, and then give us some ideas of how we might go forward to move some control back into the hands of users.
E o Facebook não é o único lugar para isso, mas é o maior, e serve para ilustrar os números. O Facebook tem 1,2 bilhões de usuários por mês. Metade da população da Internet usa o Facebook. Eles são um "site" que, junto com outros, permitiu que as pessoas criassem personalidades virtuais com pouca habilidade técnica, e as pessoas reagiram colocando muitos dados pessoais "online". E o resultado é que temos dados de comportamento, de preferências e demográficos para centenas de milhares de pessoas, o que nunca aconteceu antes na história. E como cientista da computação, isto quer dizer que fui capaz de criar modelos que podem prever todo tipo de característica oculta de vocês e vocês nem sabem que estão compartilhando informações sobre isso. Como cientistas, usamos isso para ajudar as pessoas a interagirem "online", mas há aplicações menos altruístas, e há um problema em que os usuários não entendem realmente essas técnicas e como elas funcionam, e mesmo se entendessem, não têm muito controle sobre elas. O que quero lhes falar hoje são algumas dessas coisas que podemos fazer, e nos dar algumas ideias de como podemos avançar para devolver um pouco de controle aos usuários.
So this is Target, the company. I didn't just put that logo on this poor, pregnant woman's belly. You may have seen this anecdote that was printed in Forbes magazine where Target sent a flyer to this 15-year-old girl with advertisements and coupons for baby bottles and diapers and cribs two weeks before she told her parents that she was pregnant. Yeah, the dad was really upset. He said, "How did Target figure out that this high school girl was pregnant before she told her parents?" It turns out that they have the purchase history for hundreds of thousands of customers and they compute what they call a pregnancy score, which is not just whether or not a woman's pregnant, but what her due date is. And they compute that not by looking at the obvious things, like, she's buying a crib or baby clothes, but things like, she bought more vitamins than she normally had, or she bought a handbag that's big enough to hold diapers. And by themselves, those purchases don't seem like they might reveal a lot, but it's a pattern of behavior that, when you take it in the context of thousands of other people, starts to actually reveal some insights. So that's the kind of thing that we do when we're predicting stuff about you on social media. We're looking for little patterns of behavior that, when you detect them among millions of people, lets us find out all kinds of things.
Essa é a Target, a empresa. Eu não coloquei o logo na barriga desta pobre mulher grávida. Vocês talvez tenham visto essa piada publicada na revista Forbes, em que a Target enviou um panfleto para essa garota de 15 anos com propagandas e cupons para mamadeiras, fraldas e berços, duas semanas antes de ela contar aos seus pais que estava grávida. Pois é, o pai ficou muito bravo. Ele disse: "Como a Target descobriu que essa essa garota estava grávida antes de ela contar aos seus pais?" Acontece que eles têm um histórico de compras para centenas de milhares de clientes e eles calculam o que chamam de índice de gravidez, que não é só se uma mulher está grávida ou não, mas também quando o bebê deve nascer. E eles o calculam não com base nas coisas óbvias, como a compra de um berço e roupas de bebê, mas coisas como: "Ela comprou mais vitaminas do que normalmente compra", ou "Ela comprou uma bolsa que é grande o suficiente para guardar fraldas". E por si sós, essas compras não parecem revelar muita coisa, mas é um padrão de comportamento que, quando visto no contexto de milhares de outras pessoas, começa a revelar algumas ideias. É esse o tipo de coisa que fazemos quando prevemos coisas sobre vocês na mídia social. Buscamos por pequenos padrões de comportamento que, quando detectados entre milhões de pessoas, nos permitem descobrir todo tipo de coisa.
So in my lab and with colleagues, we've developed mechanisms where we can quite accurately predict things like your political preference, your personality score, gender, sexual orientation, religion, age, intelligence, along with things like how much you trust the people you know and how strong those relationships are. We can do all of this really well. And again, it doesn't come from what you might think of as obvious information.
Em meu laboratório e com colegas, desenvolvemos mecanismos através dos quais podemos prever coisas com muita precisão, como sua preferência política, seu índice de personalidade, gênero, orientação sexual, religião, idade, inteligência, junto com coisas como o quanto você confia nas pessoas que conhece e a força desses relacionamentos. Podemos fazer isso muito bem. E novamente, não vem do que pensaríamos que é informação óbvia.
So my favorite example is from this study that was published this year in the Proceedings of the National Academies. If you Google this, you'll find it. It's four pages, easy to read. And they looked at just people's Facebook likes, so just the things you like on Facebook, and used that to predict all these attributes, along with some other ones. And in their paper they listed the five likes that were most indicative of high intelligence. And among those was liking a page for curly fries. (Laughter) Curly fries are delicious, but liking them does not necessarily mean that you're smarter than the average person. So how is it that one of the strongest indicators of your intelligence is liking this page when the content is totally irrelevant to the attribute that's being predicted? And it turns out that we have to look at a whole bunch of underlying theories to see why we're able to do this. One of them is a sociological theory called homophily, which basically says people are friends with people like them. So if you're smart, you tend to be friends with smart people, and if you're young, you tend to be friends with young people, and this is well established for hundreds of years. We also know a lot about how information spreads through networks. It turns out things like viral videos or Facebook likes or other information spreads in exactly the same way that diseases spread through social networks. So this is something we've studied for a long time. We have good models of it. And so you can put those things together and start seeing why things like this happen. So if I were to give you a hypothesis, it would be that a smart guy started this page, or maybe one of the first people who liked it would have scored high on that test. And they liked it, and their friends saw it, and by homophily, we know that he probably had smart friends, and so it spread to them, and some of them liked it, and they had smart friends, and so it spread to them, and so it propagated through the network to a host of smart people, so that by the end, the action of liking the curly fries page is indicative of high intelligence, not because of the content, but because the actual action of liking reflects back the common attributes of other people who have done it.
Meu exemplo preferido vem de um estudo publicado este ano nos Precedentes das Academias Nacionais. Se olharem no Google, vão achar. São quatro paginas, fácil de ler. E eles só observaram o que as pessoas curtiam no Facebook, só as coisas que vocês curtem no Facebook, e as usaram para prever características, junto com algumas outras. E no artigo, eles listaram as cinco "curtidas" que mais indicavam alta inteligência. E entre eles estava uma página de fritas enroladas. (Risos) Fritas enroladas são deliciosas, Mas gostar delas não significa necessariamente que você é mais esperto que a média. Então, como é que um dos indicadores mais fortes de inteligência é curtir essa página, quando o conteúdo é totalmente irrelevante à característica que está sendo prevista? E acontece que temos que observar um monte de teorias implícitas para ver por que conseguimos fazer isso. Uma delas é uma teoria sociológica chamada homofilia, que basicamente diz que as pessoas ficam amigas de pessoas como elas. Se você é esperto, seus amigos devem ser espertos, Se você é jovem, seus amigos devem ser jovens, e isso foi bem estabelecido por centenas de anos. Também sabemos muito sobre como a informação se propaga pelas redes. Pelo jeito, coisas como vídeos virais ou "curtidas" no Facebook ou outras informações se espalham exatamente do mesmo jeito que doenças se espalham por redes sociais. Estudamos isso por muito tempo. Temos bons modelos disso. E podemos juntar essas coisas e começar a ver por que essas coisas acontecem. Se fosse para criar uma hipótese, seria que um cara esperto criou essa página, ou talvez um dos primeiros que curtiu a página teria se saído bem naquele teste. E ele curtiu, e seus amigos viram, e por homofilia, provavelmente ele tinha amigos espertos, e assim se espalhou para eles, e alguns deles curtiram, e eles tinham amigos espertos, e assim se espalhou para eles, e assim se propagou pela rede para uma série de pessoas espertas, de modo que, ao final, o ato de curtir a página das fritas enroladas indica alta inteligência, não por causa do conteúdo, mas porque o ato de curtir em si reflete as características em comum de outras pessoas que também curtiram.
So this is pretty complicated stuff, right? It's a hard thing to sit down and explain to an average user, and even if you do, what can the average user do about it? How do you know that you've liked something that indicates a trait for you that's totally irrelevant to the content of what you've liked? There's a lot of power that users don't have to control how this data is used. And I see that as a real problem going forward.
Coisa bastante complicada, certo? É difícil sentar e explicar para um usuário comum, e mesmo se o fizer, o que o usuário comum pode fazer a respeito? Como saber que você curtiu uma coisa que indica um traço seu que é totalmente irrelevante ao conteúdo do que você curtiu? Há muito poder que os usuários não têm para controlar como esses dados são usados. E eu vejo isso como um verdadeiro problema avançando.
So I think there's a couple paths that we want to look at if we want to give users some control over how this data is used, because it's not always going to be used for their benefit. An example I often give is that, if I ever get bored being a professor, I'm going to go start a company that predicts all of these attributes and things like how well you work in teams and if you're a drug user, if you're an alcoholic. We know how to predict all that. And I'm going to sell reports to H.R. companies and big businesses that want to hire you. We totally can do that now. I could start that business tomorrow, and you would have absolutely no control over me using your data like that. That seems to me to be a problem.
Acho que há dois caminhos que podemos observar, se quisermos dar ao usuário o controle sobre a utilização desses dados, porque nem sempre serão usados para seu benefício. Um exemplo que eu sempre uso: se eu me cansar de ser professora, eu vou abrir uma empresa que prevê as características e coisas como trabalho em equipe e se você é usuário de drogas, se é um alcoólatra. Sabemos como prever isso tudo. E vou vender relatórios para empresas de RH e grandes empresas que queiram te contratar. Podemos fazer isso agora. Eu poderia abrir essa empresa amanhã, e você não teria qualquer controle de como eu uso seus dados desse jeito. Para mim, isso parece um problema.
So one of the paths we can go down is the policy and law path. And in some respects, I think that that would be most effective, but the problem is we'd actually have to do it. Observing our political process in action makes me think it's highly unlikely that we're going to get a bunch of representatives to sit down, learn about this, and then enact sweeping changes to intellectual property law in the U.S. so users control their data.
Então, um dos caminhos que podemos seguir é o caminho da política e da lei. E em alguns aspectos, acho que assim seria mais eficiente, mas o problema é que teríamos mesmo que fazer. Observar nosso processo político em ação me faz pensar que é altamente improvável que vamos juntar um monte de representantes, mostrá-lhes isso, e fazer que decretem mudanças extensas à lei da propriedade intelectual nos EUA para que os usuários controlem seus dados.
We could go the policy route, where social media companies say, you know what? You own your data. You have total control over how it's used. The problem is that the revenue models for most social media companies rely on sharing or exploiting users' data in some way. It's sometimes said of Facebook that the users aren't the customer, they're the product. And so how do you get a company to cede control of their main asset back to the users? It's possible, but I don't think it's something that we're going to see change quickly.
Ou seguir a rota da política, em que empresas de mídia social dizem: "Sabe? Você é dono de seus dados. Você tem total controle sobre como eles são usados." O problema são os modelos de receita para a maioria das empresas de mídia social que se baseiam no compartilhamento ou exploração dos dados dos usuários. Dizem do Facebook que os usuários não são os clientes, eles são o produto. Então, como fazemos com que uma empresa ceda o controle de seu principal bem aos usuários? É possível, mas não acho que seja algo que veremos acontecer rapidamente.
So I think the other path that we can go down that's going to be more effective is one of more science. It's doing science that allowed us to develop all these mechanisms for computing this personal data in the first place. And it's actually very similar research that we'd have to do if we want to develop mechanisms that can say to a user, "Here's the risk of that action you just took." By liking that Facebook page, or by sharing this piece of personal information, you've now improved my ability to predict whether or not you're using drugs or whether or not you get along well in the workplace. And that, I think, can affect whether or not people want to share something, keep it private, or just keep it offline altogether. We can also look at things like allowing people to encrypt data that they upload, so it's kind of invisible and worthless to sites like Facebook or third party services that access it, but that select users who the person who posted it want to see it have access to see it. This is all super exciting research from an intellectual perspective, and so scientists are going to be willing to do it. So that gives us an advantage over the law side.
E eu acho que o outro caminho que podemos seguir e que será mais eficiente é um mais científico. É usar a ciência que nos permitiu desenvolver todos esses mecanismos para calcular esses dados pessoais a princípio. E é, de fato, uma pesquisa muito similar que teríamos que fazer, se quisermos desenvolver mecanismos que possam dizer ao usuário: "Aqui está o risco do que você acabou de fazer." Ao curtir aquela página do Facebook, ou ao compartilhar essa informação pessoal, você melhorou minha capacidade de prever se você usa drogas ou não, ou se você se dá bem no ambiente de trabalho ou não. E isso, acredito, pode influenciar a decisão de compartilhar algo, manter privado ou manter inteiramente "offline". Também podemos observar coisas como permitir que as pessoas encriptem os dados que elas enviam, para que sejam invisíveis e inúteis a "sites" como o Facebook ou serviços de terceiros que os acessem, mas a usuários selecionados, que a pessoa que postou quer que os vejam, tenham acesso. Tudo isso é uma pesquisa superlegal de uma perspectiva intelectual. Os cientistas estarão dispostos a fazê-la. Isso nos dá uma vantagem sobre o lado da lei.
One of the problems that people bring up when I talk about this is, they say, you know, if people start keeping all this data private, all those methods that you've been developing to predict their traits are going to fail. And I say, absolutely, and for me, that's success, because as a scientist, my goal is not to infer information about users, it's to improve the way people interact online. And sometimes that involves inferring things about them, but if users don't want me to use that data, I think they should have the right to do that. I want users to be informed and consenting users of the tools that we develop.
Um dos problemas que as pessoas levantam quando falo disso é que elas dizem: "Sabe, se todos começarem a manter esses dados privados, todos os métodos que você desenvolveu para prever seus traços vão falhar. E eu digo "com certeza", e para mim isso é sucesso, porque como cientista, meu objetivo não é inferir informações sobre os usuários, é melhorar o jeito como as pessoas interagem "online". E, às vezes, isso envolve inferir coisas sobre elas, mas se os usuários não quiserem que eu use esses dados, acho que eles deveriam ter esse direito. Quero que os usuários estejam cientes e de acordo, usuários das ferramentas que desenvolvemos.
And so I think encouraging this kind of science and supporting researchers who want to cede some of that control back to users and away from the social media companies means that going forward, as these tools evolve and advance, means that we're going to have an educated and empowered user base, and I think all of us can agree that that's a pretty ideal way to go forward.
Então, acredito que encorajar esse tipo de ciência e apoiar pesquisadores que querem ceder um pouco desse controle aos usuários e tirá-lo das empresas de mídia social significa que avançar, enquanto essas ferramentas evoluem e avançam, significa que vamos ter uma base de usuários instruídos e capacitados, e acho que todos concordamos que esse é o jeito ideal de avançar.
Thank you.
Obrigada.
(Applause)
(Aplausos)