If you remember that first decade of the web, it was really a static place. You could go online, you could look at pages, and they were put up either by organizations who had teams to do it or by individuals who were really tech-savvy for the time. And with the rise of social media and social networks in the early 2000s, the web was completely changed to a place where now the vast majority of content we interact with is put up by average users, either in YouTube videos or blog posts or product reviews or social media postings. And it's also become a much more interactive place, where people are interacting with others, they're commenting, they're sharing, they're not just reading.
Si recuerdan aquella primera década de la Web, era un lugar realmente estático. Uno podía ingresar, mirar páginas, o bien de organizaciones que tenían equipos para crearlas o bien de personas que tenían conocimientos técnicos en ese entonces. Y con el auge de los medios sociales y de las redes sociales a principios del 2000 la Web cambió completamente y ahora la vasta mayoría del contenido con el que interactuamos proviene de usuarios medios, de videos de YouTube, artículos de blog, revisiones de productos o de artículos en medios sociales. Y también se ha vuelto un lugar mucho más interactivo, donde las personas interactúan, comentan, comparten, y no solo están leyendo.
So Facebook is not the only place you can do this, but it's the biggest, and it serves to illustrate the numbers. Facebook has 1.2 billion users per month. So half the Earth's Internet population is using Facebook. They are a site, along with others, that has allowed people to create an online persona with very little technical skill, and people responded by putting huge amounts of personal data online. So the result is that we have behavioral, preference, demographic data for hundreds of millions of people, which is unprecedented in history. And as a computer scientist, what this means is that I've been able to build models that can predict all sorts of hidden attributes for all of you that you don't even know you're sharing information about. As scientists, we use that to help the way people interact online, but there's less altruistic applications, and there's a problem in that users don't really understand these techniques and how they work, and even if they did, they don't have a lot of control over it. So what I want to talk to you about today is some of these things that we're able to do, and then give us some ideas of how we might go forward to move some control back into the hands of users.
Facebook no es el único lugar donde esto se puede hacer, pero es el lugar más grande. Veamos los números. Facebook tiene 1200 millones de usuarios por mes. La mitad de la población de Internet usa Facebook. Es un sitio, como otros, que nos ha permitido crear un yo virtual con poca habilidad técnica, y por eso respondemos poniendo ingentes cantidades de datos personales. Así que tenemos datos de comportamiento, preferencias, datos demográficos de cientos de millones de personas, algo sin precedentes en la historia. Como científica informática, esto me ha permitido construir modelos que pueden predecir todo tipo de atributos ocultos de Uds. que ni siquiera Uds. conocen, de los que comparten información. Como científicos, usamos eso para ayudar a interactuar en línea, pero hay aplicaciones menos altruístas, y existe un problema en el desconocimiento del usuario de estas técnicas y de su funcionamiento, y aún de conocerlas, no tenemos demasiado control sobre ellas. Por eso hoy quiero hablarles de algunas cosas que podemos hacer, y luego brindar ideas para avanzar, para devolverle un poco de control a los usuarios.
So this is Target, the company. I didn't just put that logo on this poor, pregnant woman's belly. You may have seen this anecdote that was printed in Forbes magazine where Target sent a flyer to this 15-year-old girl with advertisements and coupons for baby bottles and diapers and cribs two weeks before she told her parents that she was pregnant. Yeah, the dad was really upset. He said, "How did Target figure out that this high school girl was pregnant before she told her parents?" It turns out that they have the purchase history for hundreds of thousands of customers and they compute what they call a pregnancy score, which is not just whether or not a woman's pregnant, but what her due date is. And they compute that not by looking at the obvious things, like, she's buying a crib or baby clothes, but things like, she bought more vitamins than she normally had, or she bought a handbag that's big enough to hold diapers. And by themselves, those purchases don't seem like they might reveal a lot, but it's a pattern of behavior that, when you take it in the context of thousands of other people, starts to actually reveal some insights. So that's the kind of thing that we do when we're predicting stuff about you on social media. We're looking for little patterns of behavior that, when you detect them among millions of people, lets us find out all kinds of things.
Esta es Target, la empresa. No solo puse ese logo en el vientre a esa pobre mujer embarazada. Es posible que hayan visto la anécdota que salió en Forbes, en la que Target le envió un volante a esta chica de 15 años con anuncios y cupones para biberones, pañales y cunas 2 semanas antes de que le dijera a sus padres que estaba embarazada. Sí, el padre estaba muy molesto. Dijo: "¿Cómo adivinó Target que esta chica de secundaria estaba embarazada antes de que se lo diga a sus padres?" Resulta que ellos tienen el historial de compras de cientos de miles de clientes y calculan lo que llaman puntaje de embarazo, que no se trata de si la mujer está o no embarazada, sino para cuándo espera. Y lo calculan no mirando cosas obvias como si compra una cuna o ropa de bebé, sino cosas como si compró más vitaminas de lo normal, o si compró un bolso de mano suficientemente grande como para contener pañales. Y por sí solas, dichas compras no parecen revelar mucho, pero es un patrón de comportamiento que, tomado en el contexto de miles de otras personas, empieza a revelar algunas ideas. Ese es el tipo de cosas que hacemos al predecir en los medios sociales. Buscamos pequeños patrones de comportamiento que, al detectarlos entre millones de personas, nos permiten encontrar todo tipo de cosas.
So in my lab and with colleagues, we've developed mechanisms where we can quite accurately predict things like your political preference, your personality score, gender, sexual orientation, religion, age, intelligence, along with things like how much you trust the people you know and how strong those relationships are. We can do all of this really well. And again, it doesn't come from what you might think of as obvious information.
En mi laboratorio, junto a mis colegas, hemos desarrollado mecanismos en los que podemos predecir cosas con bastante exactitud como sus preferencias políticas, su puntaje de personalidad, género, orientación sexual, religión, edad, inteligencia, además de cosas como cuánto confían en las personas que conocen y cuán fuertes son esas relaciones. Podemos hacer todo esto muy bien. Y, de nuevo, no viene de lo que podría pensarse como información obvia.
So my favorite example is from this study that was published this year in the Proceedings of the National Academies. If you Google this, you'll find it. It's four pages, easy to read. And they looked at just people's Facebook likes, so just the things you like on Facebook, and used that to predict all these attributes, along with some other ones. And in their paper they listed the five likes that were most indicative of high intelligence. And among those was liking a page for curly fries. (Laughter) Curly fries are delicious, but liking them does not necessarily mean that you're smarter than the average person. So how is it that one of the strongest indicators of your intelligence is liking this page when the content is totally irrelevant to the attribute that's being predicted? And it turns out that we have to look at a whole bunch of underlying theories to see why we're able to do this. One of them is a sociological theory called homophily, which basically says people are friends with people like them. So if you're smart, you tend to be friends with smart people, and if you're young, you tend to be friends with young people, and this is well established for hundreds of years. We also know a lot about how information spreads through networks. It turns out things like viral videos or Facebook likes or other information spreads in exactly the same way that diseases spread through social networks. So this is something we've studied for a long time. We have good models of it. And so you can put those things together and start seeing why things like this happen. So if I were to give you a hypothesis, it would be that a smart guy started this page, or maybe one of the first people who liked it would have scored high on that test. And they liked it, and their friends saw it, and by homophily, we know that he probably had smart friends, and so it spread to them, and some of them liked it, and they had smart friends, and so it spread to them, and so it propagated through the network to a host of smart people, so that by the end, the action of liking the curly fries page is indicative of high intelligence, not because of the content, but because the actual action of liking reflects back the common attributes of other people who have done it.
Mi ejemplo preferido es este estudio publicado este año en las Actas de la Academia Nacional. Si lo buscan en Google, lo encontrarán. Tiene 4 páginas, es fácil de leer. Mirando los "me gusta" de Facebook, o sea, las cosas que nos gustan en Facebook, usaron eso para predecir todos estos atributos, y algunos otros. En su artículo listaron los 5 "me gusta" más indicativos de una inteligencia alta. Entre ellos figuraba el "me gusta" de las papas rizadas. (Risas) Las papas rizadas son deliciosas, pero que les gusten no necesariamente significa que sean más inteligentes que la media. Entonces, ¿cómo es que uno de los indicadores más fuertes de inteligencia sea darle "me gusta" a esta página si el contenido es totalmente irrelevante para el atributo que se predice? Resulta que tenemos que mirar un montón de teorías subyacentes para ver por qué podemos hacer esto. Una de ellas es una teoría sociológica llamada homofilia, que dice que básicamente las personas son amigas de personas como ellos. Así, si uno es inteligente, tiende a ser amigo de personas inteligentes y si es joven, tiende a ser amigo de jóvenes y esto está bien establecido desde hace cientos de años. También sabemos mucho sobre cómo se difunde la información por las redes. Resulta ser que los videos virales, los "me gusta" de Facebook, u otra información se difunden exactamente de la misma manera que las enfermedades por las redes sociales. Por eso es algo que hemos estudiado durante mucho tiempo. Tenemos buenos modelos de esto. Juntando estas cosas empezamos a ver por qué ocurren cosas como estas. Si tuviera que hacer una hipótesis, diría que un tipo inteligente lanzó esta página o fue quizá uno de los primeros "me gusta" que puntuó alto en esa prueba. Les gustó, y sus amigos lo vieron, y por homofilia, sabemos que probablemente tenía amigos inteligentes, por eso se los propagó, y a alguno le gustó, y ellos tenían amigos inteligentes, y se lo propagaron a ellos, y así se expandió por la red a una serie de personas inteligentes, y así, al final, la acción de darle "me gusta" a las papas rizadas es indicio de inteligencia superior, no debido al contenido, sino por la acción de darle "me gusta" que refleja el atributo en común con otras personas que hicieron lo mismo.
So this is pretty complicated stuff, right? It's a hard thing to sit down and explain to an average user, and even if you do, what can the average user do about it? How do you know that you've liked something that indicates a trait for you that's totally irrelevant to the content of what you've liked? There's a lot of power that users don't have to control how this data is used. And I see that as a real problem going forward.
Es complicado, ¿no? Es algo difícil de explicar al usuario medio, y aún de hacerlo, ¿qué puede hacer al respecto el usuario medio? ¿Cómo saber que uno dio un "me gusta" que indica un rasgo propio totalmente irrelevante al contexto del "me gusta"? Los usuarios no tienen demasiado poder para controlar el uso de estos datos. Y veo eso como un verdadero problema en el futuro.
So I think there's a couple paths that we want to look at if we want to give users some control over how this data is used, because it's not always going to be used for their benefit. An example I often give is that, if I ever get bored being a professor, I'm going to go start a company that predicts all of these attributes and things like how well you work in teams and if you're a drug user, if you're an alcoholic. We know how to predict all that. And I'm going to sell reports to H.R. companies and big businesses that want to hire you. We totally can do that now. I could start that business tomorrow, and you would have absolutely no control over me using your data like that. That seems to me to be a problem.
Por eso creo que hay un par de caminos a mirar si queremos darle a los usuarios algo de control sobre cómo se usan estos datos, porque no siempre se van a usar en su beneficio. Un ejemplo que doy a menudo es que, si alguna vez me aburro de ser profesora, fundaré una empresa que prediga todos estos atributos y cosas como cuán bien uno trabaja en equipo, o si uno es drogadicto, o alcohólico. Sabemos cómo predecir eso. Y le venderé informes a empresas de RR.HH. y a grandes empresas que quieran contratarlos. Hoy, podemos hacerlo. Podría lanzar esa empresa mañana, y Uds. no tendrían ningún control para que no use sus datos de esa forma. Eso me parece que es un problema.
So one of the paths we can go down is the policy and law path. And in some respects, I think that that would be most effective, but the problem is we'd actually have to do it. Observing our political process in action makes me think it's highly unlikely that we're going to get a bunch of representatives to sit down, learn about this, and then enact sweeping changes to intellectual property law in the U.S. so users control their data.
Por eso podemos transitar las vías políticas y legales. En algunos aspectos, creo que sería más eficaz pero el problema es que deberíamos hacerlo. Al observar nuestro proceso político en acción pienso que es muy poco probable conseguir que un grupo de representantes se siente, se documenten al respecto, y luego promulguen cambios radicales a la ley de propiedad intelectual de EE.UU. para que los usuarios controlen sus datos.
We could go the policy route, where social media companies say, you know what? You own your data. You have total control over how it's used. The problem is that the revenue models for most social media companies rely on sharing or exploiting users' data in some way. It's sometimes said of Facebook that the users aren't the customer, they're the product. And so how do you get a company to cede control of their main asset back to the users? It's possible, but I don't think it's something that we're going to see change quickly.
Podríamos ir por las políticas, las empresas de medios sociales dicen ¿Sabes? Eres dueño de tus datos. Tienes total control de cómo se usan. El problema es que los modelos de ingresos de la mayoría de las empresas de medios sociales dependen de compartir o explotar los datos de usuario de alguna manera. A veces se dice de Facebook que los usuarios no son el cliente, sino el producto. Entonces, ¿cómo hacer que una empresa le ceda el control de su activo principal nuevamente a los usuarios? Es posible, pero no creo que sea algo que veamos cambiar rápidamente.
So I think the other path that we can go down that's going to be more effective is one of more science. It's doing science that allowed us to develop all these mechanisms for computing this personal data in the first place. And it's actually very similar research that we'd have to do if we want to develop mechanisms that can say to a user, "Here's the risk of that action you just took." By liking that Facebook page, or by sharing this piece of personal information, you've now improved my ability to predict whether or not you're using drugs or whether or not you get along well in the workplace. And that, I think, can affect whether or not people want to share something, keep it private, or just keep it offline altogether. We can also look at things like allowing people to encrypt data that they upload, so it's kind of invisible and worthless to sites like Facebook or third party services that access it, but that select users who the person who posted it want to see it have access to see it. This is all super exciting research from an intellectual perspective, and so scientists are going to be willing to do it. So that gives us an advantage over the law side.
Por eso creo que la otra vía que podemos transitar es la de ser más eficaces, la de aplicar más ciencia. La de hacer más ciencia que nos permita desarrollar todos estos mecanismos para calcular estos datos personales en primer lugar. Es una investigación muy similar a la que deberíamos hacer si quisiéramos desarrollar mecanismos que le digan al usuario: "Este es el riesgo de la acción que acabas de hacer". Al darle "me gusta" a esa página en Facebook, o al compartir esa información personal, mejoraste mi capacidad de predecir si usas drogas o si te llevas bien en el trabajo. Y eso, creo, puede afectar que las personas quieran compartir algo, mantenerlo privado, o desconectado por completo. También podemos ver cosas como permitirle a las personas cifrar los datos que suben, para que sean invisibles o sin valor para sitios como Facebook o servicios de terceros que los acceden pero que los usuarios que la persona seleccionó puedan verlos. Esta es una investigación súper interesante desde el punto de vista intelectual, de modo que los científicos estarán encantados de hacerla. Eso nos da una ventaja sobre la vía legal.
One of the problems that people bring up when I talk about this is, they say, you know, if people start keeping all this data private, all those methods that you've been developing to predict their traits are going to fail. And I say, absolutely, and for me, that's success, because as a scientist, my goal is not to infer information about users, it's to improve the way people interact online. And sometimes that involves inferring things about them, but if users don't want me to use that data, I think they should have the right to do that. I want users to be informed and consenting users of the tools that we develop.
Uno de los problemas que surgen cuando hablo de esto es que si las personas empiezan a mantener estos datos privados todos esos métodos desarrollados para predecir sus rasgos fallarán. Y yo digo que para mí es un éxito total, porque como científica, mi objetivo no es inferir información de los usuarios, sino mejorar la interacción de las personas en línea. A veces, eso implica inferir cosas sobre ellos, pero si los usuarios no quieren que use esos datos, creo que deberían tener el derecho a pedirlo. Quiero usuarios informados, que aprueben las herramientas que desarrollamos.
And so I think encouraging this kind of science and supporting researchers who want to cede some of that control back to users and away from the social media companies means that going forward, as these tools evolve and advance, means that we're going to have an educated and empowered user base, and I think all of us can agree that that's a pretty ideal way to go forward.
Por eso creo que incentivar este tipo de ciencia y apoyar a los investigadores que quieran ceder algo del control nuevamente a los usuarios y quitárselo a las empresas de medios sociales implica avanzar, y que esas herramientas evolucionen y avancen, significa que tendremos una base de usuarios educados y con poder. Y creo que todos estamos de acuerdo en que es una manera bastante ideal de avanzar.
Thank you.
Gracias.
(Applause)
(Aplausos)