Jennifer Golbeck: Your social media "likes" expose more than you think

If you remember that first decade of the web, it was really a static place. You could go online, you could look at pages, and they were put up either by organizations who had teams to do it or by individuals who were really tech-savvy for the time. And with the rise of social media and social networks in the early 2000s, the web was completely changed to a place where now the vast majority of content we interact with is put up by average users, either in YouTube videos or blog posts or product reviews or social media postings. And it's also become a much more interactive place, where people are interacting with others, they're commenting, they're sharing, they're not just reading.

Если вы помните первое десятилетие всемирной паутины, это было неподвижное пространство. Вы могли подключиться, вы могли просматривать страницы, которые создавались либо организациями, у которых были специалисты, либо пользователями, технически подкованными для того времени. С появлением социальных медиа и социальных сетей в начале 2000-х паутина полностью изменилась и стала местом, где подавляющее большинство содержимого, с которым мы взаимодействуем, загружено обычными пользователями, например, видео в YouTube, записи в блогах, обзоры товаров или записи в соцсетях. Также она стала куда более интерактивной: люди взаимодействуют друг с другом, они комментируют, они делятся, а не просто читают.

So Facebook is not the only place you can do this, but it's the biggest, and it serves to illustrate the numbers. Facebook has 1.2 billion users per month. So half the Earth's Internet population is using Facebook. They are a site, along with others, that has allowed people to create an online persona with very little technical skill, and people responded by putting huge amounts of personal data online. So the result is that we have behavioral, preference, demographic data for hundreds of millions of people, which is unprecedented in history. And as a computer scientist, what this means is that I've been able to build models that can predict all sorts of hidden attributes for all of you that you don't even know you're sharing information about. As scientists, we use that to help the way people interact online, but there's less altruistic applications, and there's a problem in that users don't really understand these techniques and how they work, and even if they did, they don't have a lot of control over it. So what I want to talk to you about today is some of these things that we're able to do, and then give us some ideas of how we might go forward to move some control back into the hands of users.

«Фэйсбук» — не единственное место, где вы можете это делать, но самое крупное и оно даёт представление о цифрах. «Фэйсбуком» пользуются 1,2 миллиарда человек в месяц. Половина Интернет-населения Земли использует «Фэйсбук». Это сайт, который, как и многие другие, позволяет людям создавать онлайн образ почти без технических знаний, и люди пользуются этим, размещая онлайн огромные массивы персональных данных. В результате у нас есть поведенческие, демографические данные, данные о предпочтениях для сотен миллионов людей, что беспрецедентно в истории. Как учёному в области вычислительной техники, мне это дало возможность построить модели, которые могут предсказывать все виды скрытых атрибутов для всех вас, информацию о которых вы раскрываете, даже не догадываясь об этом. Как учёные, мы используем это, чтобы улучшить онлайн взаимодействие людей, однако существуют менее альтруистические приложения, и проблема в том, что пользователи не понимают эти методики и как они работают. И даже если бы понимали, они не могут ими полностью управлять. Сегодня я хочу поговорить с вами о некоторых из тех вещей, что мы способны делать, и затем поделиться несколькими идеями того, как мы могли бы передать управление частично обратно в руки пользователей.

So this is Target, the company. I didn't just put that logo on this poor, pregnant woman's belly. You may have seen this anecdote that was printed in Forbes magazine where Target sent a flyer to this 15-year-old girl with advertisements and coupons for baby bottles and diapers and cribs two weeks before she told her parents that she was pregnant. Yeah, the dad was really upset. He said, "How did Target figure out that this high school girl was pregnant before she told her parents?" It turns out that they have the purchase history for hundreds of thousands of customers and they compute what they call a pregnancy score, which is not just whether or not a woman's pregnant, but what her due date is. And they compute that not by looking at the obvious things, like, she's buying a crib or baby clothes, but things like, she bought more vitamins than she normally had, or she bought a handbag that's big enough to hold diapers. And by themselves, those purchases don't seem like they might reveal a lot, but it's a pattern of behavior that, when you take it in the context of thousands of other people, starts to actually reveal some insights. So that's the kind of thing that we do when we're predicting stuff about you on social media. We're looking for little patterns of behavior that, when you detect them among millions of people, lets us find out all kinds of things.

Это «Таргет», компания. Я не просто так разместила их логотип на животе этой беременной женщины. Вы могли видеть эту забавную историю, напечатанную в журнале «Форбс», когда «Таргет» отправил 15-летней девушке флаер с рекламой и купонами бутылочек, подгузников и детских кроваток за две недели до того, как она сказала родителям о своей беременности. Да, папа был сильно расстроен. Он сказал: «Как “Таргет” узнал, что эта старшеклассница беременна до того, как она сказала родителям?» Оказывается, у них есть история покупок сотен тысяч потребителей, и они рассчитывают так называемый индекс беременности, который не просто показывает, беременна женщина или нет, а когда ей предстоит рожать. Они не вычисляют его, глядя на очевидные вещи типа покупки детской кроватки или одежды. Они видят, что девушка купила витаминов больше, чем обычно, или купила сумку, в которую помещаются подгузники. Сами по себе эти покупки вроде бы и не говорят о многом, однако существует поведенческий шаблон, который можно применить в контексте тысяч других людей, и уже он начинает показывать кое-что. Так что же именно мы делаем, когда предсказываем вещи о вас в соцсетях. Мы ищем крошечные поведенческие шаблоны, которые, если обнаружить их среди миллионов людей, позволяют нам узнать буквально всё.

So in my lab and with colleagues, we've developed mechanisms where we can quite accurately predict things like your political preference, your personality score, gender, sexual orientation, religion, age, intelligence, along with things like how much you trust the people you know and how strong those relationships are. We can do all of this really well. And again, it doesn't come from what you might think of as obvious information.

В моей лаборатории мы с коллегами разработали механизмы, которые позволяют нам достаточно точно предсказывать ваши политические предпочтения, ваш индекс личности, пол, сексуальную ориентацию, религию, возраст, интеллект, а также насколько вы доверяете людям, которых вы знаете, и насколько сильны эти взаимоотношения. Мы можем делать всё это очень хорошо. Ещё раз, это всё не возникает из данных, которые вы привыкли считать очевидными.

So my favorite example is from this study that was published this year in the Proceedings of the National Academies. If you Google this, you'll find it. It's four pages, easy to read. And they looked at just people's Facebook likes, so just the things you like on Facebook, and used that to predict all these attributes, along with some other ones. And in their paper they listed the five likes that were most indicative of high intelligence. And among those was liking a page for curly fries. (Laughter) Curly fries are delicious, but liking them does not necessarily mean that you're smarter than the average person. So how is it that one of the strongest indicators of your intelligence is liking this page when the content is totally irrelevant to the attribute that's being predicted? And it turns out that we have to look at a whole bunch of underlying theories to see why we're able to do this. One of them is a sociological theory called homophily, which basically says people are friends with people like them. So if you're smart, you tend to be friends with smart people, and if you're young, you tend to be friends with young people, and this is well established for hundreds of years. We also know a lot about how information spreads through networks. It turns out things like viral videos or Facebook likes or other information spreads in exactly the same way that diseases spread through social networks. So this is something we've studied for a long time. We have good models of it. And so you can put those things together and start seeing why things like this happen. So if I were to give you a hypothesis, it would be that a smart guy started this page, or maybe one of the first people who liked it would have scored high on that test. And they liked it, and their friends saw it, and by homophily, we know that he probably had smart friends, and so it spread to them, and some of them liked it, and they had smart friends, and so it spread to them, and so it propagated through the network to a host of smart people, so that by the end, the action of liking the curly fries page is indicative of high intelligence, not because of the content, but because the actual action of liking reflects back the common attributes of other people who have done it.

Мой любимый пример можно найти в работе, опубликованной в этом году в Известиях Национальных Академий. Если вы погуглите, то найдёте её. Всего четыре страницы, легко читать. Они исследовали только лайки людей в «Фэйсбуке», только те вещи, которые вам понравились в «Фэйсбуке», и использовали эти данные для предсказания всех перечисленных атрибутов, а также некоторых других. В своей работе они перечислили пять лайков, которые больше всего служили признаком высокого интеллекта. Одним из этих лайков была страница спирального картофеля фри. (Смех) Спиральный картофель фри прелестен, но если он вам нравится, это ещё не означает что вы умнее среднего. Как же так вышло, что одним из сильнейших индикаторов вашего интеллекта является лайк этой страницы, в то время как её содержимое абсолютно не соответствует предсказываемому атрибуту? Оказывается, необходимо рассмотреть целый ряд основополагающих теорий, чтобы увидеть, почему мы можем это сделать. Одной из них является социологическая теория под названием гемофильность, которая гласит, что люди дружат с людьми, похожими на них. Если вы умны, то стремитесь дружить с умными людьми, если вы юны, то стремитесь дружить с молодыми людьми, и это хорошо установлено на протяжении столетий. Мы также много знаем о том, как информация распространяется по сетям. Оказывается, что такие вещи, как вирусные видео или лайки в Фэйсбук, или другая информация, распространяются в точности так же, как болезни распространяются в соцсетях. Мы изучали это на протяжении длительного времени. У нас есть хорошие модели. Вы можете соединить эти вещи и начать видеть, почему происходят такие штуки. В качестве гипотезы я бы предложила вам, что некто умный создал эту страницу, или может быть один из тех, кому она понравилась первой, имел высокий интеллект. Она понравилась им, их друзья увидели это, из гемофильности мы знаем, что у него, вероятно, умные друзья. Это распространилось на них, некоторым из них понравилось, у них тоже умные друзья. Это распространилось на них, и распространялось по сети массе умных людей, в результате чего лайк страницы со спиральным картофелем фри является индикатором высокого интеллекта, не из-за содержимого, но из-за того, что это действие, лайк, отражает общие атрибуты других людей, которые тоже совершили его.

So this is pretty complicated stuff, right? It's a hard thing to sit down and explain to an average user, and even if you do, what can the average user do about it? How do you know that you've liked something that indicates a trait for you that's totally irrelevant to the content of what you've liked? There's a lot of power that users don't have to control how this data is used. And I see that as a real problem going forward.

Довольно сложно, да? Тяжело сесть и объяснить это среднему пользователю, и даже если это сделать, что сможет сделать средний пользователь? Как вы узнаете, что вам понравилось что-то, что указывает на свойство вашей личности, которое совершенно не имеет отношения к содержимому того, что вам понравилось? У пользователей почти нет возможности управлять использованием этих данных. Мне это видится большой проблемой в будущем.

So I think there's a couple paths that we want to look at if we want to give users some control over how this data is used, because it's not always going to be used for their benefit. An example I often give is that, if I ever get bored being a professor, I'm going to go start a company that predicts all of these attributes and things like how well you work in teams and if you're a drug user, if you're an alcoholic. We know how to predict all that. And I'm going to sell reports to H.R. companies and big businesses that want to hire you. We totally can do that now. I could start that business tomorrow, and you would have absolutely no control over me using your data like that. That seems to me to be a problem.

Я думаю, есть пара решений, которые следует рассмотреть, если мы хотим дать пользователям возможность частично управлять тем, как используются эти данные, потому что не во всех случаях они будут использоваться для их выгоды. Я часто привожу такой пример: если мне когда-нибудь надоест быть профессором, я создам компанию, которая предсказывает все эти атрибуты и вещи типа того, насколько хорошо вы работаете в командах, являетесь ли вы наркоманом или алкоголиком. Мы знаем, как всё это предсказать. Я буду продавать отчёты компаниям по найму персонала и большим корпорациям, которые хотят вас нанять. Мы безусловно можем делать это сейчас. Я могла бы начать этот бизнес завтра, и у вас не было бы абсолютно никакого контроля за мной в плане подобного использования ваших данных. Для меня это выглядит как проблема.

So one of the paths we can go down is the policy and law path. And in some respects, I think that that would be most effective, but the problem is we'd actually have to do it. Observing our political process in action makes me think it's highly unlikely that we're going to get a bunch of representatives to sit down, learn about this, and then enact sweeping changes to intellectual property law in the U.S. so users control their data.

Одно из решений, которое мы можем использовать, это путь политики и закона. В некотором отношении, я думаю, он был бы наиболее эффективным, но проблема в том, что мы фактически должны сделать это. Наблюдение за нашим политическим процессом в действии заставляет меня думать, что крайне маловероятно собрать вместе группу представителей для изучения данной проблемы и затем кардинально поменять законы США об интеллектуальной собственности, чтобы пользователи управляли своими данными.

We could go the policy route, where social media companies say, you know what? You own your data. You have total control over how it's used. The problem is that the revenue models for most social media companies rely on sharing or exploiting users' data in some way. It's sometimes said of Facebook that the users aren't the customer, they're the product. And so how do you get a company to cede control of their main asset back to the users? It's possible, but I don't think it's something that we're going to see change quickly.

Мы могли бы пойти путём норм использования данных, когда компании-владельцы соцсетей говорят: «Знаете что? Вы владеете своими данными. У вас полный контроль за тем, как они используются». Проблема в том, что модели доходов большинства этих компаний основываются на совместном использовании или эксплуатации данных пользователей. Иногда в «Фэйсбук» говорят, что пользователи не являются потребителем, они являются товаром. Как вы заставите компанию передать права на их основное имущество обратно пользователям? Это возможно, но я не думаю, что мы увидим это изменение быстро.

So I think the other path that we can go down that's going to be more effective is one of more science. It's doing science that allowed us to develop all these mechanisms for computing this personal data in the first place. And it's actually very similar research that we'd have to do if we want to develop mechanisms that can say to a user, "Here's the risk of that action you just took." By liking that Facebook page, or by sharing this piece of personal information, you've now improved my ability to predict whether or not you're using drugs or whether or not you get along well in the workplace. And that, I think, can affect whether or not people want to share something, keep it private, or just keep it offline altogether. We can also look at things like allowing people to encrypt data that they upload, so it's kind of invisible and worthless to sites like Facebook or third party services that access it, but that select users who the person who posted it want to see it have access to see it. This is all super exciting research from an intellectual perspective, and so scientists are going to be willing to do it. So that gives us an advantage over the law side.

Я думаю, что другой способ, который мы можем использовать и который будет более эффективным, это — больше науки. Во-первых, именно занятие наукой позволило нам создать все эти механизмы для расчёта персональных данных. Очень похожие исследования необходимо провести для разработки механизмов, которые могут сказать пользователю: «Вот риск от действия, которое вы только что предприняли». Поставив лайк этой странице «Фэйсбук», раскрыв этот кусочек персональных данных, вы улучшили мою возможность предсказать, используете ли вы наркотики или насколько хорошо вы ладите с коллегами на рабочем месте. Это, я полагаю, может повлиять на то, захотят ли пользователи делиться чем-то, скрыть от публики или вообще не размещать в сети. Мы также можем посмотреть на такие вещи, как предоставление пользователям возможности шифрования загружаемых ими данных, чтобы они были, своего рода, невидимыми и бесполезными для сайтов типа «Фэйсбук» или сторонних служб, которые имеют доступ к ним, но чтобы при этом избранные пользователи, которых добавил человек, разместивший информацию, могли её видеть. Это очень увлекательное исследование с интеллектуальной точки зрения, поэтому учёные захотят выполнить его. Это даёт нам преимущество над стороной закона.

One of the problems that people bring up when I talk about this is, they say, you know, if people start keeping all this data private, all those methods that you've been developing to predict their traits are going to fail. And I say, absolutely, and for me, that's success, because as a scientist, my goal is not to infer information about users, it's to improve the way people interact online. And sometimes that involves inferring things about them, but if users don't want me to use that data, I think they should have the right to do that. I want users to be informed and consenting users of the tools that we develop.

Одна из проблем, о которой люди заявляют, когда я рассказываю об этом — они говорят: «Если люди начнут прятать все эти данные, все эти методы, которые вы разрабатываете для предсказания их черт характера, не будут работать». Я отвечаю: «Совершенно верно, и для меня — это успех». Поскольку, как у учёного, моей целью не является строить догадки о пользователях, а является улучшение того, как люди взаимодействуют онлайн. Иногда это включает в себя построение догадок о них, но если пользователи не хотят, чтобы я использовала эти данные, я думаю, у них должно быть право отказать мне. Я хочу, чтобы пользователи знали и были согласны на использование инструментов, которые мы разрабатываем.

And so I think encouraging this kind of science and supporting researchers who want to cede some of that control back to users and away from the social media companies means that going forward, as these tools evolve and advance, means that we're going to have an educated and empowered user base, and I think all of us can agree that that's a pretty ideal way to go forward.

Я думаю, что поощрение этого типа науки и поддержка исследователей, которые хотят передать часть управления обратно пользователям от компаний-владельцев соцсетей, означает, что в будущем, по мере развития и усложнения этих инструментов, у нас будут образованные и правомочные пользователи. И я думаю, что все мы согласимся, что это идеальный путь в будущее.

Thank you.

Спасибо.

(Applause)

(Аплодисменты)

Thank you.

Спасибо.

(Applause)

(Аплодисменты)

Jennifer Golbeck: Your social media "likes" expose more than you think

Jennifer Golbeck: Your social media "likes" expose more than you think

Related talks

Del Harvey: Protecting Twitter users (sometimes from themselves)

Johanna Blakley: Social media and the end of gender

Juan Enriquez: Your online life, permanent as a tattoo

Susan Etlinger: What do we do with all this big data?

Tamas Kocsis: The case for a decentralized internet

Zeynep Tufekci: We're building a dystopia just to make people click on ads

Related talks

Del Harvey: Protecting Twitter users (sometimes from themselves)

Johanna Blakley: Social media and the end of gender

Juan Enriquez: Your online life, permanent as a tattoo

Susan Etlinger: What do we do with all this big data?

Tamas Kocsis: The case for a decentralized internet

Zeynep Tufekci: We're building a dystopia just to make people click on ads