Jennifer Golbeck: Your social media "likes" expose more than you think

If you remember that first decade of the web, it was really a static place. You could go online, you could look at pages, and they were put up either by organizations who had teams to do it or by individuals who were really tech-savvy for the time. And with the rise of social media and social networks in the early 2000s, the web was completely changed to a place where now the vast majority of content we interact with is put up by average users, either in YouTube videos or blog posts or product reviews or social media postings. And it's also become a much more interactive place, where people are interacting with others, they're commenting, they're sharing, they're not just reading.

Jika Anda ingat dekade pertama dari web ia merupakan tempat yang sangat statis Anda bisa online, melihat-lihat laman, dan laman-laman ini milik organisasi besar yang memiliki tim untuk membuatnya atau oleh individu yang sangat mahfum teknologi saat itu. Dan dengan munculnya media sosial dan jejaring sosial di awal tahun 2000-an, web berubah secara drastis kini menjadi tempat dimana mayoritas konten yang berinteraksi dengan kita dimiliki oleh pengguna biasa, baik video di Youtube atau posting blog atau ulasan produk atau posting media sosial. Dan menjadi tempat yang sangat interaktif dimana orang dapat berinteraksi satu sama lain saling memberi komentar, berbagi, orang tidak lagi hanya membaca.

So Facebook is not the only place you can do this, but it's the biggest, and it serves to illustrate the numbers. Facebook has 1.2 billion users per month. So half the Earth's Internet population is using Facebook. They are a site, along with others, that has allowed people to create an online persona with very little technical skill, and people responded by putting huge amounts of personal data online. So the result is that we have behavioral, preference, demographic data for hundreds of millions of people, which is unprecedented in history. And as a computer scientist, what this means is that I've been able to build models that can predict all sorts of hidden attributes for all of you that you don't even know you're sharing information about. As scientists, we use that to help the way people interact online, but there's less altruistic applications, and there's a problem in that users don't really understand these techniques and how they work, and even if they did, they don't have a lot of control over it. So what I want to talk to you about today is some of these things that we're able to do, and then give us some ideas of how we might go forward to move some control back into the hands of users.

Facebook bukan satu-satunya, tapi ia yang terbesar, dan cukup untuk memberi gambaran. Facebook memiliki 1,2 miliar pengguna setiap bulannya Jadi separuh dari populasi internet Bumi menggunakan Facebook. Mereka adalah laman, seperti lainnya, yang memungkinkan orang untuk menciptakan profil online dengan kemampuan teknis yang minim, dan orang meresponnya dengan menaruh sejumlah besar data-data pribadi secara online Sebagai hasilnya, kami memiliki data tentang kebiasaan, preferensi, demografis dari ratusan juta orang, hal yang tidak pernah terjadi sebelumnya. Bagi saya sebagai ilmuwan komputer, ini berarti saya dapat membuat model-model yang bisa memprediksi segala atribut tersembunyi dari Anda semua, bahkan tidak mengetahui bahwa informasi ini telah Anda berikan. Sebagai ilmuwan, kami menggunakannya untuk membantu orang berinteraksi secara online tapi ada aplikasi yang kurang altruistik, dan akan menjadi masalah jika pengguna tidak begitu memahami teknik ini dan bagaimana cara kerjanya dan walau mereka paham, mereka tidak punya kontrol atas hal ini. Jadi yang ingin saya sampaikan adalah hal-hal yang dapat kami lakukan yang kemudian memberi ide bagaimana ke langkah berikutnya untuk mengembalikan kontrol ke tangan para pengguna.

So this is Target, the company. I didn't just put that logo on this poor, pregnant woman's belly. You may have seen this anecdote that was printed in Forbes magazine where Target sent a flyer to this 15-year-old girl with advertisements and coupons for baby bottles and diapers and cribs two weeks before she told her parents that she was pregnant. Yeah, the dad was really upset. He said, "How did Target figure out that this high school girl was pregnant before she told her parents?" It turns out that they have the purchase history for hundreds of thousands of customers and they compute what they call a pregnancy score, which is not just whether or not a woman's pregnant, but what her due date is. And they compute that not by looking at the obvious things, like, she's buying a crib or baby clothes, but things like, she bought more vitamins than she normally had, or she bought a handbag that's big enough to hold diapers. And by themselves, those purchases don't seem like they might reveal a lot, but it's a pattern of behavior that, when you take it in the context of thousands of other people, starts to actually reveal some insights. So that's the kind of thing that we do when we're predicting stuff about you on social media. We're looking for little patterns of behavior that, when you detect them among millions of people, lets us find out all kinds of things.

Ini adalah perusahaan Target Saya tidak menaruh logo begitu saja di atas perut wanita hamil ini Anda mungkin pernah melihat anekdot yang dicetak majalah Forbes dimana Target mengirimkan brosur kepada gadis berumur 15 tahun beserta iklan dan kupon belanja untuk botol bayi, popok dan tempat tidur 2 minggu sebelum ia memberitahu orang tuanya bahwa ia sedang hamil. Yah, bapak anak ini tentu sangat marah. Ia berkata, "Bagaimana Target tahu bahwa anak SMA ini sedang hamil sebelum dia memberitahu orang tuanya?" Ternyata Target memiliki sejarah belanja ratusan ribu pelanggannya dan mereka menghitung skor kehamilan, bukan hanya apakah hamil tidaknya seorang wanita tapi juga kapan ia melahirkan. Dan mereka menghitung tidak berdasarkan hal-hal yang kentara seperti membeli tempat tidur atau baju bayi, tapi hal-hal seperti belanja lebih banyak vitamin dari kebiasaan normalnya, atau membeli tas tangan yang cukup besar untuk menyimpan popok Dan mereka, aktivitas belanja ini tidak tampak dapat mengungkapkan banyak tapi ini adalah pola tingkah laku dimana ketika Anda mengambil konteksnya dari ribuan orang lainnya mulai memunculkan informasi ini. Jadi hal-hal yang kami lakukan ketika kami memprediksi tentang Anda dari media sosial Kami mencari dari pola tingkah laku yang kecil dimana ketika Anda mendeteksinya dari jutaan orang memungkinkan kami untuk menemukan banyak hal.

So in my lab and with colleagues, we've developed mechanisms where we can quite accurately predict things like your political preference, your personality score, gender, sexual orientation, religion, age, intelligence, along with things like how much you trust the people you know and how strong those relationships are. We can do all of this really well. And again, it doesn't come from what you might think of as obvious information.

Di laboratorium saya dan beberapa kolega, membangun mekanisme dimana kami dapat memprediksi sesuatu dengan tepat seperti pilihan politik Anda, skor kepribadian, jenis kelamin, orientasi seksual Anda agama, usia, kecerdasan dan juga hal-hal seperti seberapa Anda mempercayai orang yang Anda kenal dan seberapa kuat hubungan tersebut. Kami dapat melakukannya dengan baik. Dan lagi, ini tidak datang dari informasi yang Anda anggap gamblang.

So my favorite example is from this study that was published this year in the Proceedings of the National Academies. If you Google this, you'll find it. It's four pages, easy to read. And they looked at just people's Facebook likes, so just the things you like on Facebook, and used that to predict all these attributes, along with some other ones. And in their paper they listed the five likes that were most indicative of high intelligence. And among those was liking a page for curly fries. (Laughter) Curly fries are delicious, but liking them does not necessarily mean that you're smarter than the average person. So how is it that one of the strongest indicators of your intelligence is liking this page when the content is totally irrelevant to the attribute that's being predicted? And it turns out that we have to look at a whole bunch of underlying theories to see why we're able to do this. One of them is a sociological theory called homophily, which basically says people are friends with people like them. So if you're smart, you tend to be friends with smart people, and if you're young, you tend to be friends with young people, and this is well established for hundreds of years. We also know a lot about how information spreads through networks. It turns out things like viral videos or Facebook likes or other information spreads in exactly the same way that diseases spread through social networks. So this is something we've studied for a long time. We have good models of it. And so you can put those things together and start seeing why things like this happen. So if I were to give you a hypothesis, it would be that a smart guy started this page, or maybe one of the first people who liked it would have scored high on that test. And they liked it, and their friends saw it, and by homophily, we know that he probably had smart friends, and so it spread to them, and some of them liked it, and they had smart friends, and so it spread to them, and so it propagated through the network to a host of smart people, so that by the end, the action of liking the curly fries page is indicative of high intelligence, not because of the content, but because the actual action of liking reflects back the common attributes of other people who have done it.

Contoh penelitian favorit saya tentang hal ini dipublikasikan tahun ini di Proceedings of the National Academies Bisa didapatkan dari Google Hanya 4 halaman, mudah untuk dibaca. Mereka hanya melihat hal yang orang "suka" di Facebook, jadi hanya dengan hal yang Anda sukai di Facebook, memakainya memprediksi semua atribut bersama dengan yang lainnya. Di makalahnya mereka memdaftar lima hal yang disukai yang mengindikasikan tingkat kecerdasan tinggi. Dan diantaranya adalah menyukai sebuah laman tentang kentang goreng keriting. (tertawa) Kentang goreng keriting memang enak, tapi menyukainya tidak berarti bahwa Anda lebih cerdas dari orang pada umumnya. Jadi bagaimana kentang menjadi salah satu indikator terkuat dari tingkat kecerdasaan Anda adalah dengan menyukai laman ketika kontennya tidak relevan sama sekali dengan atribut yang diprediksikan? Pada kenyataannya kami harus melihat sejumlah besar teori pendukung untuk mengetahui kenapa kami bisa melakukan hal ini. Salah satu diantaranya adalah teori sosiologi, homofili mengatakan bahwa orang berteman dengan orang yang mirip mereka. Orang cerdas umumnya berteman dengan orang cerdas, dan orang muda umumnya berteman dengan orang muda, dan teori ini sudah terbukti selama ratusan tahun. Kami juga tahu banyak tentang bagaimana informasi tersebar lewat jaringan. Seperti video-video viral atau "suka" di Facebook atau informasi lainnya menyebar dengan cara yang sama persis menyebar seperti penyakit menular di media sosial. Inilah yang kami pelajari sejak lama. Kami punya model yang bagus untuk itu. Sehingga Anda dapat memahami dan mulai melihat kenapa hal ini bisa terjadi. Jika saya boleh memberikan hipotesa, bahwa seorang pemuda cerdas yang memulai laman ini, atau salah satu orang pertama yang menyukainya mempunyai skor tinggi di tes itu. Dan mereka menyukainya, lalu temannya melihat, dan menurut homofili, dia kemungkinan punya teman yang cerdas, kemudian menyebar di antara mereka, dan beberapa menyukainya mereka punya teman cerdas, dan meluas ke mereka, dan juga tersebar melalui jejaring sampai ke orang-orang cerdas, hingga pada akhirnya, tindakan menyukai laman kentang goreng keriting mengindikasikan kecedasan tinggi, bukan karena materi kontennya, tetapi karena tindakan menyukai merefleksikan kembali atribut umum dari orang lain yang juga melakukannya.

So this is pretty complicated stuff, right? It's a hard thing to sit down and explain to an average user, and even if you do, what can the average user do about it? How do you know that you've liked something that indicates a trait for you that's totally irrelevant to the content of what you've liked? There's a lot of power that users don't have to control how this data is used. And I see that as a real problem going forward.

Jadi lumayan rumit bukan? Sulit untuk duduk dan menjelaskan kepada pengguna biasa, dan bahkan jika Anda lakukan ini, apa yang bisa mereka lakukan terhadap hal ini? Bagaimana Anda tahu ketika menyukai sesuatu yang mengindikasikan sifat Anda yang benar-benar tidak relevan dengan konten yang Anda "suka" ? Pengguna tidak memiliki kekuasaan untuk mengendalikan bagaimana datanya digunakan. Dan saya melihatnya sebagai masalah nyata di masa datang.

So I think there's a couple paths that we want to look at if we want to give users some control over how this data is used, because it's not always going to be used for their benefit. An example I often give is that, if I ever get bored being a professor, I'm going to go start a company that predicts all of these attributes and things like how well you work in teams and if you're a drug user, if you're an alcoholic. We know how to predict all that. And I'm going to sell reports to H.R. companies and big businesses that want to hire you. We totally can do that now. I could start that business tomorrow, and you would have absolutely no control over me using your data like that. That seems to me to be a problem.

Jadi saya pikir ada dua jalur yang ingin kami lihat jika kami ingin memberi kendali ke pengguna terhadap bagaimana data digunakan, karena tidak selalu akan digunakan untuk keuntungan mereka. Contoh yang sering saya berikan, jika saya bosan menjadi profesor, saya akan memulai satu perusahaan memprediksi semua atribut ini seperti kemampuan Anda bekerja dalam tim apakah Anda pengguna narkotika, atau pecandu alkohol. Kami bisa memprediksi semua itu. Lalu saya akan menjual laporannya ke perusahaan HR dan bisnis-bisnis besar yang ingin mempekerjakan Anda. Kami bisa melakukannya sekarang. Saya bisa memulai bisnis itu besok, dan Anda sama sekali tidak mempunyai kendali atas penggunaan data yang saya lakukan. Bagi saya, itu menjadi masalahnya.

So one of the paths we can go down is the policy and law path. And in some respects, I think that that would be most effective, but the problem is we'd actually have to do it. Observing our political process in action makes me think it's highly unlikely that we're going to get a bunch of representatives to sit down, learn about this, and then enact sweeping changes to intellectual property law in the U.S. so users control their data.

Salah satu jalur yang dapat kita tempuh adalah jalur kebijakan dan hukum. Dan dengan hormat, saya rasa merupakan jalur yang paling efektif, tapi masalahnya adalah kita harus benar-benar melakukannya. Memantau proses aksi politik membuat saya berpikir sangat tidak mungkin untuk mendapat sekelompok perwakilan duduk dan mempelajari hal ini, dan mempertimbangkan perubahan terhadap hukum properti intelektual di AS sehingga pengguna dapat mengendalikan data mereka.

We could go the policy route, where social media companies say, you know what? You own your data. You have total control over how it's used. The problem is that the revenue models for most social media companies rely on sharing or exploiting users' data in some way. It's sometimes said of Facebook that the users aren't the customer, they're the product. And so how do you get a company to cede control of their main asset back to the users? It's possible, but I don't think it's something that we're going to see change quickly.

Kita bisa memilih rute kebijakan dimana perusahaan berkata, Anda memiliki data Anda Anda memiliki kendali penuh terhadap penggunaannya. Masalahnya adalah model pendapatan kebanyakan perusahaan media sosial bergantung pada membagikan atau mengeksploitasi data pengguna. Kerap dikatakan bahwa pengguna Facebook bukanlah pelanggan, melainkan sebagai produk. Jadi bagaimana kamu membuat perusahaan memberikan hak kendali atas aset utama mereka kembali ke penggunanya? Itu mungkin, tapi saya rasa itu bukan hal yang akan segera terlihat hasilnya.

So I think the other path that we can go down that's going to be more effective is one of more science. It's doing science that allowed us to develop all these mechanisms for computing this personal data in the first place. And it's actually very similar research that we'd have to do if we want to develop mechanisms that can say to a user, "Here's the risk of that action you just took." By liking that Facebook page, or by sharing this piece of personal information, you've now improved my ability to predict whether or not you're using drugs or whether or not you get along well in the workplace. And that, I think, can affect whether or not people want to share something, keep it private, or just keep it offline altogether. We can also look at things like allowing people to encrypt data that they upload, so it's kind of invisible and worthless to sites like Facebook or third party services that access it, but that select users who the person who posted it want to see it have access to see it. This is all super exciting research from an intellectual perspective, and so scientists are going to be willing to do it. So that gives us an advantage over the law side.

Jadi, saya memikirkan jalur lain yang dapat kita lakukan dan akan lebih efektif satu jalur yang lebih ilmiah. Dengan mengandalkan sains yang memungkinkan kami mengembangkan semua mekanisme perhitungan data personal ini di awalnya. And sebenarnya, penelitian yang sama yang harus kami lakukan jika kita ingin mengembangkan mekanisme yang bisa memberitahu si pengguna, "Inilah risiko dari tindakan yang Anda ambil." Dengan 'menyukai' halaman di Facebook, atau dengan membagi sepotong informasi pribadi ini, Anda meningkatkan kemampuan saya memprediksi apakah Anda pengguna narkotika atau apakah Anda betah di tempat kerja Anda. Hal ini, menurut saya, dapat berdampak pada apakah orang mau berbagi, menyimpannya untuk diri sendiri, atau menyimpannya secara offline. Kita juga bisa melihat hal-hal seperti memungkinkan orang mengenkripsi data yang diunggah jadi data tak tampak dan tidak berarti bagi laman seperti Facebook atau layanan pihak ketiga yang mengaksesnya, melainkan hanya para pengguna yang diseleksi oleh si pemilik data diberi akses untuk melihat informasi ini. Ini merupakan penelitian yang sangat menarik dari sudut pandang intelektual, maka ilmuwan bersedia melakukannya. Jadi hal ini memberikan kita keuntungan di sisi hukum.

One of the problems that people bring up when I talk about this is, they say, you know, if people start keeping all this data private, all those methods that you've been developing to predict their traits are going to fail. And I say, absolutely, and for me, that's success, because as a scientist, my goal is not to infer information about users, it's to improve the way people interact online. And sometimes that involves inferring things about them, but if users don't want me to use that data, I think they should have the right to do that. I want users to be informed and consenting users of the tools that we develop.

Salah satu masalah yang dikemukakan saat saya bicara tentang ini, kata mereka jika orang mulai menyimpan datanya secara pribadi semua metode yang telah kamu kembangkan untuk memprediksi karakteristik mereka akan gagal. Dan saya berkata, tentu saja, bagi saya itu merupakan kesuksesan, karena sebagai ilmuwan, gol saya adalah bukan menyimpulkan informasi tentang pengguna, melainkan untuk meningkatkan cara berinteraksi online Dan terkadang melibatkan penyimpulan tentang mereka, tetapi jika pengguna tidak mau saya menggunakan data tersebut, menurut saya, mereka berhak memutuskannya. Saya ingin para pengguna mengetahui dan menyetujui penggunaan dari alat yang kami kembangkan.

And so I think encouraging this kind of science and supporting researchers who want to cede some of that control back to users and away from the social media companies means that going forward, as these tools evolve and advance, means that we're going to have an educated and empowered user base, and I think all of us can agree that that's a pretty ideal way to go forward.

Jadi saya mendukung bentuk ilmu seperti ini dan mendukung para peneliti yang mau mengembalikan kendali kepada para pengguna dari perusahaan-perusahaan media sosial berarti kedepannya, seiring berkembangnya alat-alat ini dan semakin canggih, berarti kita akan memiliki basis pengguna yang terdidik saya rasa kita semua setuju bahwa hal ini cukup ideal di masa datang.

Thank you.

Terima kasih.

(Applause)

(Tepuk tangan)

Thank you.

Terima kasih.

(Applause)

(Tepuk tangan)

Jennifer Golbeck: Your social media "likes" expose more than you think

Jennifer Golbeck: Your social media "likes" expose more than you think

Related talks

Del Harvey: Protecting Twitter users (sometimes from themselves)

Johanna Blakley: Social media and the end of gender

Juan Enriquez: Your online life, permanent as a tattoo

Susan Etlinger: What do we do with all this big data?

Tamas Kocsis: The case for a decentralized internet

Zeynep Tufekci: We're building a dystopia just to make people click on ads

Related talks

Del Harvey: Protecting Twitter users (sometimes from themselves)

Johanna Blakley: Social media and the end of gender

Juan Enriquez: Your online life, permanent as a tattoo

Susan Etlinger: What do we do with all this big data?

Tamas Kocsis: The case for a decentralized internet

Zeynep Tufekci: We're building a dystopia just to make people click on ads