America's favorite pie is?
Amerika'nın en sevilen turtası nedir ?
Audience: Apple. Kenneth Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn't see when you only had smaller amounts of it.
İzleyici: Elmalı turta. Kenneth Cukier: Elmalı turta. Tabii ki o. Bunu nasıl biliyoruz? Veri sayesinde. Süpermarket satışlarına bakın. Dondurulmuş, 30 santimlik turtaların süpermarket satışlarına bakın ve elmalı turta kazanır, şüphesiz. En çok satılanlar elmalı turtalardır. Fakat sonra süpermarketler daha küçük, 11 santimlik turtalar satmaya başladı ve aniden elmalı turta dördüncü ya da beşinciliğe düştü. Neden? Ne oldu? Tamam, bir düşünün. 30 santimlik bir turta aldığınızda bütün aile hemfikir olmalı ve elmalı turta herkesin ikinci favori tercihidir. (Gülüşmeler) Ama 11 santimlik tek turta aldığınızda istediğinizi alabilirsiniz. İlk tercihinizi alabilirsiniz. Daha fazla veriniz var. Ondan daha küçük miktarlarda sizde olunca daha önce göremediğiniz bir şeyi görebilirsiniz.
Now, the point here is that more data doesn't just let us see more, more of the same thing we were looking at. More data allows us to see new. It allows us to see better. It allows us to see different. In this case, it allows us to see what America's favorite pie is: not apple.
Şimdi, buradaki anafikir ise daha fazla veri bizim sadece daha fazla görmemizi değil, baktığımız şeyin daha fazlasını görmemizi sağlar. Daha fazla veri, yeniyi görmemizi sağlar. Daha iyi görmemizi sağlar. Farklı görmemizi sağlar. Bu durumda da bize Amerika'nın en sevdiği turtanın elmalı turta olmadığını gösteriyor.
Now, you probably all have heard the term big data. In fact, you're probably sick of hearing the term big data. It is true that there is a lot of hype around the term, and that is very unfortunate, because big data is an extremely important tool by which society is going to advance. In the past, we used to look at small data and think about what it would mean to try to understand the world, and now we have a lot more of it, more than we ever could before. What we find is that when we have a large body of data, we can fundamentally do things that we couldn't do when we only had smaller amounts. Big data is important, and big data is new, and when you think about it, the only way this planet is going to deal with its global challenges — to feed people, supply them with medical care, supply them with energy, electricity, and to make sure they're not burnt to a crisp because of global warming — is because of the effective use of data.
Şimdi, hepiniz büyük ihtimalle büyük veri terimini duymuşsunuzdur. Hatta, belki de büyük veri terimini duymaktan bıkmışsınızdır. Terimin etrafında bir çok aldatıcı olduğu doğru ve bu çok talihsiz bir durum çünkü büyük veri toplumun ilerleyeceği çok önemli bir araçtır. Geçmişte küçük verilere bakardık ve dünyayı anlamaya çalışmanın nasıl bir şey olacağını düşünürdük ve şu an daha fazlasına sahibiz, daha önce sahip olabileceğimizden de daha fazlasına. Bulduğumuz şey ise, geniş bir veriye sahip olduğumuzda küçük miktarlara sahip olduğumuz zaman yapamadığımız şeyleri temel olarak yapabilmemizdir. Büyük veri önemlidir ve büyük veri yenidir ve bunun hakkında düşündüğünüzde bu gezegenin küresel zorluklarını --- insanları beslemek; sağlık hizmetini, enerjisini, elektriğini sağlamak ve küresel ısınma yüzünden onların yanıp kül olmadığından emin olmak — verinin verimli kullamıyla üstesinden gelebileceği tek yoldur.
So what is new about big data? What is the big deal? Well, to answer that question, let's think about what information looked like, physically looked like in the past. In 1908, on the island of Crete, archaeologists discovered a clay disc. They dated it from 2000 B.C., so it's 4,000 years old. Now, there's inscriptions on this disc, but we actually don't know what it means. It's a complete mystery, but the point is that this is what information used to look like 4,000 years ago. This is how society stored and transmitted information.
Peki büyük veri hakkında gelişmeler ne? Önemli olan ne? Peki, bu soruyu cevaplamak için geçmişte fiziksel olarak bilginin neye benzediğini düşünelim. 1908'de Girit Adası'nda arkeologlar bir kil disk buldular. Milattan önce 2000 tarihli olduğunu söylediler, yani kil 4000 yaşında. Diskin üzerinde yazılar var fakat ne anlama geldiklerini bilmiyoruz. Bu tamamen bir gizem, fakat önemli olan bunun bize bilgilerin 4000 yıl önce nasıl göründüğünü göstermesidir. Toplum, bu şekilde bilgiyi kaydetmiş ve aktarmış.
Now, society hasn't advanced all that much. We still store information on discs, but now we can store a lot more information, more than ever before. Searching it is easier. Copying it easier. Sharing it is easier. Processing it is easier. And what we can do is we can reuse this information for uses that we never even imagined when we first collected the data. In this respect, the data has gone from a stock to a flow, from something that is stationary and static to something that is fluid and dynamic. There is, if you will, a liquidity to information. The disc that was discovered off of Crete that's 4,000 years old, is heavy, it doesn't store a lot of information, and that information is unchangeable. By contrast, all of the files that Edward Snowden took from the National Security Agency in the United States fits on a memory stick the size of a fingernail, and it can be shared at the speed of light. More data. More.
Şu an toplum o kadar da fazla ilerlemedi. Biz hâlâ bilgileri disklerin üzerine kaydediyoruz fakat şu an daha fazla bilgi depolayabiliyoruz, her zamankinden de fazla. Arama daha kolaydır. Kopyalama daha kolaydır. Paylaşmak daha kolaydır. İşlemek daha kolaydır. Ve yapabildiğimiz şey ise bilgileri ilk topladığımızda hiç hayal etmediğimiz kullanımlar için tekrar tekrar kullanabilmemizdir. Bu açıdan, veri bir depodan bir akıma, yani durağan ve dengeli olan bir şeyden akışkan ve hareketli olan bir şeye gitti. İsterseniz, bilgide bir akıcılık var. 4000 yaşındaki Girit'te keşfedilen disk ağır, çok fazla bilgi depolamıyor ve bu bilgi değiştirilemez. Buna zıt olarak, Edward Snowden'ın Birleşik Devletler'deki Ulusal Güvenlik Ajansından aldığı bütün dosyalar bir tırnak büyüklüğündeki bir hafıza kartına sığıyor ve ışık hızında paylaşılabiliyor. Daha fazla veri. Daha fazla.
Now, one reason why we have so much data in the world today is we are collecting things that we've always collected information on, but another reason why is we're taking things that have always been informational but have never been rendered into a data format and we are putting it into data. Think, for example, the question of location. Take, for example, Martin Luther. If we wanted to know in the 1500s where Martin Luther was, we would have to follow him at all times, maybe with a feathery quill and an inkwell, and record it, but now think about what it looks like today. You know that somewhere, probably in a telecommunications carrier's database, there is a spreadsheet or at least a database entry that records your information of where you've been at all times. If you have a cell phone, and that cell phone has GPS, but even if it doesn't have GPS, it can record your information. In this respect, location has been datafied.
Bugün dünyada bunca veri olmasının bir nedeni ise daha önce üzerinde bilgi biriktirdiğimiz şeyleri toplamamızdandır ancak diğer bir sebep ise daha önce bilgili olduğumuz fakat öncesinde hiç veri formatı hâline getirilmememiş şeyleri almamız ve onları verilerin içine koymamızdır. Örneğin, yer mevzusunu düşünün. Mesela Martin Luther'i ele alın. Eğer Martin Luther'in yaşadığı 1500'lü yılları bilmek isteseydik onu her zaman takip etmek zorunda olacaktık, belki bir kuş tüyü ve mürekkep hokkası ile onu kaydetmek zorunda olacaktık ama şimdi bugün bu nasıl görünür bir düşünün. Bilirsiniz bir yerde, muhtemelen telekomünikasyon taşıyıcılarının veri tabanında, bütün zaman nerede olduğunuza dair bilgi kaydeden bir hesap çizelgesi veya en azından bir veri tabanı girişi vardır. Cep telefonunuz varsa ve bu cep telefonunun GPS'i varsa hatta GPS'i yoksa bile bilginizi kaydedebilir. Bu bakımdan konum verilendirilmiştir.
Now think, for example, of the issue of posture, the way that you are all sitting right now, the way that you sit, the way that you sit, the way that you sit. It's all different, and it's a function of your leg length and your back and the contours of your back, and if I were to put sensors, maybe 100 sensors into all of your chairs right now, I could create an index that's fairly unique to you, sort of like a fingerprint, but it's not your finger.
Şimdi düşünün, örneğin şu anki hepinizin oturuş biçimini, sizin oturuş biçiminizi, sizin oturuş biçiminizi, sizin oturuş biçiminizi. Hepsi de farklı, sizin bacak uzunluğunuzun, sırt ve sırt konturünün fonksiyonudur ve eğer herbirinizin sandalyesine belki bütün sandalyelere toplamda 100 sensör koysaydım, parmağınızın olmasa da parmak iziniz gibi size özel bir indeks yaratabilirdim.
So what could we do with this? Researchers in Tokyo are using it as a potential anti-theft device in cars. The idea is that the carjacker sits behind the wheel, tries to stream off, but the car recognizes that a non-approved driver is behind the wheel, and maybe the engine just stops, unless you type in a password into the dashboard to say, "Hey, I have authorization to drive." Great.
Peki bununla ne yapabilirdik? Tokyo'daki araştırmacılar bunu arabalarda potansiyel hırsızlık önleme aracı olarak kullanıyorlar. Fikir şu ki; araba hırsızı direksiyona geçer, yola çıkmaya çalışır ama araba direksiyonda izinsiz bir sürücünün olduğunu tanımlar ve belki de motor birden durur, tabii eğer "Hey, kullanmak için yetkim var" diye şifre yapmadıysanız. Harika.
What if every single car in Europe had this technology in it? What could we do then? Maybe, if we aggregated the data, maybe we could identify telltale signs that best predict that a car accident is going to take place in the next five seconds. And then what we will have datafied is driver fatigue, and the service would be when the car senses that the person slumps into that position, automatically knows, hey, set an internal alarm that would vibrate the steering wheel, honk inside to say, "Hey, wake up, pay more attention to the road." These are the sorts of things we can do when we datafy more aspects of our lives.
Avrupa'daki her arabada bu teknoloji olsa ne olurdu? Ne yapabilirdik o zaman? Belki, verileri kümelersek belki belirtileri, en iyi öngörüyü 5 dakika içerinde bir araba kazasının gerçekleşebileceğini tanımlayabiliriz. Ve daha sonra verileştireceğimiz ise sürücü yorgunluğudur ve servis otomatik olarak bilir, kişi birden o pozisyona düştüğünde araba bunu algılayarak direksiyonu titretecek içeride korna çalacak ve "Hey, Uyan ve daha dikkatli ol. " diyecek bir iç alarm kurar. Yaşamımızın diğer yönlerini verileştirirken yapabileceğimiz şeylerdendir bunlar.
So what is the value of big data? Well, think about it. You have more information. You can do things that you couldn't do before. One of the most impressive areas where this concept is taking place is in the area of machine learning. Machine learning is a branch of artificial intelligence, which itself is a branch of computer science. The general idea is that instead of instructing a computer what do do, we are going to simply throw data at the problem and tell the computer to figure it out for itself. And it will help you understand it by seeing its origins. In the 1950s, a computer scientist at IBM named Arthur Samuel liked to play checkers, so he wrote a computer program so he could play against the computer. He played. He won. He played. He won. He played. He won, because the computer only knew what a legal move was. Arthur Samuel knew something else. Arthur Samuel knew strategy. So he wrote a small sub-program alongside it operating in the background, and all it did was score the probability that a given board configuration would likely lead to a winning board versus a losing board after every move. He plays the computer. He wins. He plays the computer. He wins. He plays the computer. He wins. And then Arthur Samuel leaves the computer to play itself. It plays itself. It collects more data. It collects more data. It increases the accuracy of its prediction. And then Arthur Samuel goes back to the computer and he plays it, and he loses, and he plays it, and he loses, and he plays it, and he loses, and Arthur Samuel has created a machine that surpasses his ability in a task that he taught it.
Peki büyük verinin değeri nedir? Peki, bir düşünün. Daha fazla bilginiz var. Önceden yapamadığınız şeyleri yapabilirsiniz. Bu konseptin yer aldığı en etkileyici alanlardan bir tanesi ise makine öğrenmesi. Makine öğrenmesi yapay zekânın bir dalıdır ki o da bilgisayar biliminin bir dalıdır. Genel fikir ise, bir bilgisayarı yapacağı şey için talimat vermek yerine adeta verileri probleme yönelteceğiz ve bilgisayara yolunu bulmasını söyleyeceğiz. Ve temelini görerek anlamanıza yardımcı olacaktır. 1950 'lerde, IBM'de Arthur Samuel adında bir bilgisayar bilimci dama oynamayı seviyordu ve bilgisayara karşı oynayabilmek için bir program yazdı. Oynadı. Kazandı. Oynadı. Kazandı. Oynadı. Kazandı. Çünkü bilgisayar sadece geçerli hamlenin ne olduğunu biliyordu. Arthur Samuel başka bir şey biliyordu. Arthur Samuel strateji biliyordu. Bu yüzden yanına ufak bir alt-program yazdı arkaplanda işyelen ve tüm yaptığı verilen bir dama tahta düzeninin olası kazanan ya da kaybeden taraf olma ihtimalini tutmasıydı her hamle sonrası. Bilgisayarla oynar. Kazanır. Bilgisayarla oynar. Kazanır. Bilgisayarla oynar. Kazanır. Ve daha sonra Arthur Samuel bilgisayarı kendi kendine oynamaya bırakır. Kendi kendine oynar, daha fazla veri toplar. Daha çok veri toplar. Tahminlerinin doğruluk oranını yükseltir. Sonra Arthur Samuel yine bilgisayarın başına geçer oynar ve kaybeder, oynar ve kaybeder, oynar ve kaybeder ve Arthur Samuel kendi öğrettiği bir işte, kendi becerilerini aşan bir makine yaratmıştır.
And this idea of machine learning is going everywhere. How do you think we have self-driving cars? Are we any better off as a society enshrining all the rules of the road into software? No. Memory is cheaper. No. Algorithms are faster. No. Processors are better. No. All of those things matter, but that's not why. It's because we changed the nature of the problem. We changed the nature of the problem from one in which we tried to overtly and explicitly explain to the computer how to drive to one in which we say, "Here's a lot of data around the vehicle. You figure it out. You figure it out that that is a traffic light, that that traffic light is red and not green, that that means that you need to stop and not go forward."
Ve bu makine öğrenimi fikri her yerde kullanılıyor. Kendi kendini süren arabaları nasıl yapıyoruz zannediyorsunuz ? İnsanlık olarak bir yolun tüm kurallarını bir yazılıma yüklemekten daha iyisini yapabiliyor muyuz ? Hayır. Bellek daha ucuz. Hayır. Algoritmalar daha hızlı. Hayır. İşlemciler daha iyi. Hayır. Bunların hepsi önemli, fakat asıl mesele bunlar değil. Asıl mesele, bizim sorunun doğasını değiştirmiş olmamızdır. Sorunun doğasını açık şekilde bizim bilgisayara arabayı nasıl süreceğini anlattığımız noktadan, "İşte, aracın etrafında bir sürü veri var. Sen bunları çözersin. Sen onun bir trafik ışığı olduğunu anlarsın, bu trafik ışığı kırmızı, yeşil değil ve bu durman gerektiği ileriye gitmemen gerektiği anlamına gelir." noktasına değiştirdik.
Machine learning is at the basis of many of the things that we do online: search engines, Amazon's personalization algorithm, computer translation, voice recognition systems. Researchers recently have looked at the question of biopsies, cancerous biopsies, and they've asked the computer to identify by looking at the data and survival rates to determine whether cells are actually cancerous or not, and sure enough, when you throw the data at it, through a machine-learning algorithm, the machine was able to identify the 12 telltale signs that best predict that this biopsy of the breast cancer cells are indeed cancerous. The problem: The medical literature only knew nine of them. Three of the traits were ones that people didn't need to look for, but that the machine spotted.
Makine öğrenimi temelinde bizim internette yaptığımız çoğu şey vardır: arama motorları, Amazon'un kişiselleştirme algoritması, bilgisayar çevirisi, ses tanıma sistemleri. Araştırmacılar yakın zamanda biopsi ve kanserli biopsi sorusu ile ilgilenmeye başladılar ve bilgisayardan verilere ve hayatta kalma oranlarına bakarak hücrelerin aslında kanserli olup olmadığına karar vermesini istediler ve bilgisayara makine öğrenimi algoritması aracılığıyla bir veri verdiğinizde makine göğüs kanseri hücre biopsilerininden en iyi 12 tane gerçekten de kanserli hücre belirtisini bulmayı başardı. Sorun şu: Sağlık literatürü bunların sadece 9 tanesini biliyordu. Belirtilerden üçü, onların araştırma ihtiyacı duymadıklarıydı fakat bilgisayar bunları buldu.
Now, there are dark sides to big data as well. It will improve our lives, but there are problems that we need to be conscious of, and the first one is the idea that we may be punished for predictions, that the police may use big data for their purposes, a little bit like "Minority Report." Now, it's a term called predictive policing, or algorithmic criminology, and the idea is that if we take a lot of data, for example where past crimes have been, we know where to send the patrols. That makes sense, but the problem, of course, is that it's not simply going to stop on location data, it's going to go down to the level of the individual. Why don't we use data about the person's high school transcript? Maybe we should use the fact that they're unemployed or not, their credit score, their web-surfing behavior, whether they're up late at night. Their Fitbit, when it's able to identify biochemistries, will show that they have aggressive thoughts. We may have algorithms that are likely to predict what we are about to do, and we may be held accountable before we've actually acted. Privacy was the central challenge in a small data era. In the big data age, the challenge will be safeguarding free will, moral choice, human volition, human agency.
Şimdi, büyük verinin karanlık tarafları da var. Hayatlarımızı kolaylaştıracak fakat farkına varmamız gereken sorunlar da var ve ilki de tahminler yüzünden cezalandırılabiliriz, polis büyük veriyi kendi amaçları için kullanabilir, "Azınlık Raporu"' ndaki gibi. Öngörüsel polislik adı verilen bir terim var veya algoritmik suçbilim olarak olay şu, bir sürü veri toplarsak meselâ geçmiş suçlar nerede gerçekleşti gibi devriyeleri nereye göndereceğimizi de biliriz. Mantıklı duruyor fakat, sorun şu ki bu öyle konum bilgisiyle bitmeyecek bu kişisel sınırlara kadar inecektir. Neden birinin lisedeki not dökümünü veri olarak kullanmıyoruz ? Belki de, işsiz olsalar da olmasalar da kredi notlarını, internette gezinme davranışlarını, gece ayakta olup olmadıklarını kullanmalıyız. Fitbit'leri, biyokimyalarını tanımlayabildiğinde agresif fikirleri olduğunu bize gösterecek. Ne yapacağımızı tahmin edebilecek algoritmalara sahip olabiliriz hatta harekete geçmeden önce sorumlu bile tutulabiliriz. Mahremiyet, küçük veri devrinde esas zorlu işimiz idi. Büyük veri devrinde ise zorlu iş hür iradeyi, ahlaki seçimleri, insani istekleri ve insanın benliğini korumak olacak.
There is another problem: Big data is going to steal our jobs. Big data and algorithms are going to challenge white collar, professional knowledge work in the 21st century in the same way that factory automation and the assembly line challenged blue collar labor in the 20th century. Think about a lab technician who is looking through a microscope at a cancer biopsy and determining whether it's cancerous or not. The person went to university. The person buys property. He or she votes. He or she is a stakeholder in society. And that person's job, as well as an entire fleet of professionals like that person, is going to find that their jobs are radically changed or actually completely eliminated. Now, we like to think that technology creates jobs over a period of time after a short, temporary period of dislocation, and that is true for the frame of reference with which we all live, the Industrial Revolution, because that's precisely what happened. But we forget something in that analysis: There are some categories of jobs that simply get eliminated and never come back. The Industrial Revolution wasn't very good if you were a horse. So we're going to need to be careful and take big data and adjust it for our needs, our very human needs. We have to be the master of this technology, not its servant. We are just at the outset of the big data era, and honestly, we are not very good at handling all the data that we can now collect. It's not just a problem for the National Security Agency. Businesses collect lots of data, and they misuse it too, and we need to get better at this, and this will take time. It's a little bit like the challenge that was faced by primitive man and fire. This is a tool, but this is a tool that, unless we're careful, will burn us.
Başka bir sorun daha var: Büyük veri mesleklerimizi elimizden alacak. Büyük veri ve algoritmalar birlikte ofis çalışanlarına, 21. yüzyıldaki mesleki becerilere meydan okuyacak sanayi devriminin 20. yy'da otomasyon ve seri üretim hattı ile mavi yakalı işçilere yaptığı gibi. Bir laboratuar teknisyeni düşünün bir mikroskopla kanser biopsisine bakıyor ve kanserli olup olmadığına karar veriyor. Bu kişi üniversiteye gitti. Bu kişi mülk ediniyor. Oy kullanıyor. Toplumda paydaş bir kimse. Ve bu kişinin işi ve diğer onun gibi profesyoneller filosunun mesleklerinin tamamiyle başka bir şeye dönüştüğünü ya da artık yok olduğunu görecekler. Biz kısa ve geçici bir alt üst olmadan sonra teknolojinin bizlere yeni meslekler yaratacağını düşünmeyi seviyoruz ve bu hakikaten doğru, hepimizin yaşadığı önümüzdeki endüstri devrimi örneğine bakınca çünkü gerçekte olan tam olarak bu. Fakat bu tahlilde bir şeyi unutuyoruz: Bazı meslek grupları var öylece yok olan ve bir daha geri gelmeyecek olan. Endüstri Devrimi pek iyi olmazdı eğer bir at olsaydınız. Yani dikkatli olmamız gerekiyor büyük veriyi ele alıp ihtiyaçlarımıza göre şekillendirmemiz gerekiyor tümüyle insani ihtiyaçlarımıza göre. Bu teknolojinin ustası olmamız gerekiyor, hizmetçisi değil. Daha henüz büyük veri devrinin başındayız ve doğrusu, toplayabildiğimiz veri ile başa çıkmak konusunda pek iyi değiliz. Bu sadece Ulusal Güvenlik Teşkilatı için bir sorun değil. İşletmeler oldukça veri topluyorlar ve bunu suistimal de ediyorlar ve bu konuda daha iyi olmamız gerekiyor, tabii ki bu da zaman alacak. Bu biraz zorlu bir iş, ilkel insanın ateşle karşılaşması gibi. Bu bir araç fakat dikkatli olmazsak bizi yakabilecek bir araç.
Big data is going to transform how we live, how we work and how we think. It is going to help us manage our careers and lead lives of satisfaction and hope and happiness and health, but in the past, we've often looked at information technology and our eyes have only seen the T, the technology, the hardware, because that's what was physical. We now need to recast our gaze at the I, the information, which is less apparent, but in some ways a lot more important. Humanity can finally learn from the information that it can collect, as part of our timeless quest to understand the world and our place in it, and that's why big data is a big deal.
Büyük veri yaşayış şeklimizi değiştirecek, çalışma şeklimizi ve düşünme şeklimizi de. Kariyerimizi yönetmemize yardımcı olacak hayatlarımıza tatmin ve umut getirecek, mutluluk ve sağlık getirecek fakat geçmişte sıkça bilgi teknolojilerine baktık ve gözlerimiz yalnızca teknolojinin -T' sini gördü teknoloji, donanım çünkü fiziksel olanlar onlardı. Şimdi gözlerimizi daha az meydanda olan bilginin -B' sine çevirmemiz gerekiyor ki bazı açılardan çok daha önemlidir kendisi. İnsanlık en sonunda toplayabileceğimiz bilgiden bir şeyler öğrenebilir, bu dünyayı ve içindeki yerimizi anlamamızı sağlayacak olan ebedi görevimizin bir parçası olarak ve bu sebeple büyük veri büyük bir meseledir.
(Applause)
(Alkışlar)