Kenneth Cukier: Big data is better data

USAs yndlingstærte er?

America's favorite pie is?

Publikum: Æble Kenneth Cukier: Æble. Selvfølgelig er det det. Hvordan ved vi det? På grund af data. Man kigger på supermarkedssalget. Man kigger på salget af frosne 30-centimeter tærter og her vinder æble-tærter, uden konkurrence. Størstedelen af salget er æble. Men så startede supermarkederne med at sælge mindre 11-centimeter tærter, og pludselig faldt æbletærter til 4. eller 5. pladsen. Hvorfor? Hvad skete der? Ok, tænk jer om. Når man køber en en 30-centimeter tærte, så er hele familien nødt til at enes, og æble er alles anden-favorit. (Latter) Men når man køber en 11-centimeter tærte til sig selv, så kan man købe den, man helst vil have. Man kan få sit førstevalg. Man har mere data. Man kan se noget, som man ikke kunne se, da man havde mindre mængder af det.

Audience: Apple. Kenneth Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn't see when you only had smaller amounts of it.

Pointen er her, at mere data, ikke bare lader os se mere, mere af det samme, som vi kiggede på. Mere data tillader os at se noget nyt. Det tillader os at se bedre. Det tillader os at se anderledes. I dette tilfælde tillader det os at se, hvad USAs yndlingstærte er: ikke æble.

Now, the point here is that more data doesn't just let us see more, more of the same thing we were looking at. More data allows us to see new. It allows us to see better. It allows us to see different. In this case, it allows us to see what America's favorite pie is: not apple.

I har formentlig alle hørt om begrebet "big data". I er formentlig endda allerede trætte af at høre om begrebet "big data". Det er sandt, at der er en masse hype omkring begrebet, hvilket er meget uheldigt, fordi "big data" er et ekstremt vigtigt redskab til at udvikle samfundet. Indtil nu har vi analyseret på mindre mængde data og tænk på, hvad det har betydet for at prøve at forstå verdenen, og nu har vi meget mere af det, kan vi forstå mere end nogensinde før. Det vi opnår, når vi har en stor mængde data er, at vi grundlæggende kan gøre ting, som vi ikke kunne, da vi havde mindre mængder data. "Big data" er vigtigt og "big data" er nyt, og når man tænker over det, så er den eneste måde denne planet kan håndtere med dens globale udfordringer - at give folk mad, give dem lægebehandling, levere energi, strøm og sikre sig, at de ikke bliver forbrændte pga. global opvarmning - er pga. den effektive udnyttelse af data.

Now, you probably all have heard the term big data. In fact, you're probably sick of hearing the term big data. It is true that there is a lot of hype around the term, and that is very unfortunate, because big data is an extremely important tool by which society is going to advance. In the past, we used to look at small data and think about what it would mean to try to understand the world, and now we have a lot more of it, more than we ever could before. What we find is that when we have a large body of data, we can fundamentally do things that we couldn't do when we only had smaller amounts. Big data is important, and big data is new, and when you think about it, the only way this planet is going to deal with its global challenges — to feed people, supply them with medical care, supply them with energy, electricity, and to make sure they're not burnt to a crisp because of global warming — is because of the effective use of data.

Så hvad er det det nye ved "big data"? Hvad handler det om? For at besvare dette spørgsmål, så lad os huske på, hvordan information så ud, fysisk så ud i fortiden. I 1908 på øen Kreta opdagede arkæologer en skive ler. De daterede den til 2000 år f.kr., så den er 4000 år gammel. Der er inskriptioner på denne skive, men vi aner faktisk ikke, hvad de betyder. Det er et komplet mysterie, men pointen er, at det var sådan information så ud for 4000 år siden. Det var sådan samfundet opbevarede og overførte information.

So what is new about big data? What is the big deal? Well, to answer that question, let's think about what information looked like, physically looked like in the past. In 1908, on the island of Crete, archaeologists discovered a clay disc. They dated it from 2000 B.C., so it's 4,000 years old. Now, there's inscriptions on this disc, but we actually don't know what it means. It's a complete mystery, but the point is that this is what information used to look like 4,000 years ago. This is how society stored and transmitted information.

Samfundet har egentlig ikke ændret sig så meget. Vi gemmer stadig information på skiver, men nu kan vi gemme meget mere information,

Now, society hasn't advanced all that much. We still store information on discs, but now we can store a lot more information,

mere end nogensinde. At søge i det er nemmere. At kopiere det er nemmere. At dele det er nemmere. At bearbejde det er nemmere. Og det vi kan gøre er, at vi kan genbruge denne information til ting vi aldrig havde forestillet os, da vi først indsamlede de data. I den henseende er data gået fra at være fast til at være flydende, fra noget der er stationært og statisk til noget der er flydende og dynamisk. Der er, om man vil, en likviditet af information. Den disk, der blev opdaget på Kreta, der er 4000 år gammel, er tung, den kan ikke opbevare meget information, og informationen kan ikke ændres. Omvendt, så kan alle de filer som Edward Snowden tog fra NSA i USA være på et USB-stik på størrelse med en fingernegl, og de kan blive delt med lysets hastighed. Mere data. Mere.

more than ever before. Searching it is easier. Copying it easier. Sharing it is easier. Processing it is easier. And what we can do is we can reuse this information for uses that we never even imagined when we first collected the data. In this respect, the data has gone from a stock to a flow, from something that is stationary and static to something that is fluid and dynamic. There is, if you will, a liquidity to information. The disc that was discovered off of Crete that's 4,000 years old, is heavy, it doesn't store a lot of information, and that information is unchangeable. By contrast, all of the files that Edward Snowden took from the National Security Agency in the United States fits on a memory stick the size of a fingernail, and it can be shared at the speed of light. More data. More.

En af grundene til, at vi har så meget data i verden i dag er, at vi indsamler ting, som vi altid har indsamlet information om, men en anden grund hvorfor er, at vi tager ting, der altid har været information, men som aldrig har eksisteret som data og vi omsætter det til data. Tænke f.eks. på spørgsmålet om lokation. Tag f.eks. Martin Luther. Hvis vi ønskede at vide i 1500-tallet, hvor Martin Luther var, ville vi være nødt til at følge ham konstant, eventuelt med en fjer og et blækhus og nedfælde det, men tænk på hvordan det foregår i dag. Man ved at et eller andet sted, formentlig i en telekommunikations- virksomheds database, er der et dataark eller i det mindste en databaseindgang, der optager ens information, om hvor man har opholdt sig til hver en tid. Hvis man har en mobiltelefon og den telefon har GPS, og selvom det ikke har GPS, kan den optage den information. I den henseende, så er ens lokation blevet omsat til data.

Now, one reason why we have so much data in the world today is we are collecting things that we've always collected information on, but another reason why is we're taking things that have always been informational but have never been rendered into a data format and we are putting it into data. Think, for example, the question of location. Take, for example, Martin Luther. If we wanted to know in the 1500s where Martin Luther was, we would have to follow him at all times, maybe with a feathery quill and an inkwell, and record it, but now think about what it looks like today. You know that somewhere, probably in a telecommunications carrier's database, there is a spreadsheet or at least a database entry that records your information of where you've been at all times. If you have a cell phone, and that cell phone has GPS, but even if it doesn't have GPS, it can record your information. In this respect, location has been datafied.

Tænk f.eks. på emnet kropsholdning, den måde I alle sidder på lige nu, den måde du sidder på, den måde du sidder på, den måde du sidder på, de er alle forskellige og er en funktion af jeres benlængde, jeres ryg og konturerne af jeres ryg og hvis jeg skulle sætte, måske 100 censorer på alle jeres stole lige nu, så kunne jeg skabe et indeks, der er ganske unikt for jer, på en måde som et fingeraftryk, men det det er ikke jeres finger.

Now think, for example, of the issue of posture, the way that you are all sitting right now, the way that you sit, the way that you sit, the way that you sit. It's all different, and it's a function of your leg length and your back and the contours of your back, and if I were to put sensors, maybe 100 sensors into all of your chairs right now, I could create an index that's fairly unique to you, sort of like a fingerprint, but it's not your finger.

Så hvad kan vi bruge dette til? Forskere i Tokyo bruger det som en potentiel tyverialarm i biler Ideen er at biltyven sidder bag rattet og forsøger at komme væk, men bilen genkender, at en ikke-godkendt chauffør sidder bag rattet og måske stopper motoren medmindre man indtaster et password i kontrolpanelet for at sige: "Hej, jeg har godkendelse til at køre." Fantastisk.

So what could we do with this? Researchers in Tokyo are using it as a potential anti-theft device in cars. The idea is that the carjacker sits behind the wheel, tries to stream off, but the car recognizes that a non-approved driver is behind the wheel, and maybe the engine just stops, unless you type in a password into the dashboard to say, "Hey, I have authorization to drive." Great.

Hvad hvis hver eneste bil i Europa havde denne teknologi indbygget? Hvad kunne vi så gøre? Måske, hvis vi aggregerede data, kunne vi identificere afslørende tegn, der bedst kan forudsige, at en ulykke vil ske indenfor de næste fem sekunder. Og så er det, som vi har omsat til data chauffør-træthed og servicen vil så være, at når bilen registrerer, at personen falder sammen i den postitur vil den automatisk vide det og sætte en intern alarm i gang, der ville få rattet til at vibrere, indvendigt dytte hornet for at sige, "Hallo, vågn op, være mere opmærksom på vejen." Det er den slags ting, som vi kan gøre, når vi får data på flere aspekter af vores liv.

What if every single car in Europe had this technology in it? What could we do then? Maybe, if we aggregated the data, maybe we could identify telltale signs that best predict that a car accident is going to take place in the next five seconds. And then what we will have datafied is driver fatigue, and the service would be when the car senses that the person slumps into that position, automatically knows, hey, set an internal alarm that would vibrate the steering wheel, honk inside to say, "Hey, wake up, pay more attention to the road." These are the sorts of things we can do when we datafy more aspects of our lives.

Så hvad er værdien af "big data"? Tænk over det. Man har mere information. Man kan gøre ting, man ikke kunne gøre før. Et af de mest imponerende områder, hvor dette koncept forekommer er indenfor området for maskinindlæring. Maskine-indlæring er en kategori indenfor kunstig intelligens, der i sig selv er en kategori indenfor computervidenskab. Den generelle ide er, at i stedet for at instruere en computer i, hvad den skal gøre, vil vil ganske enkelt smide data efter problemet og fortælle computeren, at den selv skal finde ud af det. Og den vil hjælpe en med at forstå det ved at se dets oprindelse. I 1950'erne var der er en datamatiker hos IBM, der hed Arthur Samuel, som kunne lide at spille dam, så han skrev et computer program, så han kunne spille mod computeren. Han spillede. Han vandt. Han spillede. Han vandt. Han spillede. Han vandt, fordi computeren vidste kun, hvad der var et lovligt træk. Arthur Samuel vidste mere end det. Arthur Samuel kendte til strategi. Så han skrev et mindre under-program ved siden af, der kørte i baggrunden og alt det gjorde, var at udregne sandsynligheden for, at en given stilling på pladen formentlig ville føre til et vindende spil i forhold til et tabende spil for hvert træk. Han spiller mod computeren. Han vinder. Han spiller mod computeren. Han vinder. Han spiller mod computeren. Han vinder. Og så lader Arthur Samuel computeren spille mod sig selv. Den spiller mod sig selv. Den indsamler mere data. Den indsamler mere data. Den øger nøjagtigheden af sine forudsigelser. Og så går Arthur Samuel tilbage til computeren og han spiller mod den, og han taber, og han spiller mod den, og han taber, og han spiller mod den, og han taber. Så Arthur Samuel har skabt en maskine, der overgår hans evner for en opgave, som han har lært den.

So what is the value of big data? Well, think about it. You have more information. You can do things that you couldn't do before. One of the most impressive areas where this concept is taking place is in the area of machine learning. Machine learning is a branch of artificial intelligence, which itself is a branch of computer science. The general idea is that instead of instructing a computer what do do, we are going to simply throw data at the problem and tell the computer to figure it out for itself. And it will help you understand it by seeing its origins. In the 1950s, a computer scientist at IBM named Arthur Samuel liked to play checkers, so he wrote a computer program so he could play against the computer. He played. He won. He played. He won. He played. He won, because the computer only knew what a legal move was. Arthur Samuel knew something else. Arthur Samuel knew strategy. So he wrote a small sub-program alongside it operating in the background, and all it did was score the probability that a given board configuration would likely lead to a winning board versus a losing board after every move. He plays the computer. He wins. He plays the computer. He wins. He plays the computer. He wins. And then Arthur Samuel leaves the computer to play itself. It plays itself. It collects more data. It collects more data. It increases the accuracy of its prediction. And then Arthur Samuel goes back to the computer and he plays it, and he loses, and he plays it, and he loses, and he plays it, and he loses, and Arthur Samuel has created a machine that surpasses his ability in a task that he taught it.

Og denne ide om maskine-indlæring forekommer overalt. Hvordan tror I vi har selv-kørende biler? Er vi bedre stillet som samfund, ved at programmere alle trafikregler ind i noget software? Nej. Hukommelse er billigere. Nej. Algoritmer er hurtigere. Nej. Processorer er bedre. Nej Alle disse ting betyder noget, men det er ikke derfor. Det er fordi vi har ændret på karakteren af problemet. Vi ændrede problemets karakter fra et, hvor vi tydeligt og eksplicit forklarer computeren, hvordan man kører, til et hvor vi siger: Her er en masse data om køretøjet. Regn det selv ud. Regn selv ud, at det er et trafiklys, at det trafiklys er rødt og ikke grønt, at det betyder, at man er nødt til at stoppe og ikke fortsætte fremad."

And this idea of machine learning is going everywhere. How do you think we have self-driving cars? Are we any better off as a society enshrining all the rules of the road into software? No. Memory is cheaper. No. Algorithms are faster. No. Processors are better. No. All of those things matter, but that's not why. It's because we changed the nature of the problem. We changed the nature of the problem from one in which we tried to overtly and explicitly explain to the computer how to drive to one in which we say, "Here's a lot of data around the vehicle. You figure it out. You figure it out that that is a traffic light, that that traffic light is red and not green, that that means that you need to stop and not go forward."

Maskinindlæring er grundlaget for mange af de ting vi foretager os online: søgemaskiner, Amazons personaliserings-algoritme computer-oversættelser stemmegenkendelse-programmer Forskere har for nyligt set på spørgsmålet vedrørende biopsier, kræft-biopsier, og de har bedt en computer om at identificere ved at kigge på data og overlevelsesrater for at afgøre, om celler rent faktisk er kræft eller ej, og ganske rigtigt, når man smider data efter det, gennem en maskinlært algoritme, var maskinen i stand til at identificere de 12 indikatorer, der bedst kan forudsige om denne biopsi af brystkræftceller rent faktisk er kræft Problemet: Den medicinske litteratur kendte kun ni af dem. Tre af disse træk var nogle, som folk ikke behøvede at kigge efter, men som maskinen identificerede.

Machine learning is at the basis of many of the things that we do online: search engines, Amazon's personalization algorithm, computer translation, voice recognition systems. Researchers recently have looked at the question of biopsies, cancerous biopsies, and they've asked the computer to identify by looking at the data and survival rates to determine whether cells are actually cancerous or not, and sure enough, when you throw the data at it, through a machine-learning algorithm, the machine was able to identify the 12 telltale signs that best predict that this biopsy of the breast cancer cells are indeed cancerous. The problem: The medical literature only knew nine of them. Three of the traits were ones that people didn't need to look for, but that the machine spotted.

Der er dog også skyggesider ved "big data". Det vil forbedre vores liv, men der er problemer, som vi er nødt til at være bevidste omkring, og den første er den ide, at vi muligvis bliver straffet for forudsigelser, at politiet måske vil benytte "big data" til deres formål, lidt som i "Minority Report". Det er et begreb der kaldes prædiktivt politiarbejde, eller algoritmisk kriminalarbejde, og ideen er, at hvis vi tager en masse data, f.eks. hvor tidligere forbrydelser har fundet sted, så ved vi, hvor vi skal sende patruljer hen. Det giver mening, men problemet er selvfølgelig, at det ikke stopper ved data for lokation, det vil komme helt ned på individ-niveau. Hvorfor benytter vi ikke data om en persons gymnasie-papirer? Måske skulle vi benytte det faktum, om de er arbejdsløse eller ej, deres kreditværdighed deres internet-adfærd, om de er oppe sent om aftenen. Deres Fitbit, når det er i stand til at identificere biokemi, vil afsløre, når de har aggressive tanker. Vi vil muligvis have algoritmer, der sandsynligt kan forudsige, hvad vi skal til at foretage os, og vi vil måske blive holdt ansvarlige, før vi overhovedet handlede. Privatlivet var en central udfordring i æraen for "small data" I "big data"-tidsalderen vil udfordringen være at beskytte den frie vilje moralske valg, menneskelig vilje, menneskets evne til at tage beslutninger.

Now, there are dark sides to big data as well. It will improve our lives, but there are problems that we need to be conscious of, and the first one is the idea that we may be punished for predictions, that the police may use big data for their purposes, a little bit like "Minority Report." Now, it's a term called predictive policing, or algorithmic criminology, and the idea is that if we take a lot of data, for example where past crimes have been, we know where to send the patrols. That makes sense, but the problem, of course, is that it's not simply going to stop on location data, it's going to go down to the level of the individual. Why don't we use data about the person's high school transcript? Maybe we should use the fact that they're unemployed or not, their credit score, their web-surfing behavior, whether they're up late at night. Their Fitbit, when it's able to identify biochemistries, will show that they have aggressive thoughts. We may have algorithms that are likely to predict what we are about to do, and we may be held accountable before we've actually acted. Privacy was the central challenge in a small data era. In the big data age, the challenge will be safeguarding free will, moral choice, human volition, human agency.

Der er et andet problem: "Big data" vil komme til at stjæle vores jobs. "Big data" og algoritmer vil udfordre administrativt arbejde, professionelt vidensarbejde i det 21. århundrede på samme måde som automatisering af fabrikker og samlebåndsteknikken udfordrede det fysiske arbejde i det 20. århundrede. Tænk på en laborant, der kigger i et mikroskop på en kræft-biopsi og skal afgøre om det er kræft eller ej. Den person gik på universitetet. Den person køber ejendom. Han eller hun stemmer. Han eller hun er en interessent i samfundet. Og den persons arbejde, så vel som en lang række andre beskæftigede som den person, vil opdage, at deres jobs vil ændre sig radikalt eller simpelthen forsvinde. Vi kan godt lide at tænke på, at teknologi skaber jobs over tid efter en kort midlertidig periode med uro, og det skete også for reference- rammen som vi alle har, den industrielle revolution, fordi det er præcis det, der skete. Men vi glemte noget i den analyse: Der er nogen kategorier af jobs der simpelthen forsvinder og aldrig kommer tilbage. Den industrielle revolution var ikke særlig god, hvis man var en hest. Så vi er nødt til at være meget forsigtige og tage "big data" og justere det til vores behov, vores meget menneskelige behov. Vi er nødt til at være herre over denne teknologi ikke dens tjener. Vi står lige på tærsklen til "big data"-æraen og helt ærligt, så er vi ikke særligt gode til at behandle alle disse data, som vi nu kan indsamle. Det er ikke kun et problem for NSA. Forretningsverdenen indsamler mange data og de bruger det også dårligt og vi er nødt til at blive bedre til dette og det vil tage tid. Det er lidt ligesom udfordringen som stenaldermanden havde med ild. Det er et værktøj, men det er et værktøj der, medmindre vi er forsigtige, vil brænde os.

There is another problem: Big data is going to steal our jobs. Big data and algorithms are going to challenge white collar, professional knowledge work in the 21st century in the same way that factory automation and the assembly line challenged blue collar labor in the 20th century. Think about a lab technician who is looking through a microscope at a cancer biopsy and determining whether it's cancerous or not. The person went to university. The person buys property. He or she votes. He or she is a stakeholder in society. And that person's job, as well as an entire fleet of professionals like that person, is going to find that their jobs are radically changed or actually completely eliminated. Now, we like to think that technology creates jobs over a period of time after a short, temporary period of dislocation, and that is true for the frame of reference with which we all live, the Industrial Revolution, because that's precisely what happened. But we forget something in that analysis: There are some categories of jobs that simply get eliminated and never come back. The Industrial Revolution wasn't very good if you were a horse. So we're going to need to be careful and take big data and adjust it for our needs, our very human needs. We have to be the master of this technology, not its servant. We are just at the outset of the big data era, and honestly, we are not very good at handling all the data that we can now collect. It's not just a problem for the National Security Agency. Businesses collect lots of data, and they misuse it too, and we need to get better at this, and this will take time. It's a little bit like the challenge that was faced by primitive man and fire. This is a tool, but this is a tool that, unless we're careful, will burn us.

"Big data" vil forandre, hvordan vi bor, hvordan vi arbejder og hvordan vi tænker Det vil hjælpe os med at styre vores karriere og leve et liv med tilfredsstillelse, håb glæde og sundhed men tidligere har vi ofte set på informationsteknologi og vores øjne har kun set T'et teknologien, hardwaren, fordi den var fysisk. Vi er nu nødt til at ændre vores syn på I'et informationen, der er mindre åbenlys, men på nogle områder meget vigtigere. Menneskeheden kan endelig lære fra den information, som den indsamler, som del af en tidløs stræben efter at forstå verden og vores rolle i den, og det er derfor, at "big data" betyder så meget.

Big data is going to transform how we live, how we work and how we think. It is going to help us manage our careers and lead lives of satisfaction and hope and happiness and health, but in the past, we've often looked at information technology and our eyes have only seen the T, the technology, the hardware, because that's what was physical. We now need to recast our gaze at the I, the information, which is less apparent, but in some ways a lot more important. Humanity can finally learn from the information that it can collect, as part of our timeless quest to understand the world and our place in it, and that's why big data is a big deal.

(Klapsalver)

(Applause)

USAs yndlingstærte er?

America's favorite pie is?

Samfundet har egentlig ikke ændret sig så meget. Vi gemmer stadig information på skiver, men nu kan vi gemme meget mere information,

Now, society hasn't advanced all that much. We still store information on discs, but now we can store a lot more information,

(Klapsalver)

(Applause)

Kenneth Cukier: Big data is better data

Kenneth Cukier: Big data is better data

Related talks

David McCandless: The beauty of data visualization

Talithia Williams: Own your body's data

Tim Berners-Lee: The next web

Shyam Sankar: The rise of human-computer cooperation

Giorgia Lupi: How we can find ourselves in data

Anders Ynnerman: Visualizing the medical data explosion

Related talks

David McCandless: The beauty of data visualization

Talithia Williams: Own your body's data

Tim Berners-Lee: The next web

Shyam Sankar: The rise of human-computer cooperation

Giorgia Lupi: How we can find ourselves in data

Anders Ynnerman: Visualizing the medical data explosion