Kenneth Cukier: Big data is better data

America's favorite pie is?

Quelle est la tarte préférée des Américains ?

Audience: Apple. Kenneth Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn't see when you only had smaller amounts of it.

Public : La tarte à la pomme ! K. Cukier : En effet ! Comment le sait-on ? Grâce aux données. Les ventes de supermarchés. Parmi les ventes en supermarché de tartes surgelées de 30 cm, la tarte à la pomme était n°1, haut la main. La majorité des ventes se fait sur les tartes à la pomme. Puis les supermarchés se sont mis à vendre des tartes plus petites, de 11 cm. Et d'un coup, la pomme a chuté à la 4ème ou 5ème place Pourquoi ? Que s'est-il passé ? Réfléchissez ! Quand vous achetez une grande tarte, il faut que toute la famille soit d'accord, Or la pomme est le deuxième choix de tous. (Rires) Mais si vous achetez une petite tartelette, vous pouvez acheter celle que vous préférez. Vous pouvez avoir votre premier choix. Vous avez plus de données. On découvre quelque chose qui nous aurait échappé avec moins de données.

Now, the point here is that more data doesn't just let us see more, more of the same thing we were looking at. More data allows us to see new. It allows us to see better. It allows us to see different. In this case, it allows us to see what America's favorite pie is: not apple.

Mais plus de données ne nous donnent pas seulement plus d'informations, plus d'informations sur la même chose. Plus de données nous permettent de voir de nouvelles choses, d'y voir plus clair, de voir sous un nouvel angle. Dans ce cas, ça nous a permis de savoir quelle tarte les Américains préfèrent : ce n'est pas la pomme.

Now, you probably all have heard the term big data. In fact, you're probably sick of hearing the term big data. It is true that there is a lot of hype around the term, and that is very unfortunate, because big data is an extremely important tool by which society is going to advance. In the past, we used to look at small data and think about what it would mean to try to understand the world, and now we have a lot more of it, more than we ever could before. What we find is that when we have a large body of data, we can fundamentally do things that we couldn't do when we only had smaller amounts. Big data is important, and big data is new, and when you think about it, the only way this planet is going to deal with its global challenges — to feed people, supply them with medical care, supply them with energy, electricity, and to make sure they're not burnt to a crisp because of global warming — is because of the effective use of data.

Vous avez déjà probablement entendu le terme « Big Data ». En fait, vous en avez probablement plein les oreilles des Big Data. C'est vrai qu'il y a beaucoup de bruit autour de ça et c'est bien regrettable, parce c'est un outil extrêmement important qui va faire progresser notre société. Jusqu'ici, on n'utilisait que de petites quantités de données, on cherchait à les interpréter afin de comprendre le monde. On a à présent infiniment plus de données, plus de données que jamais auparavant. Et quand on a une telle quantité de données, on peut accomplir des choses inimaginables avec de petites quantités. Les Big Data sont à la fois nouvelles et importantes. Si on y réfléchit, le seul moyen qu'on aura pour faire face aux enjeux mondiaux : nourrir l'humanité, l'approvisionner en médicaments, en énergie, en électricité, et éviter d'être rôti par le réchauffement climatique, ce sera grâce à une utilisation efficace des données.

So what is new about big data? What is the big deal? Well, to answer that question, let's think about what information looked like, physically looked like in the past. In 1908, on the island of Crete, archaeologists discovered a clay disc. They dated it from 2000 B.C., so it's 4,000 years old. Now, there's inscriptions on this disc, but we actually don't know what it means. It's a complete mystery, but the point is that this is what information used to look like 4,000 years ago. This is how society stored and transmitted information.

Qu'y a-t-il de nouveau dans les Big Data ? Pourquoi tout le monde en parle ? Pour y répondre, il faut se rappeler à quoi ressemblait physiquement une information dans le passé. En 1908, sur l'île de Crète, des archéologues ont découvert un disque en argile. Ils l'ont daté de 2 000 ans av. J-C., soit vieux de 4 000 ans. Il y a des inscriptions mais personne n'arrive à les déchiffrer. Le mystère reste entier. Mais c'est à cela que ressemblait l'information il y a 4 000 ans. C'est ainsi que la société stockait et transmettait l'information.

Now, society hasn't advanced all that much. We still store information on discs, but now we can store a lot more information, more than ever before. Searching it is easier. Copying it easier. Sharing it is easier. Processing it is easier. And what we can do is we can reuse this information for uses that we never even imagined when we first collected the data. In this respect, the data has gone from a stock to a flow, from something that is stationary and static to something that is fluid and dynamic. There is, if you will, a liquidity to information. The disc that was discovered off of Crete that's 4,000 years old, is heavy, it doesn't store a lot of information, and that information is unchangeable. By contrast, all of the files that Edward Snowden took from the National Security Agency in the United States fits on a memory stick the size of a fingernail, and it can be shared at the speed of light. More data. More.

La société n'a pas tant évolué que ça. On stocke toujours l'information sur des disques, mais en quantité plus grande, infiniment plus grande. Les informations sont plus faciles à chercher, plus faciles à copier, à partager, plus faciles à traiter. On peut aussi réutiliser ces informations à des fins auxquelles on n'avait pas du tout pensé au moment où on les a collectées. On peut dire que les données sont passées d'un stock à un flux, de statique et immobile, à fluide et dynamique. On peut dire que l'information est devenue liquide. Ce disque découvert en Crète et vieux de 4 000 ans, il est lourd, il ne contient pas beaucoup d'information, et cette information n'est pas modifiable. En revanche, tous les fichiers qu'Edward Snowden a pris à la NSA aux États-Unis tiennent sur une clé USB pas plus grande qu'une pièce de 50 centimes, et ils peuvent être partagés à la vitesse de la lumière. Plus de données. Plus.

Now, one reason why we have so much data in the world today is we are collecting things that we've always collected information on, but another reason why is we're taking things that have always been informational but have never been rendered into a data format and we are putting it into data. Think, for example, the question of location. Take, for example, Martin Luther. If we wanted to know in the 1500s where Martin Luther was, we would have to follow him at all times, maybe with a feathery quill and an inkwell, and record it, but now think about what it looks like today. You know that somewhere, probably in a telecommunications carrier's database, there is a spreadsheet or at least a database entry that records your information of where you've been at all times. If you have a cell phone, and that cell phone has GPS, but even if it doesn't have GPS, it can record your information. In this respect, location has been datafied.

Une raison pour laquelle nous avons tant de données aujourd'hui, c'est qu'on étudie des choses sur lesquelles on a toujours collecté de l'information. Une autre raison, c'est qu'on utilise des choses qui ont toujours été informationnelles et qui n'ont jamais été transformées en données et nous les mettons maintenant en données. Prenez l'exemple des données de localisation. Pensez par exemple à Martin Luther. Si on avait voulu savoir au 16ème siècle où Martin Luther se trouvait, on aurait dû le suivre tout le temps, sans doute avec une plume et un encrier pour noter ses différentes positions. Regardez à quoi ça ressemble aujourd'hui ! Vous savez que quelque part, probablement dans la base de données de votre opérateur, il y a un tableau ou une entrée dans une base de données qui enregistre les informations sur votre localisation, à chaque instant. Si vous avez un téléphone portable, que ce dernier soit muni d'un GPS ou non, il stocke vos informations. C'est ainsi que la localisation a été mise en données.

Now think, for example, of the issue of posture, the way that you are all sitting right now, the way that you sit, the way that you sit, the way that you sit. It's all different, and it's a function of your leg length and your back and the contours of your back, and if I were to put sensors, maybe 100 sensors into all of your chairs right now, I could create an index that's fairly unique to you, sort of like a fingerprint, but it's not your finger.

Prenons maintenant l'exemple de votre posture, la manière dont vous êtes tous assis en ce moment votre manière de vous asseoir à vous, votre posture à vous, la vôtre. Elles sont toutes différentes en fonction de la longueur de vos jambes et des contours de votre dos Et si je posais, disons, 100 capteurs sur chacun de vos sièges, je pourrais créer un index unique qui vous serait propre, comme une empreinte unique, autre qu'une empreinte digitale.

So what could we do with this? Researchers in Tokyo are using it as a potential anti-theft device in cars. The idea is that the carjacker sits behind the wheel, tries to stream off, but the car recognizes that a non-approved driver is behind the wheel, and maybe the engine just stops, unless you type in a password into the dashboard to say, "Hey, I have authorization to drive." Great.

Mais à quoi ça pourrait bien servir ? Des chercheurs à Tokyo utilisent ça comme un possible système antivol dans les voitures. Si un voleur s'assied derrière le volant et tente de démarrer, la voiture reconnaît qu'un conducteur non-approuvé est derrière le volant et stoppe simplement le moteur, sauf si vous entrez un mot de passe qui dit que vous avez l'autorisation de conduire la voiture.

What if every single car in Europe had this technology in it? What could we do then? Maybe, if we aggregated the data, maybe we could identify telltale signs that best predict that a car accident is going to take place in the next five seconds. And then what we will have datafied is driver fatigue, and the service would be when the car senses that the person slumps into that position, automatically knows, hey, set an internal alarm that would vibrate the steering wheel, honk inside to say, "Hey, wake up, pay more attention to the road." These are the sorts of things we can do when we datafy more aspects of our lives.

Imaginons que chaque voiture en Europe soit munie de cette technologie. Quelles perspectives cela nous ouvre-t-il ? En rassemblant ces données, on pourrait peut-être identifier des signes révélateurs qui prédisent au mieux qu'un accident va se produire dans les 5 prochaines secondes. C'est ainsi qu'on sera parvenu à mettre en données la fatigue du conducteur. Un nouveau service serait que, quand la voiture sent qu'une personne s'affale dans cette position, elle comprend automatiquement et réagit en faisant vibrer le volant, en klaxonnant à l'intérieur comme pour dire : « Debout, concentre-toi sur la route ! » C'est le genre de choses qui deviennent possibles quand on met en données certains aspects du quotidien.

So what is the value of big data? Well, think about it. You have more information. You can do things that you couldn't do before. One of the most impressive areas where this concept is taking place is in the area of machine learning. Machine learning is a branch of artificial intelligence, which itself is a branch of computer science. The general idea is that instead of instructing a computer what do do, we are going to simply throw data at the problem and tell the computer to figure it out for itself. And it will help you understand it by seeing its origins. In the 1950s, a computer scientist at IBM named Arthur Samuel liked to play checkers, so he wrote a computer program so he could play against the computer. He played. He won. He played. He won. He played. He won, because the computer only knew what a legal move was. Arthur Samuel knew something else. Arthur Samuel knew strategy. So he wrote a small sub-program alongside it operating in the background, and all it did was score the probability that a given board configuration would likely lead to a winning board versus a losing board after every move. He plays the computer. He wins. He plays the computer. He wins. He plays the computer. He wins. And then Arthur Samuel leaves the computer to play itself. It plays itself. It collects more data. It collects more data. It increases the accuracy of its prediction. And then Arthur Samuel goes back to the computer and he plays it, and he loses, and he plays it, and he loses, and he plays it, and he loses, and Arthur Samuel has created a machine that surpasses his ability in a task that he taught it.

Que valent alors donc les Big Data ? Pensez-y ! On a plus d'information. On peut faire des nouvelles choses qui étaient impossibles auparavant. Une des applications les plus impressionnantes des Big Data concerne le domaine de l'apprentissage automatique. Il s'agit d'une branche de l'intelligence artificielle, elle-même branche de l'informatique. L'idée générale c'est que, plutôt que de dire à l'ordinateur ce qu'il a à faire, on va juste donner plein d'informations à l'ordinateur et lui dire de se débrouiller avec. Pour vous aider à comprendre, retournons aux origines de l'apprentissage automatique. En 1950, un informaticien de chez IBM, Arthur Samuel, était amateur du jeu de Dames. Il a donc créé un programme informatique afin de jouer contre l'ordinateur. Il a joué. Il a gagné. Il a joué. Il a gagné. Il a joué. Il a gagné, parce que l'ordinateur ne connaissait rien d'autre que les coups légaux. Arthur Samuel en savait plus. Arthur Samuel avait des notions de stratégie. Il a alors écrit un sous-programme à côté. Il opérait en arrière-plan et tout ce qu'il faisait, c'est qu'après chacun des coups, il comptait les probabilités de chacune des configurations du damier de mener à la victoire ou à la défaite. Il joue contre l'ordinateur. Il gagne. Il joue contre l'ordinateur. Il gagne. Il joue contre l'ordinateur. Il gagne. Puis Arthur Samuel a laissé l'ordinateur jouer contre lui-même. Plus il joue contre lui-même, plus il collecte de données. Plus il collecte de données, plus il augmente la précision de ses prédictions. Et quand Samuel a rejoué contre l'ordinateur, il joue et il perd. Il joue et il perd. Il joue et il perd. C'est ainsi qu'Arthur Samuel a créé une machine capable de le surpasser dans une discipline qu'il lui a enseignée.

And this idea of machine learning is going everywhere. How do you think we have self-driving cars? Are we any better off as a society enshrining all the rules of the road into software? No. Memory is cheaper. No. Algorithms are faster. No. Processors are better. No. All of those things matter, but that's not why. It's because we changed the nature of the problem. We changed the nature of the problem from one in which we tried to overtly and explicitly explain to the computer how to drive to one in which we say, "Here's a lot of data around the vehicle. You figure it out. You figure it out that that is a traffic light, that that traffic light is red and not green, that that means that you need to stop and not go forward."

Et cette idée d'apprentissage automatique est partout autour de nous. Comment croyez-vous que des voitures roulent toutes seules ? Notre société est-elle meilleure depuis que le code de la route a été traduit dans un logiciel ? Non. Le stockage est-il moins cher ? Non. Les algorithmes plus rapides ? Non. Les processeurs plus puissants ? Non. Toutes ces choses sont importantes, mais pas décisives. C'est parce que nous avons changé la nature du problème. Avant, on essayait d'expliquer clairement et ouvertement à l'ordinateur comment il devait conduire. Aujourd'hui, on lui dit : « Voici tout plein de données sur le véhicule, débrouille-toi ! Débrouille-toi à comprendre que ceci est un feu de signalisation que le feu est rouge et non vert, que cela veut dire que tu dois t'arrêter, et non pas continuer. »

Machine learning is at the basis of many of the things that we do online: search engines, Amazon's personalization algorithm, computer translation, voice recognition systems. Researchers recently have looked at the question of biopsies, cancerous biopsies, and they've asked the computer to identify by looking at the data and survival rates to determine whether cells are actually cancerous or not, and sure enough, when you throw the data at it, through a machine-learning algorithm, the machine was able to identify the 12 telltale signs that best predict that this biopsy of the breast cancer cells are indeed cancerous. The problem: The medical literature only knew nine of them. Three of the traits were ones that people didn't need to look for, but that the machine spotted.

L'apprentissage automatique est à la base de nombreux outils en ligne : les moteurs de recherche, l'algorithme de personnalisation d'Amazon, la traduction par ordinateur, ou encore la reconnaissance vocale. Les chercheurs se sont récemment penchés sur la question des biopsies, des biopsies de cellules cancéreuses. Ils ont demandé à des ordinateurs d'analyser les données et le taux de survie pour déterminer quelles cellules sont réellement cancéreuses. Sans surprise, en fournissant assez de données à l'algorithme d'apprentissage automatique, l'ordinateur était capable d'identifier les 12 signes caractéristiques qui prédisent au mieux que cette biopsie de cellules tumorales mammaires sont en effet cancéreuses. Le truc, c'est que les médecins n'en connaissaient que 9. Trois des signes ont été identifiés par l'ordinateur sans que quelqu'un n'ait besoin de faire de recherche dessus.

Now, there are dark sides to big data as well. It will improve our lives, but there are problems that we need to be conscious of, and the first one is the idea that we may be punished for predictions, that the police may use big data for their purposes, a little bit like "Minority Report." Now, it's a term called predictive policing, or algorithmic criminology, and the idea is that if we take a lot of data, for example where past crimes have been, we know where to send the patrols. That makes sense, but the problem, of course, is that it's not simply going to stop on location data, it's going to go down to the level of the individual. Why don't we use data about the person's high school transcript? Maybe we should use the fact that they're unemployed or not, their credit score, their web-surfing behavior, whether they're up late at night. Their Fitbit, when it's able to identify biochemistries, will show that they have aggressive thoughts. We may have algorithms that are likely to predict what we are about to do, and we may be held accountable before we've actually acted. Privacy was the central challenge in a small data era. In the big data age, the challenge will be safeguarding free will, moral choice, human volition, human agency.

Mais il y a aussi une face sombre des Big Data. Cela va améliorer nos vies, mais il y a aussi des problèmes dont il faut être conscient. Le premier, c'est l'idée que l'on puisse être puni à cause de prédictions, que la police utilise les Big Data un peu comme dans « Minority Report ». On appelle ça la prévision policière ou la criminologie algorithmique. L'idée est que, si on prend beaucoup de données par exemple où des crimes ont été commis, on sait où envoyer les patrouilles. C'est logique. Mais le problème, c'est qu'on ne s'arrêtera pas aux données de localisation, on va aller jusqu'au niveau de l'individu. Pourquoi ne pas utiliser les données fournies par vos bulletins scolaires ? Peut-être devrions-nous utiliser le fait que les gens ont un emploi ou non, leur solvabilité, leur comportement sur Internet, s'ils sont debout tard dans la nuit. Leur FitBit, quand c'est possible, pour identifier les réactions biochimiques qui produisent des pensées agressives. On peut avoir des algorithmes qui pourraient prédire ce que nous sommes sur le point de faire, nous pourrions être tenus responsables de ce que l'on n'a pas encore fait. La vie privée était le défi principal lorsqu'on avait peu de données. Avec les Big Data, le défi sera de préserver le libre-arbitre, les choix moraux, le consentement et la capacité d'agir de l'homme.

There is another problem: Big data is going to steal our jobs. Big data and algorithms are going to challenge white collar, professional knowledge work in the 21st century in the same way that factory automation and the assembly line challenged blue collar labor in the 20th century. Think about a lab technician who is looking through a microscope at a cancer biopsy and determining whether it's cancerous or not. The person went to university. The person buys property. He or she votes. He or she is a stakeholder in society. And that person's job, as well as an entire fleet of professionals like that person, is going to find that their jobs are radically changed or actually completely eliminated. Now, we like to think that technology creates jobs over a period of time after a short, temporary period of dislocation, and that is true for the frame of reference with which we all live, the Industrial Revolution, because that's precisely what happened. But we forget something in that analysis: There are some categories of jobs that simply get eliminated and never come back. The Industrial Revolution wasn't very good if you were a horse. So we're going to need to be careful and take big data and adjust it for our needs, our very human needs. We have to be the master of this technology, not its servant. We are just at the outset of the big data era, and honestly, we are not very good at handling all the data that we can now collect. It's not just a problem for the National Security Agency. Businesses collect lots of data, and they misuse it too, and we need to get better at this, and this will take time. It's a little bit like the challenge that was faced by primitive man and fire. This is a tool, but this is a tool that, unless we're careful, will burn us.

Et il y a un autre problème : les Big Data vont nous voler notre travail. A l'aide des algorithmes, elles vont entrer en concurrence avec les cols blancs, avec les travailleurs intellectuels du 21ème siècle, de la même manière que l'automatisation des lignes de montage a concurrencé le travail des cols bleus, au 20ème siècle. Imaginez un technicien de laboratoire qui examine à l'aide d'un microscope la biopsie d'une tumeur pour déterminer si elle est cancéreuse. Cette personne a fait des études. Cette personne est propriétaire. Il ou elle vote. Il ou elle est acteur à part entière de notre société. Et pourtant cette personne, ainsi qu'un pan entier de professionnels similaires, va voir son travail radicalement transformé, voire carrément éliminé. On aime pourtant se dire que sur le long terme, la technologie crée des emplois, après une courte période temporaire de destruction d'emplois. C'est vrai pour la période de référence dans laquelle nous vivons, la Révolution Industrielle, car c'est précisément ce qui s'est passé. Mais on oublie un élément dans cette analyse. Il y a des catégories d'emplois qui sont simplement éliminées et ne sont pas remplacées. La Révolution Industrielle n'a pas été bonne pour les chevaux. Il va donc falloir être prudent, prendre les Big Data et les ajuster à nos besoins, nos besoins humains fondamentaux. Nous devons maîtriser cette technologie et non devenir ses esclaves. L'ère des Big Data vient tout juste de commencer et honnêtement, nous ne sommes pas très bons pour manipuler toutes ces données que nous collectons. Ce n'est pas juste un problème pour la NSA. Les entreprises collectent aussi beaucoup de données, et elles en abusent aussi. Il va falloir faire mieux, et cela va prendre du temps. C'est un peu comme le défi de l'homme préhistorique quand il a inventé le feu. C'est un outil, mais c'est un outil qui, si nous ne sommes pas prudents, va nous brûler.

Big data is going to transform how we live, how we work and how we think. It is going to help us manage our careers and lead lives of satisfaction and hope and happiness and health, but in the past, we've often looked at information technology and our eyes have only seen the T, the technology, the hardware, because that's what was physical. We now need to recast our gaze at the I, the information, which is less apparent, but in some ways a lot more important. Humanity can finally learn from the information that it can collect, as part of our timeless quest to understand the world and our place in it, and that's why big data is a big deal.

Les Big Data vont transformer nos modes de vie, de travail et de pensée. Elles nous aideront à gérer nos carrières, à mener une vie faite de satisfaction, d'espoir, de bonheur et de santé. Mais, par le passé, on a souvent regardé les technologies de l'information et nos yeux n'ont vu que le T, la Technologie, l'ordinateur, parce que c'est matériel et palpable. Il faut à présent tourner notre regard vers le I, l'Information, qui est moins visible, mais d'une certaine manière bien plus importante. L'humanité peut enfin apprendre des informations qu'elle collecte dans le cadre de sa quête pour comprendre le monde et la place de l'homme en son sein. Voilà pourquoi les Big Data sont si importantes.

(Applause)

(Applaudissements)

America's favorite pie is?

Quelle est la tarte préférée des Américains ?

(Applause)

(Applaudissements)

Kenneth Cukier: Big data is better data

Kenneth Cukier: Big data is better data

Related talks

David McCandless: The beauty of data visualization

Talithia Williams: Own your body's data

Tim Berners-Lee: The next web

Shyam Sankar: The rise of human-computer cooperation

Giorgia Lupi: How we can find ourselves in data

Anders Ynnerman: Visualizing the medical data explosion

Related talks

David McCandless: The beauty of data visualization

Talithia Williams: Own your body's data

Tim Berners-Lee: The next web

Shyam Sankar: The rise of human-computer cooperation

Giorgia Lupi: How we can find ourselves in data

Anders Ynnerman: Visualizing the medical data explosion