America's favorite pie is?
העוגה החביבה על האמריקאים היא...?
Audience: Apple. Kenneth Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone's second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn't see when you only had smaller amounts of it.
קהל: תפוחים. קנת קוקיאר: תפוחים, כמובן. איך אנו יודעים? בגלל הנתונים. רואים את המכירות בסופרמרקטים. בודקים את המכירות של כל עוגות 30 הס"מ הקפואות, ועוגות התפוחים מנצחות בגדול. רוב המכירות הן של עוגות תפוחים. אבל אז הסופרמרקטים החלו למכור עוגות יותר קטנות, בקוטר 11 ס"מ, ופתאום עוגות התפוחים ירדו למקום הרביעי או החמישי. מדוע? מה קרה? חישבו על זה. כאשר אנו קונים עוגת 30 ס"מ, כל המשפחה צריכה להסכים, ועוגת תפוחים היא בעדיפות שניה אצל כל אחד. (צחוק) אבל כשקונים עוגת 11 ס"מ אישית, אפשר לקנות את זו שכל אחד אוהב אישית. כל אחד מקבל את מה שבעדיפות ראשונה אצלו. יש יותר נתונים. ניתן לראות דברים שלא ניתן היה לראות כאשר היו פחות נתונים.
Now, the point here is that more data doesn't just let us see more, more of the same thing we were looking at. More data allows us to see new. It allows us to see better. It allows us to see different. In this case, it allows us to see what America's favorite pie is: not apple.
העניין הוא שיותר נתונים אינם מאפשרים רק לראות יותר -- יותר מאותם הדברים שראינו קודם. יותר נתונים מאפשרים לראות דברים חדשים. הם מאפשרים לנו לראות יותר טוב. הם מאפשרים להסתכל אחרת. במקרה זה, הם מאפשרים לראות מהי העוגה האהובה באמריקה: לא עוגת תפוחים.
Now, you probably all have heard the term big data. In fact, you're probably sick of hearing the term big data. It is true that there is a lot of hype around the term, and that is very unfortunate, because big data is an extremely important tool by which society is going to advance. In the past, we used to look at small data and think about what it would mean to try to understand the world, and now we have a lot more of it, more than we ever could before. What we find is that when we have a large body of data, we can fundamentally do things that we couldn't do when we only had smaller amounts. Big data is important, and big data is new, and when you think about it, the only way this planet is going to deal with its global challenges — to feed people, supply them with medical care, supply them with energy, electricity, and to make sure they're not burnt to a crisp because of global warming — is because of the effective use of data.
כולכם בוודאי שמעתם את המושג 'ביג דאטה'. בטח נמאס לכם לשמוע את המושג 'ביג דאטה'. אכן, יש הרבה הפרזה סביב המושג, וזה חבל מאוד, כי ביג דאטה הוא כלי חשוב ביותר שבאמצעותו החברה עתידה להתקדם. בעבר, נהגנו להסתכל על נתונים מצומצמים ולחשוב מה משמעותם בניסיון להבין את העולם, וכעת יש לנו הרבה יותר כאלה, יותר ממה שיכלו להיות אי-פעם בעבר. מה שאנו מגלים הוא שכאשר יש לנו מסד נתונים גדול, ניתן לעשות דברים שלא יכולנו לעשות כאשר היו לנו פחות נתונים. ביג דאטה הוא חשוב והוא חדש, וכאשר חושבים על כך, הדרך היחידה בה עולמנו יוכל להתמודד עם האתגרים הגלובליים -- לספק לכולם אוכל, טיפול רפואי, אנרגיה, חשמל, וגם לוודא שלא ייצלו בגלל ההתחממות הגלובלית -- תהיה באמצעות שימוש יעיל בנתונים.
So what is new about big data? What is the big deal? Well, to answer that question, let's think about what information looked like, physically looked like in the past. In 1908, on the island of Crete, archaeologists discovered a clay disc. They dated it from 2000 B.C., so it's 4,000 years old. Now, there's inscriptions on this disc, but we actually don't know what it means. It's a complete mystery, but the point is that this is what information used to look like 4,000 years ago. This is how society stored and transmitted information.
אז מה כל-כך שונה בביג דאטה? על מה כל הרעש? כדי לענות על השאלה, הבה נחשוב כיצד המידע נראה פעם, כיצד הוא נראה בפועל בעבר. ב-1908, באי כרתים, ארכיאולוגים גילו דיסקה מחימר. הם תיארכו אותה ל-2000 לפנה"ס, כלומר, לפני 4,000 שנה. יש כיתוב על הדיסקה שאין אנו יודעים את פירושו. זוהי תעלומה. אבל מה שחשוב כאן הוא שכך נראה מידע לפני 4,000 שנה. זו הדרך בה החברה איחסנה והעבירה מידע.
Now, society hasn't advanced all that much. We still store information on discs, but now we can store a lot more information, more than ever before. Searching it is easier. Copying it easier. Sharing it is easier. Processing it is easier. And what we can do is we can reuse this information for uses that we never even imagined when we first collected the data. In this respect, the data has gone from a stock to a flow, from something that is stationary and static to something that is fluid and dynamic. There is, if you will, a liquidity to information. The disc that was discovered off of Crete that's 4,000 years old, is heavy, it doesn't store a lot of information, and that information is unchangeable. By contrast, all of the files that Edward Snowden took from the National Security Agency in the United States fits on a memory stick the size of a fingernail, and it can be shared at the speed of light. More data. More.
החברה לא התקדמה מאז כל-כך. אנו עדיין מאחסנים מידע על דיסקות, אבל היום אנו יכולים לאחסן הרבה יותר מידע, הרבה יותר מאי-פעם. יותר קל לחפש אותו. יותר קל להעתיקו. יותר קל לשתפו. יותר קל לעבדו. ניתן גם להשתמש בו למטרות שאף פעם לא חשבנו עליהן כאשר אספנו את המידע. בהקשר זה, המידע הפך ממצבור לזרם, ממשהו שהוא נייח וסטטי למשהו שהוא זורם ודינמי. מתקיימת, אם תרצו, נוזליות של מידע. הדיסקה מלפני 4,000 שנה שנתגלתה בכרתים היא כבדה. היא אינה מחזיקה הרבה מידע, והמידע הזה אינו ניתן לשינוי. לעומתו, כל הקבצים שאדוארד סנודן לקח מהסוכנות לביטחון לאומי של ארה"ב נכנסים בזכרון נייד בגודל של ציפורן, וניתן לשתפם במהירות האור. יותר נתונים. יותר.
Now, one reason why we have so much data in the world today is we are collecting things that we've always collected information on, but another reason why is we're taking things that have always been informational but have never been rendered into a data format and we are putting it into data. Think, for example, the question of location. Take, for example, Martin Luther. If we wanted to know in the 1500s where Martin Luther was, we would have to follow him at all times, maybe with a feathery quill and an inkwell, and record it, but now think about what it looks like today. You know that somewhere, probably in a telecommunications carrier's database, there is a spreadsheet or at least a database entry that records your information of where you've been at all times. If you have a cell phone, and that cell phone has GPS, but even if it doesn't have GPS, it can record your information. In this respect, location has been datafied.
אחת הסיבות שיש לנו כל-כך הרבה מידע היום היא שאנו אוספים דברים שתמיד אספנו עליהם מידע, אבל סיבה נוספת היא שאנו אוספים דברים שתמיד היו קשורים במידע אבל אף פעם לא היו בתבנית של נתונים וכעת אנו הופכים אותם לנתונים. חישבו למשל על שאלת המיקום. לדוגמא, מרטין לותר. אם היינו רוצים לדעת ב-1500 איפה נמצא מרטין לותר, היינו צריכים לעקוב אחריו כל הזמן, אולי עם קולמוס-נוצה וקסת-דיו, ולרשום את המיקומים. אבל חישבו כיצד זה היה נראה היום. אנו יודעים שהיכן שהוא, ככל הנראה בבסיס נתונים של חברת תקשורת, ישנו גיליון אלקטרוני או לפחות רשומה הרושמת את המידע על כל אחד ואיפה הוא היה בכל עת. אם יש לך טלפון נייד, ובו יש איכון לווייני, אבל גם אם אין, הוא יכול לתעד את המידע עליך. מבחינה זו, המיקום הפך לנתון.
Now think, for example, of the issue of posture, the way that you are all sitting right now, the way that you sit, the way that you sit, the way that you sit. It's all different, and it's a function of your leg length and your back and the contours of your back, and if I were to put sensors, maybe 100 sensors into all of your chairs right now, I could create an index that's fairly unique to you, sort of like a fingerprint, but it's not your finger.
חישבו למשל על תנוחה, האופן בו אתם ישובים כרגע, האופן בו אתה יושב, האופן בו אתה יושב, האופן בו את יושבת. אצל כל אחד זה שונה וזו פונקציה של אורך הרגל, הגב והקימור שלו, ואם הייתי שם חיישנים, אולי 100 חיישנים בכל הכיסאות שלכם, הייתי יכול ליצור תבנית די ייחודית לכל אחד, מין טביעת אצבע, אבל לא מאצבע.
So what could we do with this? Researchers in Tokyo are using it as a potential anti-theft device in cars. The idea is that the carjacker sits behind the wheel, tries to stream off, but the car recognizes that a non-approved driver is behind the wheel, and maybe the engine just stops, unless you type in a password into the dashboard to say, "Hey, I have authorization to drive." Great.
אז מה היינו עושים עם זה? חוקרים בטוקיו משתמשים בזה בתור אמצעי אפשרי נגד גניבת מכוניות. הרעיון הוא שכאשר הפורץ יישב מאחורי ההגה וינסה להתניע, המכונית תזהה שנהג לא מורשה יושב מאחורי ההגה, ואולי המנוע ייכבה, אלא אם תוקלד סיסמה בלוח המחוונים כדי לומר, "יש לי הרשאה לנהוג." מצוין.
What if every single car in Europe had this technology in it? What could we do then? Maybe, if we aggregated the data, maybe we could identify telltale signs that best predict that a car accident is going to take place in the next five seconds. And then what we will have datafied is driver fatigue, and the service would be when the car senses that the person slumps into that position, automatically knows, hey, set an internal alarm that would vibrate the steering wheel, honk inside to say, "Hey, wake up, pay more attention to the road." These are the sorts of things we can do when we datafy more aspects of our lives.
מה אם בכל מכונית באירופה תהיה טכנולוגיה זו? מה היינו יכולים לעשות אז? אם היינו צוברים את הנתונים, אולי היינו יכולים לזהות סימנים מקדימים לתאונת דרכים העומדת להתרחש תוך 5 השניות הקרובות. ומה שנאגור אז כנתונים זו עייפות הנהג, והמענה יהיה כאשר המכונית תחוש שהאדם צונח לאותו מצב, היא תדע זאת אוטומטית, תפעיל אתראה פנימית שתרעיד את ההגה, תצפור, כדי לומר, "אדוני, תתעורר, שים לב לכביש." דברים כאלה נוכל לבצע כאשר נהפוך לנתונים יותר ויותר היבטים מחיינו.
So what is the value of big data? Well, think about it. You have more information. You can do things that you couldn't do before. One of the most impressive areas where this concept is taking place is in the area of machine learning. Machine learning is a branch of artificial intelligence, which itself is a branch of computer science. The general idea is that instead of instructing a computer what do do, we are going to simply throw data at the problem and tell the computer to figure it out for itself. And it will help you understand it by seeing its origins. In the 1950s, a computer scientist at IBM named Arthur Samuel liked to play checkers, so he wrote a computer program so he could play against the computer. He played. He won. He played. He won. He played. He won, because the computer only knew what a legal move was. Arthur Samuel knew something else. Arthur Samuel knew strategy. So he wrote a small sub-program alongside it operating in the background, and all it did was score the probability that a given board configuration would likely lead to a winning board versus a losing board after every move. He plays the computer. He wins. He plays the computer. He wins. He plays the computer. He wins. And then Arthur Samuel leaves the computer to play itself. It plays itself. It collects more data. It collects more data. It increases the accuracy of its prediction. And then Arthur Samuel goes back to the computer and he plays it, and he loses, and he plays it, and he loses, and he plays it, and he loses, and Arthur Samuel has created a machine that surpasses his ability in a task that he taught it.
מה הערך של ביג דאטה? חישבו על זה. יש לנו יותר מידע. ניתן לעשות דברים שלא ניתן היה קודם. אחד התחומים הכי מרשימים שבו זה קורה הוא התחום של מכונות לומדות. מכונות לומדות הוא ענף של אינטליגנציה מלאכותית, שהיא בעצמה ענף של מדעי המחשב. הרעיון באופן כללי הוא שבמקום להורות למחשב מה לעשות, פשוט נזרוק נתונים בנוגע לבעיה ונאמר למחשב שימצא פיתרון לבד. כדי להבין את הרעיון נסתכל על המקור שלו. בשנות ה-50, איש מדעי המחשב באיי-בי-אם, בשם ארתור סמואל, אהב לשחק דמקה, אז הוא כתב תוכנת מחשב כדי שיוכל לשחק נגד המחשב. הוא שיחק וניצח. הוא שיחק וניצח. הוא שיחק וניצח, כי המחשב ידע רק מהלכים חוקיים. ארתור סמואל ידע משהו אחר. ארתור סמואל ידע אסטרטגיה. לכן הוא כתב תוכנת-משנה שפעלה ברקע, וכל מה שהיא עשתה היה לאמוד את הסבירות שסידור נתון על הלוח יוביל לעמדת ניצחון לעומת עמדת הפסד לאחר כל מהלך. הוא שיחק נגד המחשב וניצח. הוא שיחק נגד המחשב וניצח הוא שיחק נגד המחשב וניצח. ואז ארתור סמואל עזב את המחשב כדי שישחק עם עצמו. הוא שיחק עם עצמו ואסף יותר מידע. הוא אסף יותר מידע וזה הגדיל את הדיוק של החיזוי שלו. ואז ארתור סמואל חזר למחשב, שיחק נגדו והפסיד, ושיחק נגדו והפסיד, ושיחק נגדו והפסיד, וכך ארתור סמואל יצר מכונה שהתעלתה על יכולתו, במשימה שהוא עצמו לימד אותה.
And this idea of machine learning is going everywhere. How do you think we have self-driving cars? Are we any better off as a society enshrining all the rules of the road into software? No. Memory is cheaper. No. Algorithms are faster. No. Processors are better. No. All of those things matter, but that's not why. It's because we changed the nature of the problem. We changed the nature of the problem from one in which we tried to overtly and explicitly explain to the computer how to drive to one in which we say, "Here's a lot of data around the vehicle. You figure it out. You figure it out that that is a traffic light, that that traffic light is red and not green, that that means that you need to stop and not go forward."
והרעיון הזה של למידת מכונה מגיע לכל מקום. איך לדעתכם יש לנו מכוניות ללא נהג? האם נהיה במצב יותר טוב כחברה אם נכניס את כל חוקי התנועה לתוך תוכנה? לא. האם הזיכרון זול יותר? לא. האלגוריתמים מהירים יותר? לא. המעבדים טובים יותר? לא. כל הדברים הללו חשובים, אבל הם לא הסיבה. הסיבה היא ששינינו את אופי הבעיה. שינינו את אופי הבעיה ממצב שבו ניסינו באופן מוגזם ובגלוי להסביר למחשב כיצד לנהוג למצב בו אנו אומרים, "הנה, קח לך המון נתונים על הרכב. ואתה תמצא את הפיתרון. אתה תמצא שזה רמזור, שהרמזור אדום ולא ירוק, פירושו שצריך לעצור ולא להתקדם."
Machine learning is at the basis of many of the things that we do online: search engines, Amazon's personalization algorithm, computer translation, voice recognition systems. Researchers recently have looked at the question of biopsies, cancerous biopsies, and they've asked the computer to identify by looking at the data and survival rates to determine whether cells are actually cancerous or not, and sure enough, when you throw the data at it, through a machine-learning algorithm, the machine was able to identify the 12 telltale signs that best predict that this biopsy of the breast cancer cells are indeed cancerous. The problem: The medical literature only knew nine of them. Three of the traits were ones that people didn't need to look for, but that the machine spotted.
למידת מכונות נמצאת ביסוד הרבה דברים שאנו מבצעים ברשת: מנועי חיפוש, אלגוריתמים של אמזון להתאמה אישית, תרגום ממוחשב, מערכות לזיהוי קול. לאחרונה, חוקרים התעמקו בסוגיית הביופסיה, של דגימת רקמות סרטניות, והם ביקשו ממחשב לקבוע, באמצעות בחינת הנתונים ושיעורי התמותה, אם התאים הם באמת סרטניים, וכשהנתונים הוזנו למחשב, באמצעות אלגוריתם למידת מכונה, המכונה היתה מסוגלת לזהות את 12 הסימנים המחשידים שמנבאים הכי טוב שריקמה זו מתאי סרטן-שד היא אכן ממאירה. הבעיה: הספרות הרפואית הכירה רק 9 מהם. שלושה מהסימנים היו כאלה שלא היה צורך שאנשים יחפשו, אבל המכונה איתרה אותם.
Now, there are dark sides to big data as well. It will improve our lives, but there are problems that we need to be conscious of, and the first one is the idea that we may be punished for predictions, that the police may use big data for their purposes, a little bit like "Minority Report." Now, it's a term called predictive policing, or algorithmic criminology, and the idea is that if we take a lot of data, for example where past crimes have been, we know where to send the patrols. That makes sense, but the problem, of course, is that it's not simply going to stop on location data, it's going to go down to the level of the individual. Why don't we use data about the person's high school transcript? Maybe we should use the fact that they're unemployed or not, their credit score, their web-surfing behavior, whether they're up late at night. Their Fitbit, when it's able to identify biochemistries, will show that they have aggressive thoughts. We may have algorithms that are likely to predict what we are about to do, and we may be held accountable before we've actually acted. Privacy was the central challenge in a small data era. In the big data age, the challenge will be safeguarding free will, moral choice, human volition, human agency.
אבל, ישנם גם צדדים אפלים לביג דאטה. ביג דאטה ישפר את חיינו, אבל יש גם בעיות שצריך להיות מודעים אליהן. הראשונה היא האפשרות שאנו עשויים לסבול מביצוע ניבויים, כי המשטרה עלולה להשתמש בביג דאטה למטרותיה, משהו כמו בסרט "דו"ח מיוחד". זה נקרא "שיטור מנבא", או "חקר פשיעה אלגוריתמי". הרעיון הוא שאם לוקחים המון נתונים, לדוגמא, היכן התרחשו פשעים בעבר, נדע לאן לשגר את סיורי המשטרה. זה נראה הגיוני, אבל הבעיה היא שזה לא ייעצר רק בנתוני המיקום, אלא זה יירד לרמת הפרט. למה שלא נשתמש בנתונים מתעודת התיכון של האדם? אולי עלינו להשתמש בנתונים כמו, אם האדם עובד או מובטל, רמת האשראי שלו, הרגלי גלישתו באינטרנט, אם הוא ער עד מאוחר בלילה. מכשיר הניטור הגופני, אם הוא מסוגל לזהות תגובות כימיות, יראה שיש לו מחשבות תוקפניות. עשויים להיות אלגוריתמים שיכולים לנבא מה אנו עומדים לעשות, ואנו עלולים להיחשב לאחראים לדברים שטרם ביצענו בפועל. פרטיות היוותה אתגר מרכזי בעידן של נתונים מועטים. בעידן ביג דאטה, האתגר יהיה לשמור מכל משמר על הרצון החופשי, על הבחירה המוסרית, על רצון האדם, על העצמאות האנושית.
There is another problem: Big data is going to steal our jobs. Big data and algorithms are going to challenge white collar, professional knowledge work in the 21st century in the same way that factory automation and the assembly line challenged blue collar labor in the 20th century. Think about a lab technician who is looking through a microscope at a cancer biopsy and determining whether it's cancerous or not. The person went to university. The person buys property. He or she votes. He or she is a stakeholder in society. And that person's job, as well as an entire fleet of professionals like that person, is going to find that their jobs are radically changed or actually completely eliminated. Now, we like to think that technology creates jobs over a period of time after a short, temporary period of dislocation, and that is true for the frame of reference with which we all live, the Industrial Revolution, because that's precisely what happened. But we forget something in that analysis: There are some categories of jobs that simply get eliminated and never come back. The Industrial Revolution wasn't very good if you were a horse. So we're going to need to be careful and take big data and adjust it for our needs, our very human needs. We have to be the master of this technology, not its servant. We are just at the outset of the big data era, and honestly, we are not very good at handling all the data that we can now collect. It's not just a problem for the National Security Agency. Businesses collect lots of data, and they misuse it too, and we need to get better at this, and this will take time. It's a little bit like the challenge that was faced by primitive man and fire. This is a tool, but this is a tool that, unless we're careful, will burn us.
ישנה בעיה נוספת: ביג דאטה יגזול מאיתנו את עבודותינו. ביג דאטה והאלגוריתמים עומדים לקרוא תיגר על עבודות הצווארון הלבן המקצועיות של המאה ה-21 באותו אופן שהמיכון התעשייתי וקו הייצור קראו תיגר על עבודות הצווארון הכחול במאה ה-20. תחשבו על טכנאי מעבדה שמסתכל דרך מיקרוסקופ על ריקמה סרטנית ומחליט אם היא ממאירה או לא. האדם למד באוניברסיטה. הוא קנה רכוש. הוא או היא מצביעים בבחירות. הוא או היא בעלי עניין בחברה. והעבודה של אותו אדם, כמו גם צי שלם של אנשי מקצוע כמו אותו אדם, ימצאו שהעבודות שלהם השתנו באופן ניכר או למעשה התחסלו כליל. אנו אוהבים לחשוב שהטכנולוגיה יוצרת עם הזמן עבודות, לאחר תקופת-מעבר קצרה וזמנית, וזה נכון ביחס למציאות שאנו חיים בה, שהיא המהפכה התעשייתית, כי זה בדיוק מה שקרה. אבל אנו שוכחים משהו בניתוח זה: ישנם כמה תחומי עבודה שפשוט נמחקים ולעולם לא שבים. המהפכה התעשייתית לא היתה טובה במיוחד עבור סוסים. לכן יהיה עלינו להיזהר ולהתאים את ביג דאטה לצרכינו, צרכינו האנושיים ביותר. יהיה עלינו להיות אדוניה של טכנולוגיה זו, לא משרתיה. אנו נמצאים רק בתחילתו של עידן ביג דאטה, והאמת היא שאנו לא מצטיינים בטיפול בכל הנתונים שאנו מסוגלים לאסוף כיום. זו לא רק בעיה הנוגעת לסוכנות לביטחון לאומי. חברות אוספות המון נתונים והן גם משתמשות בו לרעה, ועלינו להשתפר בתחום זה, וזה יקח זמן. זה קצת כמו האתגר שניצב בפני האדם הקדמון עם האש. זהו כלי, אבל כלי שאם לא נהיה זהירים איתו, הוא ישרוף אותנו.
Big data is going to transform how we live, how we work and how we think. It is going to help us manage our careers and lead lives of satisfaction and hope and happiness and health, but in the past, we've often looked at information technology and our eyes have only seen the T, the technology, the hardware, because that's what was physical. We now need to recast our gaze at the I, the information, which is less apparent, but in some ways a lot more important. Humanity can finally learn from the information that it can collect, as part of our timeless quest to understand the world and our place in it, and that's why big data is a big deal.
ביג דאטה עומד לשנות את דרך חיינו, את דרך עבודתנו וחשיבתנו. הוא יסייע לנו לנהל את הקריירות שלנו ולנהל חיים של סיפוק, תקווה אושר ובריאות. אבל בעבר, הסתכלנו על "טכנולוגיית מידע" וראינו רק את ה-"ט", את הטכנולוגיה, החומרה, כי הם היו הדברים הפיזיקליים. כעת אנו צריכים להסתכל על ה-"מ", המידע, הבולט פחות לעין, אבל במובנים מסויימים הוא הרבה יותר חשוב. האנושות יכולה סוף-סוף ללמוד מהמידע שהיא מסוגלת לאסוף, כחלק ממסעינו הנצחי להבנת העולם ומקומנו בתוכו, וזו הסיבה מדוע ביג דאטה הוא עניין כה חשוב.
(Applause)
(מחיאות כפיים)