How many of you had to fill out a web form where you've been asked to read a distorted sequence of characters like this? How many of you found it really annoying?
כמה מכם כבר נאלצו למלא טופס אינטרנטי בו התבקשתם לקרוא סדרת אותיות מעוותות כזאת? כמה מכם חשבו שזה ממש ממש מעצבן? טוב. נהדר. אז אני המצאתי את זה.
(Laughter)
OK, outstanding. So I invented that.
(צחוק)
(Laughter)
או, שהייתי אחד מהממציאים.
Or I was one of the people who did it. That thing is called a CAPTCHA. And it is there to make sure you, the entity filling out the form, are a human and not a computer program that was written to submit the form millions of times. The reason it works is because humans, at least non-visually-impaired humans, have no trouble reading these distorted characters, whereas programs can't do it as well yet. In the case of Ticketmaster, the reason you have to type these characters is to prevent scalpers from writing a program that can buy millions of tickets, two at a time.
לדבר הזה קוראים CAPTCHA (קאפצ'ה) והוא נמצא שם על מנת לוודא שאתם, היישות שממלאת את הטופס, הינה למעשה אדם ולא איזו תוכנת מחשב שנכתבה ע"מ לשלוח את הטופס מליוני ומליוני פעמים. הסיבה שבגללה זה עובד היא שלאנשים, לפחות לאנשים ללא בעיות ראייה, אין בעיה לקרוא את האותיות המעוותות האלה, אבל תוכנות מחשב פשוט אינן עושות זאת מספיק טוב עדיין אז למשל, במקרה של טיקטמאסטר, הסיבה שבגללה עליכם להקליד את האותיות המעוותות האלה היא למנוע מספסרים לכתוב תוכנה שיכולה לקנות מליוני כרטיסים, שניים בכל פעם.
CAPTCHAs are used all over the Internet. And since they're used so often, a lot of times the sequence of random characters shown to the user is not so fortunate. So this is an example from the Yahoo registration page. The random characters that happened to be shown to the user were W, A, I, T, which, of course, spell a word. But the best part is the message that the Yahoo help desk got about 20 minutes later.
קאפצ'ות נמצאות בשימוש בכל רחבי האינטרנט. וכיוון שהן בשימוש כה תכוף, הרבה פעמים צירוף האותיות האקראי המוצג למשתמש אינו כל כך מזהיר זו דוגמה מעמוד ההרשמה של יאהוו. האותיות האקראיות שהוצגו למשתמש היו W, A, I, T אשר, כמובן, מאייתות מילה. ("המתן") אבל החלק הכי טוב הוא ההודעה שקיבלה מערכת התמיכה של יאהוו כעבור 20 דקות.
[Help! I've been waiting for over 20 minutes and nothing happens.]
"הצילו! אני מחכה כבר 20 דקות, וכלום לא קורה."
(Laughter)
(צחוק)
This person thought they needed to wait. This, of course, is not as bad as this poor person.
המשתמש הזה חשב שעליו לחכות. וזה לא כל כך נורא כמו המשתמש האומלל הזה.
(Laughter)
(צחוק)
CAPTCHA Project is something that we did at Carnegie Melllon over 10 years ago, and it's been used everywhere. Let me now tell you about a project that we did a few years later, which is sort of the next evolution of CAPTCHA. This is a project that we call reCAPTCHA, which is something that we started here at Carnegie Mellon, then we turned it into a start-up company. And then about a year and a half ago, Google actually acquired this company.
פרוייקט קפאצ'ה הוא משהו שהתחלנו כאן באוניברסיטת קרנגי-מלון לפני יותר מ10 שנים, והוא בשימוש בכל מקום. תנו לי לספר לכם על פרוייקט שערכנו כמה שנים אח"כ שהוא מעיין השלב האבולוציוני הבא של קאפצ'ה. זה פרוייקט שאנחנו מכנים reCAPTCHA (רי-קאפצ'ה), והוא משהו שהתחלנו כאן, בקרנגי-מלון, ואז הפכנו אותו לחברת סטארט-אפ. ואז, לפני כשנה וחצי, גוגל רכשה את החברה.
Let me tell you what this project started. This project started from the following realization: It turns out that approximately 200 million CAPTCHAs are typed everyday by people around the world. When I first heard this, I was quite proud of myself. I thought, look at the impact my research has had. But then I started feeling bad. Here's the thing: each time you type a CAPTCHA, essentially, you waste 10 seconds of your time. And if you multiply that by 200 million, you get that humanity is wasting about 500,000 hours every day typing these annoying CAPTCHAs.
אז תנו לי לספר לכם ממה הפרוייקט הזה התחיל. אז הפרוייקט הזה התחיל מההבנה הבאה: מסתבר שכ200 מליון קפאצ'ות מוזנות בכל יום ע"י אנשים מסביב לעולם. ככשמעתי זאת לראשונה הייתי דיי גאה בעצמי. חשבתי, ראו איזו השפעה היתה למחקר שלי. אבל אז התחלתי להרגיש לא נעים. וזה העניין, בכל פעם שאתם ממלאים קאפצ'ה, אתם למעשה מבזבזים 10 שניות מזמנכם. ואם מכפילים את זה ב200 מליון, מקבלים שהאנושות כולה מבזבזת כ 500,000 שעות כל יום בהזינה את הקאפצ'ות המעצבנות האלה.
(Laughter)
ואז התחלתי להרגיש לא נעים.
So then I started feeling bad.
(צחוק)
(Laughter)
ואז חשבתי, כמובן אי אפשר פשוט להיפטר מהקאפצ'ות האלה,
And then I started thinking, of course, we can't just get rid of CAPTCHAs, because the security of the web depends on them. But then I started thinking, can we use this effort for something that is good for humanity? So see, here's the thing. While you're typing a CAPTCHA, during those 10 seconds, your brain is doing something amazing. Your brain is doing something that computers cannot yet do. So can we get you to do useful work for those 10 seconds? Is there some humongous problem that we cannot yet get computers to solve, yet we can split into tiny 10-second chunks such that each time somebody solves a CAPTCHA, they solve a little bit of this problem? And the answer to that is "yes," and this is what we're doing now.
כי בטיחות הרשת דיי תלויה בהם אבל אז התחלתי לחשוב, האם יש דרך בה אפשר לרתום את המאמץ הזה למטרה שתהיה טובה לאנושות? אז ראו, זה העניין, בזמן שאתם מקלידים קאפצ'ה, באותן 10 שניות, מוחכם עושה דבר מדהים מוחכם עושה דבר שמחשבים עדיין אינם מסוגלים ךעשות אז האם נוכל נוכל לגרום לכם לעשות משהו מועיל באותן 10 שניות? דרך אחרת לתאר זאת היא, האם יש בעיה ענקית שעדיין איננו יכולים לפתור באמצעות מחשבים, אבל אפשר לחלקה לחתיכות קטנות של 10 שניות כך שבכל פעם שמישהו פותר קאפצ'ה הוא פותר חתיכה קטנה מהבעיה? והתשובה לכך היא "כן", וזה מה שאנחנו עושים עכשיו.
Nowadays, while you're typing a CAPTCHA, not only are you authenticating yourself as a human, but in addition you're helping us to digitize books. Let me explain how this works. There's a lot of projects trying to digitize books. Google has one. The Internet Archive has one. Amazon, with the Kindle, is trying to digitize books. Basically, the way this works is you start with an old book. You've seen those things, right? Like a book?
ומה שאולי אינכם יודעים הוא שבזמן שאתם פותרים קאפצ'ה, אתם לא רק מאמתים את זהותכם כבן-אדם, אבל למעשה אתם עוזרים לנו להפוך ספרים לדיגיטליים. אז תנו לי להסביר איך זה עובד. אז יש הרבה פרוייקטים שמנסים להפוך ספרים לדיגיטליים. לגוגל יש אחד. לארכיון האינטרנט יש אחד. אמזון, עכשיו עם הקינדל, מנסה להפוך ספרים לדיגיטליים. איך שזה עובד בעיקרון זה שמתחילים עם ספר ישן. ראיתם דבר כזה, כן? כאילו ספר? (צחוק)
(Laughter)
אז מתחילים עם ספר, ואז סורקים אותו.
So you start with a book and then you scan it.
לסרוק ספר
Now, scanning a book is like taking a digital photograph of every page. It gives you an image for every page. This is an image with text for every page of the book. The next step in the process is that the computer needs to be able to decipher the words in this image. That's using a technology called OCR, for optical character recognition, which takes a picture of text and tries to figure out what text is in there. Now, the problem is that OCR is not perfect. Especially for older books where the ink has faded and the pages have turned yellow, OCR cannot recognize a lot of the words. For things that were written more than 50 years ago, the computer cannot recognize about 30 percent of the words. So now we're taking all of the words that the computer cannot recognize and we're getting people to read them for us while they're typing a CAPTCHA on the Internet.
זה כמו לצלם צילום דיגיטלי של כל עמוד בספר. מפיקים כך תמונה של כל עמוד בספר. זאת תמונה עם טקסט עבור כל עמוד בספר. השלב הבא בתהליך הוא שהמחשב צריך להצליח לפענח את כל המילים בתמונה. זאת ע"י שימוש בטכנולוגיה הנקראת OCR (או-סי-אר) כמלומר זיהוי אותיות אופטי, אשר מעבדת תמונה של טקסט ומנסה להבין איזה טקסט נמצא בה. עכשיו, הבעיה היא שOCR אינו מושלם. בייחוד עבור ספרים ישנים שבהם הדיו דהה והדפים הצהיבו, OCR לא מצליח לזהות רבות מהמילים. למשל, בדברים שנכתבו לפני יותר מ50 שנה, המחשב אינו מצליח לזהות כ30 אחוז מהמילים. אז מה שאנחנו עושים עכשיו זה שאנחנו לוקחים את כל המילים שהמחשב לא מצליח לזהות ואנחנו נעזרים באנשים שיקראו לנו אותן בזמן שהם מקלידים קאפצ'ה באינטרנט.
So the next time you type a CAPTCHA, these words that you're typing are actually words from books that are being digitized that the computer could not recognize. The reason we have two words nowadays instead of one is because one of the words is a word that the system just got out of a book, it didn't know what it was and it's going to present it to you. But since it doesn't know the answer, it cannot grade it. So we give you another word, for which the system does know the answer. We don't tell you which one's which and we say, please type both. And if you type the correct word for the one for which the system knows the answer, it assumes you are human and it also gets some confidence that you typed the other word correctly. And if we repeat this process to 10 different people and they agree on what the new word is, then we get one more word digitized accurately.
אז בפעם הבאה שאתם מקלידים קאפצ'ה, המילים האלה שאתם מקלידים הן למעשה מילים המגיעות מספרים שהופכים לדיגיטליים אשר המחשב לא הצליח לזהות. והסיבה שבגללה יש לנו שתי מילים במקום אחת בימים אלה היא שאחת מהמילים היא מילה שהמערכת קיבלה מספר, היא לא זיהתה אותה והיא הולכת להציג לכם אותה. אבל כיוון שאינה יודעת את התשובה היא אינה יכולה לציין את תשובתכם. אז אנחנו מציגים לכם מילה נוספת, מילה שעבורה המערכת יודעת את התשובה. אנחנו לא מגלים לכם איזו היא איזו, ומבקשים אנא הקלידו את שתיהן. ואם אתם מקלידים את המילה הנכונה עבור המילה שהמערכת יודעת את התשובה שלה, היא מניחה שאתם בני אדם, וגם שואבת ביטחון מסויים שהקלדתם נכון את המילה השנייה. ואם נחזור על התהליך לכ10 אנשים שונים וכולם יסכימו מה המילה, אז הצלחנו להפוך מילה נוספת לדיגיטלית.
So this is how the system works. And since we released it about three or four years ago, a lot of websites have started switching from the old CAPTCHA, where people wasted their time, to the new CAPTCHA where people are helping to digitize books. So every time you buy tickets on Ticketmaster, you help to digitize a book. Facebook: Every time you add a friend or poke somebody, you help to digitize a book. Twitter and about 350,000 other sites are all using reCAPTCHA. And the number of sites that are using reCAPTCHA is so high that the number of words we're digitizing per day is really large. It's about 100 million a day, which is the equivalent of about two and a half million books a year. And this is all being done one word at a time by just people typing CAPTCHAs on the Internet.
וכך המערכת עובדת. ובעיקרון, מאז ששיחררנו אותה לפני כשלוש או ארבע שנים, הרבה אתרים עברו משימוש בקפאצ'ה הישנה בה אנשים בזבזו את זמנם לקאפצ'ה החדשה, בה אנשים עוזרים להפוך ספרים לדיגיטליים. אז לדוגמא, טיקטמאסטר (Tickermaster). בכל פעם שאתם קונים כרטיסים בטיקט מאסטר אתם עוזרים להפוך ספרים לדיגיטליים. פייסבוק: בכל פעם שאתם מוסיפים חבר או עושים פוק למישהו, אתם עוזרים להפוך ספרים לדיגיטליים. טוויטר וכ350,000 אתרים אחרים משתמשים כולם ברי-קאפצ'ה. ולמעשה, מספר האתרים המשתמשים ברי-קאפצ'ה הוא כה גבוה שמספר המילים שאנחנו הופכים לדיגיטליות הוא ממש ממש גדול. הוא כ100 מליון ביום, שזה שווה ערך לכשניים וחצי מליון ספרים בשנה. וכל זה נעשה מילה אחת בכל פעם ע"י אנשים שפשוט מקלידים קאפצ'ה באינטרנט. (תשואות)
(Applause)
עכשיו כמובן,
Now, of course, since we're doing so many words per day, funny things can happen. This is especially true because now we're giving people two randomly chosen English words next to each other. So funny things can happen. For example, we presented this word. It's the word "Christians"; there's nothing wrong with it. But if you present it along with another randomly chosen word, bad things can happen. So we get this.
כיוון שאחנו עושים כ"כ הרבה מילים בכל יום, דברים מצחיקים יכולים לקרות. וזה עוד יותר נכון כי עכשיו אנחנו נותנים לאנשים שתי מילים אקראיות באנגלית אחת ליד השניה. אז דברים מצחיקים יכולים לקרות. למשל, הצגנו את המילה הזאת. זאת המילה "נוצרים" אין עם זה בעיה. אבל אם מציגים אותה יחד עם מילה אקראית אחרת, דברים רעים יכולים לקרות. אז אנחנו מקבלים את זה. (טקסט: נוצרים רעים)
[bad Christians]
אבל זה עוד יותר גרוע, כי האתר בו הראנו את זה
But it's even worse, because the website where we showed this actually happened to be called The Embassy of the Kingdom of God.
נקרא, במקרה, שגרירות ממלכת האלוהים. (צחוק)
(Laughter)
אופס.
Oops.
(צחוק)
(Laughter)
הנה עוד מקרה רע.
Here's another really bad one. JohnEdwards.com
ג'ון אדוארדס דוט קום (טקסט: ליברלי ארור)
[Damn liberal]
(Laughter)
(צחוק)
So we keep on insulting people left and right everyday. Of course, we're not just insulting people. Here's the thing. Since we're presenting two randomly chosen words, interesting things can happen. So this actually has given rise to a really big Internet meme that tens of thousands of people have participated in, which is called CAPTCHA art. I'm sure some of you have heard about it. Here's how it works. Imagine you're using the Internet and you see a CAPTCHA that you think is somewhat peculiar, like this CAPTCHA.
אז אנחנו ממשיכים בכל יום להעליב אנשים על ימין ועל שמאל. עכשיו, אנחנו כמובן לא רק מעליבים אנשים. וזה העניין, מאז שאנחנו מציגים שתי מילים אקראיות, דברים מעניינים יכולים לקרות. אז למעשה נוצר כאן "מם" (מנהג חברתי) אינטרנטי ממש גדול שעשרות אלפי אנשים השתתפו בו, שנקרא אומנות קאפצ'ה. אני בטוח שחלקכם שמעתם על זה. כך זה עובד. נאמר שאתה גולש באינטרנט וראה קאפצ'ה שנראית לך מוזרה, כמו זאת (טקסט: טוסטר בלתי-נראה)
[invisible toaster]
אז מה שאתה אמור לעשות זה להעתיק את צילום המסך של הטקסט
What you're supposed to do is you take a screenshot of it. Then of course, you fill out the CAPTCHA because you help us digitize a book. But first you take a screenshot and then you draw something that is related to it.
ואז כמובן למלא את הקאפצ'ה כי אתה עוזר להפוך ספרים לדיגיטליים. אבל אז, ראשית אתה מעתיק את צילום המסך, ואז אתה מצייר משהו שקשור לזה.
(Laughter)
(צחוק)
That's how it works.
ככה זה עובד.
(Laughter)
יש עשרות אלפים כאלה.
There are tens of thousands of these. Some of them are very cute.
חלקם מאוד חמודים (טקסט: תפסתי את זה)
[clenched it]
(צחוק)
(Laughter)
חלקים יותר מצחיקים.
Some of them are funnier.
(טקסט: מייסדים מסטולים)
[stoned Founders]
(Laughter)
(צחוק)
And some of them, like paleontological shvisle ...
וחלקם,
(Laughter)
כמו שוויזל פלאונטולוגי,
they contain Snoop Dogg.
מציגים את סנופ-דוג.
(Laughter)
(צחוק)
OK, so this is my favorite number of reCAPTCHA. So this is the favorite thing that I like about this whole project. This is the number of distinct people that have helped us digitize at least one word out of a book through reCAPTCHA: 750 million, a little over 10 percent of the world's population, has helped us digitize human knowledge. And it is numbers like these that motivate my research agenda. So the question that motivates my research is the following: If you look at humanity's large-scale achievements, these really big things that humanity has gotten together and done historically -- like, for example, building the pyramids of Egypt or the Panama Canal or putting a man on the Moon -- there is a curious fact about them, and it is that they were all done with about the same number of people. It's weird; they were all done with about 100,000 people. And the reason for that is because, before the Internet, coordinating more than 100,000 people, let alone paying them, was essentially impossible. But now with the Internet, I've just shown you a project where we've gotten 750 million people to help us digitize human knowledge. So the question that motivates my research is, if we can put a man on the Moon with 100,000, what can we do with 100 million?
אוקיי, זה המספר האהוב עליי ביותר ברי-קאפצ'ה. זה הדבר שאני הכי אוהב בכל הפרוייקט. זה מספר האנשים השונים אשר עזרו לנו להפוך לחות מילה אחת לדיגיטלית בעזרת רי-קאפצ'ה: 750 מליון, שזה קצת יותר מ 10 אחוז מאוכלוסיית העולם, שעזרו לנו להפוך ידע אנושי לדיגיטלי. ומספרים כאלה הם אשר מדרבנים אותי במחקר שלי. אז השאלה אשר מדרבנת את המחקר שלי היא: אם נבחן את ההישגים הגדולים של האנושות, הדברים הגדולים האלה שהאנושות התאחדה וביצעה יחדיו בעבר -- למשל, בניין הפירמידות במצריים או תעלת פנמה או להנחית איש על הירח -- ישנה עובדה מעניינת בקשר אליהם, והיא שהם כולם בוצעו בעזרת אותו מספר אנשים. זה מוזר, כולם בוצעו בעזרת כ 100,000 איש. והסיבה לכך היא שלפני האינטרנט, לתאם פעילות של יותר מ 100,000 איש, שלא לדבר על לשלם להם, היה למעשה בלתי אפשרי. אבל עכשיו, בעזרת האינטרנט, הראיתי לכם פרוייקט בו הצלחנו להעזר ב 750 מליון אנשים להפוך ידע אנושי לדיגיטלי. אז השאלה שמדרבנת אותי היא, אם יכולנו להנחית איש על הירח בעזרת 100,000 מה נוכל לעשות עם 100 מליון?
So based on this question, we've had a lot of different projects that we've been working on. Let me tell you about one that I'm most excited about. This is something that we've been semiquietly working on for the last year and a half or so. It hasn't yet been launched. It's called Duolingo. Since it hasn't been launched, shhh!
וכך, בהתבסס על שאלה זו, אנחנו עובדים על פרוייקטים רבים ומגוונים. הרשו לי לספר לכם על אחד מהם שאני מאוד מתלהב ממנו. זהו משהו שאנחנו עובדים עליו בחצי-חשאיות כבר כשנה וחצי. הוא עוד לא הושק. הוא נקרא דואולינגו (Duolingo). בגלל שעדיין לא הושק, ששש!
(Laughter)
(צחוק)
Yeah, I can trust you'll do that. So this is the project. Here's how it started. It started with me posing a question to my graduate student, Severin Hacker. OK, that's Severin Hacker. So I posed the question to my graduate student. By the way, you did hear me correctly; his last name is Hacker.
כן, אני יכול לסמוך עליכם. אז הנה הפרוייקט. כך הוא התחיל. זה התחיל כששאלתי סטודנט שלי שאלה, סוורין האקר. אוקיי, זה סוורין האקר. אז שאלתו את הסטודנט שלי שאלה. אגב, שמעתם אותי נכון, שם המשפחה שלו הוא האקר.
(Laughter)
אז שאלתי אותו:
So I posed this question to him: How can we get 100 million people translating the web into every major language for free? There's a lot of things to say about this question. First of all, translating the web. Right now, the web is partitioned into multiple languages. A large fraction of it is in English. If you don't know English, you can't access it. But there's large fractions in other different languages, and if you don't know them, you can't access it. So I would like to translate all of the web, or at least most of it, into every major language. That's what I would like to do.
איך אפשר לגרום ל 100 מליון איש לתרגם את האיניטרנט לכל השפות הראשיות בחינם? טוב, אפשר להגיד הרבה דברים על השאלה הזאת. ראשית, תרגום הרשת. אז נכון לעכשיו, הרשת מחולקת לשפות רבות. חלק ניכר ממנה הוא באנגלית. אם אתה לא יודע אנגלית לא תוכל לגשת אליו. אבל ישנם חלקים גדולים בשפות שונות, ואם אתה לא יודע אותן לא תוכל לגשת אליהם. אז הייתי רוצה לתרגם את כל הרשת. או לפחות את רובה, לכל שפה ראשית. אז זה מה שהייתי רוצה לעשות.
Now, some of you may say, why can't we use computers to translate? Machine translation is starting to translate some sentences here and there. Why can't we use it to translate the web? The problem with that is it's not yet good enough and it probably won't be for the next 15 to 20 years. It makes a lot of mistakes. Even when it doesn't, since it makes so many mistakes, you don't know whether to trust it or not.
אז חלקכם יגיד, למה לא להשתמש במחשבים לתרגום? למה אי אפשר להתמש בתרגום ממוחשב? תרגום ממוחשב בימנו, מתחיל לתרגם כמה משפטים פה ושם. למה לא להתמש בו לתרגום כל הרשת? ובכן, הבעיה איתו היא שהוא עדיין אינו טוב מספיק. וכנראה שלא יהיה מספיק טוב ב15 עד 20 שנים הבאות. הוא טועה המון. ואפילו כשאינו טועה, כיוון שהוא טועה כ"כ הרבה, אי אפשר לבטוח בו.
So let me show you an example of something that was translated with a machine. Actually, it was a forum post. It was somebody who was trying to ask a question about JavaScript. It was translated from Japanese into English. So I'll just let you read. This person starts apologizing for the fact that it's translated with a computer. So the next sentence is going to be the preamble to the question. So he's just explaining something. Remember, it's a question about JavaScript.
אז הרשו לי לתת לכם דוגמא למשהו שתורגם ע"י מכונה. למעשה זה היה פוסט בפורום. מישהו ניסה לשאול שאלה בג'אווה-סקריפט. זה תורגם מיפנית לאנגלית אז אתן לכם לקרוא. האדם הזה התחיל התחיל בהתנצלות על העובדה שזה תורגם באמצעות מחשב. אז המשפט הבא אמור להיות ההקדמה לשאלה. אז הוא רק מסביר משהו. זכרו, זאת שאלה על ג'אווה-סקריפט.
[At often, the goat-time install a error is vomit.]
(טקסט: לעיתים תכופות זמן-העז התקנה טעות היא קיא.)
(Laughter)
(צחוק)
Then comes the first part of the question.
אז מגיע החלק הראשון של השאלה.
[How many times like the wind, a pole, and the dragon?]
(טקסט: כמה פעמים כמו הרוח, מוט והדרקון?)
(Laughter)
(צחוק)
Then comes my favorite part of the question.
ואז מגיע החלק האהוב עליי בשאלה.
[This insult to father's stones?]
(טקסט: זה עלבון לאשכי האב?)
(Laughter)
(צחוק)
And then comes the ending, which is my favorite part of the whole thing.
ואז מגיע הסיום, שהוא החלק האהוב עליי בכל העניין. (טקסט: בבקשה התנצל על טפשותך. יש הרבה תודה רבה.)
[Please apologize for your stupidity. There are a many thank you.]
(צחוק)
(Laughter)
אוקיי, אז תרגום ממוחשב, עדיין לא מספיק טוב.
OK, so computer translation, not yet good enough. So back to the question. So we need people to translate the whole web. So now the next question you may have is, well, why can't we just pay people to do this? We could pay professional translators to translate the whole web. We could do that. Unfortunately, it would be extremely expensive. For example, translating a tiny fraction of the whole web, Wikipedia, into one other language, Spanish. OK? Wikipedia exists in Spanish, but it's very small compared to the size of English. It's about 20 percent of the size of English. If we wanted to translate the other 80 percent into Spanish, it would cost at least 50 million dollars -- and this is even at the most exploited, outsourcing country out there. So it would be very expensive. So what we want to do is, we want to get 100 million people translating the web into every major language for free.
בחזרה לשאלה. אז אנחנו רוצים שאנשים יתרגמו את כל הרשת. והשאלה הבאה שיכולה להיות לכם היא, למה אי אפשר פשוט לשלם לאנשים לעשות זאת? נוכל לשלם למתרגמים מקצועיים לתרגם את כל הרשת. נוכל לעשות זאת. למרבה הצער, זה יהיה מאוד יקר. למשל, לתרגם חלק קטנטן מכל הרשת, ויקיפדיה, לשפה אחרת אחת, ספרדית. ויקיפדיה קיימת בספרדית, אבל היא קטנה מאוד ביחס לזו האנגלית. היא כ 20 אחוז מגודל האנגלית. אם נרצה לתרגם את שאר 80 האחוז לספרדית, זה יעלה לפחות 50 מליון דולר -- וזה בעזרת המדינה הכי מנוצלת, ובשימוש מיקור חוץ שקיימת. אז זה יהיה מאוד יקר. אז מה שאנחינו רוצים לעשות הוא לגרום ל 100 מליון אנשים לתרגם את הרשת לכל השפות הראשיות בחינם.
If this is what you want to do, you quickly realize you're going to run into two big hurdles, two big obstacles. The first one is a lack of bilinguals. So I don't even know if there exists 100 million people out there using the web who are bilingual enough to help us translate. That's a big problem. The other problem you're going to run into is a lack of motivation. How are we going to motivate people to actually translate the web for free? Normally, you have to pay people to do this. So how are we going to motivate them to do it for free? When we were starting to think about this, we were blocked by these two things. But then we realized, there's a way to solve both these problems with the same solution. To kill two birds with one stone. And that is to transform language translation into something that millions of people want to do and that also helps with the problem of lack of bilinguals, and that is language education.
אם זה מה שאתם רוצים לעשות, מהר מאוד תתקלו בשני אתגרים די גדולים, שני מכשולים גדולים. הראשון הוא מחסור בדו-לשוניים. אני אפילו לא יודע אם יש בכלל 100 מליון משתמשים אשר הנם דו-לשוניים מספיק כדי לעזור לנו בתרגום. זאת בעיה גדולה. הבעיה השניה שתתקלו בה היא חוסר במוטיבציה. איך נדרבן אנשים לעזור לתרגם את רשת האינטרנט בחינם בד"כ צריך לתגמל עבור דבר כזה אז איך נדרבן אותם לעשות את זה בחינם? וכשהתחלנו לחשוב על זה, נתקענו בשני המכשולים האלה. אבל אז הבנו, למעשה אפשר לפתור את שתי הבעיות בעזרת פתרון אחד. יש דרך להרוג שתי ציפורים באבן אחת. והדרך היא להפוך את מלאכת התרגום למשהו שמליוני אנשים ירצו לעשות, ושגם עוזרת להתמודד עם בעיית המחסור בדו-לשוניים, והדרך היא לימוד שפות.
So it turns out that today, there are over 1.2 billion people learning a foreign language. People really want to learn a foreign language. And it's not just because they're being forced to do so in school. In the US alone, there are over five million people who have paid over $500 for software to learn a new language. So people really want to learn a new language. So what we've been working on for the last year and a half is a new website -- it's called Duolingo -- where the basic idea is people learn a new language for free while simultaneously translating the web. And so basically, they're learning by doing.
מסתבר שבימנו, יותר מ 1.2 מליארד אנשים לומדים שפה זרה. אנשים מאוד מאוד רוצים ללמוד שפה זרה. וזה לא רק בגלל שמכריחים אותם בביה"ס. למשל, בארה"ב לבדה, יש יותר מחמישה מליון אנשים ששילמו יותר מ 500$ עבור תוכנה ללימוד שפה חדשה. אז אנשים מאוד מאוד רוצים ללמוד שפה חדשה. אז מה שעבדנו עליו במשך חמש וחצי שנים הוא אתר חדש -- שנקרא דואולינגו -- בו הרעיון העקרוני הוא שאנשים לומדים שפה חדשה בחינם ובה בעת מתרגמים את הרשת. ולמעשה הם לומדים בעזרת עשייה.
So the way this works is whenever you're a just a beginner, we give you very simple sentences. There's a lot of very simple sentences on the web. We give you very simple sentences along with what each word means. And as you translate them and as you see how other people translate them, you start learning the language. And as you get more advanced, we give you more complex sentences to translate. But at all times, you're learning by doing.
ואיך שזה עובד זה שכשאתה רק מתחיל, אנחנו מציגים לך משפטים מאוד מאוד פשוטים. יש, כמובן, המון משפטים מאוד פשוטים ברשת. אנחנו מציגים לך משפטים מאוד מאוד פשוטים יחד עם פירושה של כל מילה. וכשאתה מתרגם אותם, וכשאתה רואה איך אחרים תירגמו אותם, אתה מתחיל ללמוד את השפה. וכשאתה משתפר יותר ויותר, נציג לך משפטים מורכבים יותר ויותר לתרגם. אבל כל הזמן אתה לומד תוך כדי עשייה. והדבר המשוגע בשיטה הזאת
Now, the crazy thing about this method is that it actually really works. People are really learning a language. We're mostly done building it and now we're testing it. People really can learn a language with it. And they learn it about as well as the leading language learning software. So people really do learn a language. And not only do they learn it as well, but actually it's more interesting. Because with Duolingo, people are learning with real content. As opposed to learning with made-up sentences, people are learning with real content, which is inherently interesting. So people really do learn a language.
הוא שהיא למעשה עובדת. ראשית כל, אנשים באמת באמת לומדים שפה. דיי סיימנו לבנות את המערכת ועכשיו אנחנו בודקים אותה. אנשים ממש יכולים ללמוד שפה בעזרתה. והם לומדים בערך באותה רמה של תוכנות הלימוד המובילות. אז אנשים באמת לומדים שפה חדשה. ולא רק שהם לומדים אותה, זה למעשה הרבה יותר מעניין. כי בדואולינגו אנשים לומדים עם תוכן אמיתי. להבדיל מלימוד עם משפטים מומצאים, אנשים לומדים עם תוכן אמיתי, דבר שהוא באופן מובנה יותר מעניין. אז אנשים אכן לומדים שפה.
But perhaps more surprisingly, the translations that we get from people using the site, even though they're just beginners, the translations that we get are as accurate as those of professional language translators, which is very surprising. So let me show you one example. This is a sentence that was translated from German into English. The top is the German. The middle is an English translation that was done by a professional translator who we paid 20 cents a word for this translation. And the bottom is a translation by users of Duolingo, none of whom knew any German before they started using the site. If you can see, it's pretty much perfect. Of course, we play a trick here to make the translations as good as professional language translators. We combine the translations of multiple beginners to get the quality of a single professional translator.
אבל אולי באופן מפתיע, התרגומים שאנחנו מקבלים מהמשתמשים, אפילו שהם רק ברמת מתחילים, התרגומים שאנחנו מקבלים הם מדוייקים כמו אלו של מתרגמים מקצועיים, שזה דבר מפתיע מאוד. הרשו להציג לכם דוגמה. המשפט הזה שתורגם מגרמנית לאנגלית. העליון הוא בגרמנית. האמצעי הוא התרגום לאנגלית כפי שתורגם ע"י מתרגם מקצועי לאנגלית שקיבל 20 סנט למילה עבור התרגום. התחתון הוא תרגום של משתמשי דואולינגו, איש מהם לא ידע גרמנית לפני שהתחילו להשתמש באתר. אתם יכולים לראות, זה די מושלם. כמובן, אנחנו משתמשים בתכסיס כאן, כדי לגרום לתרגומים להיות ברמה מקצועית, אנחנו מאחדים תרגומים של הרבה מתרגמים מתחילים כדי לקבל רמה של מתרגם מקצועי אחד.
Now, even though we're combining the translations, the site actually can translate pretty fast. So let me show you, this is our estimates of how fast we could translate Wikipedia from English into Spanish. Remember, this is 50 million dollars' worth of value. So if we wanted to translate Wikipedia into Spanish, we could do it in five weeks with 100,000 active users. And we could do it in about 80 hours with a million active users. Since all the projects my group has worked on so far have gotten millions of users, we're hopeful that we'll be able to translate extremely fast.
ואפילו שאנחנו מאחדים תרגומים, האתר למעשה מתרגם די מהר. הרשו לי להראות לכם, זוהי ההערכה שלנו למשך הזמן שיקח לנו לתרגם את וויקיפדיה מאנגלית לספרדית. זיכרו, זאת עבודה בערך של 50 מליון דולר. אז אם נרצה לתרגם את וויקיפדיה לספרדית, נוכל להשיג זאת בחמישה שבועות עם 100,000 משתמשים פעילים. ונוכל להשיג זאת בכ80 שעות עם מליון משתמשים פעילים. כיוון שבכל הפרוייקטים של הקבוצה שלי השתתפו מליוני משתמשים, אנחנו מקווים להצליח לתרגם מאוד מהר בעזרת הפרוייקט הזה.
Now, the thing that I'm most excited about with Duolingo is I think this provides a fair business model for language education. So here's the thing: The current business model for language education is the student pays, and in particular, the student pays Rosetta Stone 500 dollars.
והדבר שהכי מרגש אותי בדואולינגו הוא שאני חושב שהוא מספק מודל עסקי הוגן ללימוד שפות. והנה העניין: המודל העסקי הנוכחי של לימוד שפות הוא שהסטודנט משלם ספציפית, הוא משלם ל"רוזטה-סטון" (תוכנה ידועה) $500.
(Laughter)
(צחוק)
That's the current business model. The problem with this business model is that 95 percent of the world's population doesn't have 500 dollars. So it's extremely unfair towards the poor. This is totally biased towards the rich. Now, see, in Duolingo, because while you learn, you're actually creating value, you're translating stuff -- which, for example, we could charge somebody for translations, so this is how we could monetize this. Since people are creating value while they're learning, they don't have to pay with their money, they pay with their time. But the magical thing here is that is time that would have had to have been spent anyways learning the language. So the nice thing about Duolingo is, I think, it provides a fair business model -- one that doesn't discriminate against poor people.
זה המודל העסקי הנוכחי. הבעיה עם המודל העסקי הזה היא של-95 אחוז מאוכלוסית העולם אין 500 דולר. אז הוא מאוד לא הוגן כלפי העניים. ולחלוטין מוטה כלפי העשירים. עכשיו, ראו, בדואולינגו, בגלל שבזמן שאתה לומד אתה למעשה יוצר ערך, אתה מתרגם דברים -- אשר למשל, נוכל לגבות עבורם כסף ממישהו. וכך ניתן לייצר מזה כסף. כיוון שאנשים מייצרים ערך בזמן שהם לומדים, הם לא צריכים לשלם בכספם, הם משלמים בזמנם. אבל הדבר הקסום כאן הוא שהם משלמים בזמנם, אבל זה אותו הזמן שהיו מבלים בכל מקרה בלמידת השפה. אז הדבר הנחמד בדואולונגו, הוא לדעתי המודל בעסקי ההוגן -- אין אפלייה נגד עניים. אז הנה האתר. תודה.
So here's the site. Thank you.
(תשואות)
(Applause)
אז הנה האתר.
We haven't yet launched, but if you go there, you can sign up to be part of our private beta, which is probably going to start in three or four weeks. We haven't yet launched it.
עדיין לא השקנו אותו, אבל אם תגלשו לשם תוכלו להרשם להיות חלק מהבטא הפרטית, שכנראה תתחיל בעוד שלושה או ארבעה שבועות. עדיין לא השקנו את דואולונגו.
By the way, I'm the one talking here, but Duolingo is the work of a really awesome team,
אגב, אני זה שמדבר כאן, אבל דואולינגו הוא למעשה פרי עמלה של קבוצה מדהימה, חלקם כאן.
some of whom are here. So thank you.
אז תודה לכם.
(Applause)
(תשואות)