Hello, my name is Christian Rudder, and I was one of the founders of OkCupid. It's now one of the biggest dating sites in the United States. Like most everyone at the site, I was a math major, As you may expect, we're known for the analytic approach we take to love. We call it our matching algorithm. Basically, OkCupid's matching algorithm helps us decide whether two people should go on a date. We built our entire business around it. Now, algorithm is a fancy word, and people like to drop it like it's this big thing. But really, an algorithm is just a systematic, step-by-step way to solve a problem. It doesn't have to be fancy at all. Here in this lesson, I'm going to explain how we arrived at our particular algorithm, so you can see how it's done. Now, why are algorithms even important? Why does this lesson even exist? Well, notice one very significant phrase I used above: they are a step-by-step way to solve a problem, and as you probably know, computers excel at step-by-step processes. A computer without an algorithm is basically an expensive paperweight. And since computers are such a pervasive part of everyday life, algorithms are everywhere. The math behind OkCupid's matching algorithm is surprisingly simple. It's just some addition, multiplication, a little bit of square roots. The tricky part in designing it was figuring out how to take something mysterious, human attraction, and break it into components that a computer can work with. The first thing we needed to match people up was data, something for the algorithm to work with. The best way to get data quickly from people is to just ask for it. So we decided that OkCupid should ask users questions, stuff like, "Do you want to have kids one day?" "How often do you brush your teeth?" "Do you like scary movies?" And big stuff like, "Do you believe in God?" Now, a lot of the questions are good for matching like with like, that is, when both people answer the same way. For example, two people who are both into scary movies are probably a better match than one person who is and one who isn't. But what about a question like, "Do you like to be the center of attention?" If both people in a relationship are saying yes to this, they're going to have massive problems. We realized this early on, and so we decided we needed a bit more data from each question. We had to ask people to specify not only their own answer, but the answer they wanted from someone else. That worked really well. But we needed one more dimension. Some questions tell you more about a person than others. For example, a question about politics, something like, "Which is worse: book burning or flag burning?" might reveal more about someone than their taste in movies. And it doesn't make sense to weigh all things equally, so we added one final data point. For everything that OkCupid asks you, you have a chance to tell us the role it plays in your life. And this ranges from irrelevant to mandatory. So now, for every question, we have three things for our algorithm: first, your answer; second, how you want someone else -- your potential match -- to answer; and third, how important the question is to you at all. With all this information, OkCupid can figure out how well two people will get along. The algorithm crunches the numbers and gives us a result. As a practical example, let's look at how we'd match you with another person. Let's call him "B." Your match percentage with B is based on questions you've both answered. Let's call that set of common questions "s." As a very simple example, we use a small set "s" with just two questions in common, and compute a match from that. Here are our two example questions. The first one, let's say, is, "How messy are you?" And the answer possibilities are: very messy, average and very organized. And let's say you answered "very organized," and you'd like someone else to answer "very organized," and the question is very important to you. Basically, you're a neat freak. You're neat, you want someone else to be neat, and that's it. And let's say B is a little bit different. He answered "very organized" for himself, but "average" is OK with him as an answer from someone else, and the question is only a little important to him. Let's look at the second question, from our previous example: "Do you like to be the center of attention?" The answers are "yes" and "no." You've answered "no," you want someone else to answer "no," and the question is only a little important to you. Now B, he's answered "yes." He wants someone else to answer "no," because he wants the spotlight on him, and the question is somewhat important to him. So, let's try to compute all of this. Our first step is, since we use computers to do this, we need to assign numerical values to ideas like "somewhat important" and "very important," because computers need everything in numbers. We at OkCupid decided on the following scale: "Irrelevant" is worth 0. "A little important" is worth 1. "Somewhat important" is worth 10. "Very important" is 50. And "absolutely mandatory" is 250. Next, the algorithm makes two simple calculations. The first is: How much did B's answers satisfy you? That is, how many possible points did B score on your scale? Well, you indicated that B's answer to the first question, about messiness, was very important to you. It's worth 50 points and B got that right. The second question is worth only 1, because you said it was only a little important. B got that wrong, so B's answers were 50 out of 51 possible points. That's 98% satisfactory. Pretty good. The second question the algorithm looks at is: How much did you satisfy B? Well, B placed 1 point on your answer to the messiness question and 10 on your answer to the second. Of those 11, that's 1 plus 10, you earned 10 -- you guys satisfied each other on the second question. So your answers were 10 out of 11 equals 91 percent satisfactory to B. That's not bad. The final step is to take these two match percentages and get one number for the both of you. To do this, the algorithm multiplies your scores, then takes the nth root, where "n" is the number of questions. Because s, which is the number of questions in this sample, is only 2, we have: match percentage equals the square root of 98 percent times 91 percent. That equals 94 percent. That 94 percent is your match percentage with B. It's a mathematical expression of how happy you'd be with each other, based on what we know. Now, why does the algorithm multiply, as opposed to, say, average the two match scores together, and do the square-root business? In general, this formula is called the geometric mean. It's a great way to combine values that have wide ranges and represent very different properties. In other words, it's perfect for romantic matching. You've got wide ranges and you've got tons of different data points, like I said, about movies, politics, religion -- everything. Intuitively, too, this makes sense. Two people satisfying each other 50 percent should be a better match than two others who satisfy 0 and 100, because affection needs to be mutual. After adding a little correction for margin of error, in the case where we have a small number of questions, like we do in this example, we're good to go. Any time OkCupid matches two people, it goes through the steps we just outlined. First it collects data about your answers, then it compares your choices and preferences to other people's in simple, mathematical ways. This, the ability to take real-world phenomena and make them something a microchip can understand, is, I think, the most important skill anyone can have these days. Like you use sentences to tell a story to a person, you use algorithms to tell a story to a computer. If you learn the language, you can go out and tell your stories. I hope this will help you do that.
Witam, nazywam się Christian Rudder. Jestem jednym z założycieli OK Cupid. To jeden z największych portali randkowych w USA. Jak niemal każdy z założycieli, skończyłem matematykę, dlatego nasz portal stosuje metodę analityczną wobec miłości. Nazywamy to algorytmem dopasowania. Ten algorytm pomaga nam stwierdzić, czy dwoje ludzi powinno umówić się na randkę. Na tej zasadzie zbudowaliśmy cały biznes. Algorytm to takie wyszukane słowo, a ludzie lubią czuć, że robią coś wielkiego ale tak naprawdę, algorytm to po prostu metoda rozwiązywania problemów krok po kroku. To wcale nie jest takie niezwykłe. W tej lekcji pokażę, jak doszliśmy do naszego algorytmu, żebyś rozumiał, jak to robimy. Właściwie dlaczego te algorytmy są ważne? Po co ta cała lekcja? Jak wcześniej powiedziałem, to metoda rozwiązywania problemów krok po kroku a jak wiesz, komputery są w tym świetne. Komputer bez algorytmu to tylko droga kupa złomu. A ponieważ komputery są wszechobecne algorytmy są wszędzie. Matematyka do algorytmu w portalu OK Cupid jest bardzo prosta. Trochę dodawania, mnożenia, i pierwiastków. Cały trick polega na tym, żeby umieć przerobić coś zagadkowego, czyli lubienie innych ludzi, na kroki, które komputer może wykonać. Najpierw potrzebujemy od ludzi danych, bo użyjemy ich do naszego algorytmu. Najprościej jest zwyczajnie zadawać ludziom pytania. W OK Cupid znajdziesz pytania takie jak: "Czy chcesz mieć kiedyś dzieci?" "Jak często myjesz zęby?" "Czy lubisz straszne filmy?" i poważne pytania, np. "Czy wierzysz w Boga?". Wiele pytań pozwala dopasować ludzi, kiedy oboje odpowiedzą na dane pytanie tak samo. Np. kiedy oboje lubią straszne filmy, będą lepiej do siebie pasować, niż kiedy jedno je lubi, a drugie nie. Ale przy pytaniu typu: "Czy lubisz być w centrum uwagi?", jeśli oboje w związku to lubią, to będą mieć poważne problemy. Przewidzieliśmy to, więc postanowiliśmy uzyskać nieco więcej danych przy takich pytaniach. Zapytaliśmy ludzi nie tylko o ich odpowiedź, ale też, jakiej odpowiedzi chcą od drugiej osoby. To był dobry pomysł, ale brakowało jeszcze jednego wymiaru. Niektóre pytania mówią więcej o osobie, niż inne. Np. pytanie o politykę: "Co jest gorsze: palenie książek czy palenie flag?" może ujawnić więcej o osobie, niż gust filmowy. A ponieważ nie wszystko ma takie samo znaczenie, dodaliśmy jeszcze jeden parametr. Przy każdym pytaniu w OK Cupid jest wskaźnik jak dana sprawa jest ważna dla ciebie w skali od "nieważne" do "konieczne". Czyli teraz dla każdego pytania mamy 3 parametry dla naszego algorytmu: 1. twoja odpowiedź 2. czego chcesz od drugiej osoby – potencjalnego partnera, jak ta osoba ma odpowiedzieć 3. jak ważna dana sprawa jest dla ciebie. Na bazie tych danych OK Cupid wylicza, czy dwoje ludzi do siebie pasuje. Algorytm przelicza dane i podaje wynik. Na przykład, spróbujmy dopasować ciebie do drugiej osoby, nazwijmy go "B". Twoja zgodność z B opiera się na odpowiedziach podanych przez was oboje. Nazwijmy sumę tych pytań "s". Weźmy tylko kilka pytań dla naszego "s" np. dwa pytania i obliczmy, co wyjdzie. Powiedzmy takie dwa pytania: 1. "Czy jesteś bałaganiarzem?" możliwe odpowiedzi to: tak, bardzo bałaganię, przeciętnie jestem bardzo zorganizowany. Załóżmy, że twoja odpowiedź to "bardzo zorganizowany", i chcesz, żeby druga osoba odpowiedziała podobnie i ta sprawa jest dla ciebie bardzo istotna. Po prostu nie tolerujesz bałaganu. Ma być porządek, i druga osoba też ma utrzymywać porządek i kropka. Teraz powiedzmy, że B jest nieco inny. Jest bardzo zorganizowany, ale wystarczy mu przeciętny porządek, jako wymaganie stawiane drugiej osobie, a cała sprawa jest dla niego prawie nieistotna. Przejdźmy do drugiego pytania. Użyjmy pytania, które pojawiło się wcześniej: "Czy lubisz być w centrum uwagi?". Możliwe opcje to "tak" i "nie". Odpowiadasz "nie", i wolisz, żeby druga osoba też powiedziała "nie", a ta sprawa nie ma dla ciebie znaczenia. Ale B odpowiedział "tak", chce, żeby druga osoba powiedziała "nie", bo chce, żeby cała uwaga skupiła się na nim, i jest to dla niego trochę istotne. Teraz spróbujmy to przekalkulować. Na początku, ponieważ używamy komputera, musimy przyporządkować wartości numeryczne do odpowiedzi typu "dosyć istotne" i "bardzo ważne", bo komputer rozumie tylko liczby. W portalu OK Cupid robimy to tak: "nieważne" ma wartość 0, "nieco istotne" = 1, "dość istotne" = 10, "bardzo istotne" = 50, "absolutnie niezbędne" = 250. Teraz nasz algorytm przelicza. Najpierw sprawdza ile odpowiedzi udzielonych przez B odpowiada twoim, tzn. ile punktów uzyskał na twojej skali. Dla ciebie odpowiedź osoby B na pytanie o bałaganiarstwo, była bardzo ważna. Czyli na wartość 50 punktów, jeśli B odpowie prawidłowo. Drugie pytanie ma wartość zaledwie 1 bo powiedziałaś, że jest tylko nieco istotne, a B odpowiedział coś innego. Czyli odpowiedzi B to 50 na 51 możliwych punktów. To 98% zgodności. Nieźle. Drugi krok w algorytmie to to, jak bardzo twoje odpowiedzi zgadzają się z B. B przyznał 1 punkt twojej odpowiedzi na pytanie o bałaganiarstwo, a 10 – twojej odpowiedzi na drugie pytanie. 1 + 10 = 11, i z tych 11. uzyskałeś 10, bo w drugim pytaniu podałaś pożądaną odpowiedź. Więc twoje odpowiedzi to 10 punktów na 11, co daje 91% zgodności. Też nieźle. Ostatni krok to porównanie tych dwóch procentów i ustalenie procentu ogólnego dla was obojga. Teraz algorytm mnoży wasze wyniki następnie wyciąga z nich n-ty pierwiastek, gdzie n to liczba pytań bo s, czyli suma pytań w naszym przykładzie wynosiła 2. Procent zgodności równa się pierwiastkowi kwadratowemu z 98% razy 91% czyli 94%. To 94% to twoja zgodność z osobą B. To matematyczny zapis tego, jak szczęśliwi możecie być ze sobą na podstawie podanych odpowiedzi. Możesz zapytać, dlaczego algorytm mnoży, a nie np. wyciąga średnią z obu wyników i po co wyciąga pierwiastek. Ta zasada nosi nazwę średniej geometrycznej, która jest dobrym sposobem porównywania wartości, które mają szeroki zakres i odpowiadają wielu różnym wartościom. Innymi słowy, jest idealna dla szukania partnera. Mamy tu szeroki zakres i ogromną liczbę parametrów jak już wspomniałem: filmy, polityka, religia, wszystko. To ma też intuicyjny sens. Dwoje ludzi ze zgodnością 50% będzie bardziej do siebie pasować, niż dwoje ze zgodnością 0 i 100, bo uczucie musi być wzajemne. Po drobnych poprawkach i z marginesem błędu, kiedy mamy małą liczbę pytań, jak w naszym przykładzie, jesteśmy gotowi na randkę. Gdy OK Cupid swata dwoje ludzi wykonuje kroki, które właśnie widzieliśmy. Najpierw prosi o odpowiedzi na pytania, potem matematycznie porównuje twoje preferencje z odpowiedziami innych osób. Zdolność przekształcenia zjawisk w realnym życiu w dane, które procesor może zrozumieć jest według mnie najważniejszą umiejętnością w dzisiejszych czasach. Ludzie mówią zdaniami, żeby coś przekazać, komputery zaś używają do komunikacji algorytmów. Kiedy uczysz się języka, możesz coś w nim opowiedzieć. Mam nadzieję, że teraz będzie ci łatwiej.