Cathy O'Neil: The era of blind faith in big data must end

Algorithms are everywhere. They sort and separate the winners from the losers. The winners get the job or a good credit card offer. The losers don't even get an interview or they pay more for insurance. We're being scored with secret formulas that we don't understand that often don't have systems of appeal. That begs the question: What if the algorithms are wrong?

Algoritmusok mindenhol vannak. Azok rendezik és különítik el a győzteseket a vesztesektől. A győztesek kapják az állásokat s a jó hitelkártya-ajánlatokat. A vesztesek még az interjúig sem jutnak, és a biztosítás is drágább nekik. Titkos, érthetetlen képletekkel pontoznak minket, amelyek ellen gyakran nincs fellebbezés. Fölvetődik a kérdés: mi van, ha az algoritmusok hibásak?

To build an algorithm you need two things: you need data, what happened in the past, and a definition of success, the thing you're looking for and often hoping for. You train an algorithm by looking, figuring out. The algorithm figures out what is associated with success. What situation leads to success?

Algoritmus kialakításához két dolog kell: múltról szóló adatok meg a keresett s gyakorta remélt siker meghatározása. Idomítjuk az algoritmust, közben figyeljük, számolgatunk. Az algoritmus kiszámolja, mi minősül sikernek. Milyen helyzet vezet sikerre?

Actually, everyone uses algorithms. They just don't formalize them in written code. Let me give you an example. I use an algorithm every day to make a meal for my family. The data I use is the ingredients in my kitchen, the time I have, the ambition I have, and I curate that data. I don't count those little packages of ramen noodles as food.

Mindenki használ algoritmust, csak nem formalizálja leírt kód alakjában. Mondok egy példát. Naponta algoritmust használok, amikor főzök a családomnak. A fölhasznált adatok: hozzávalók a konyhában, a rendelkezésre álló idő, milyen kedvem van. Ezeket az adatokat rendszerezem. A zacskós leveseket nem tartom ételnek.

(Laughter)

(Nevetés)

My definition of success is: a meal is successful if my kids eat vegetables. It's very different from if my youngest son were in charge. He'd say success is if he gets to eat lots of Nutella. But I get to choose success. I am in charge. My opinion matters. That's the first rule of algorithms.

A sikert így határozom meg: sikeres az étel, ha srácaim esznek zöldséget. Legkisebb fiam szerint más a siker mércéje. Szerinte az, ha sok Nutellát ehetne. De én választom meg a sikert. Én döntök. Az én véleményem mérvadó. Ez az algoritmusok első szabálya.

Algorithms are opinions embedded in code. It's really different from what you think most people think of algorithms. They think algorithms are objective and true and scientific. That's a marketing trick. It's also a marketing trick to intimidate you with algorithms, to make you trust and fear algorithms because you trust and fear mathematics. A lot can go wrong when we put blind faith in big data.

Az algoritmusok kódba ágyazott vélemények. Eltér attól, amit önök, a legtöbben az algoritmusról gondolnak. Azt hiszik, hogy az algoritmus objektív, igaz és tudományos jószág. Ez csak marketingfogás. Az is marketingfogás, hogy algoritmusokkal riogatják önöket, hogy bízzanak bennük, és féljenek tőlük, mert önök bíznak a matekban, s félnek tőle. Sokuk hibásnak bizonyulhat, ha vakon hiszünk a big datában.

This is Kiri Soares. She's a high school principal in Brooklyn. In 2011, she told me her teachers were being scored with a complex, secret algorithm called the "value-added model." I told her, "Well, figure out what the formula is, show it to me. I'm going to explain it to you." She said, "Well, I tried to get the formula, but my Department of Education contact told me it was math and I wouldn't understand it."

Ő Kiri Soares, középiskolai igazgató Brooklynban. 2011-ben elmondta nekem, hogy tanárait komplex, titkos algoritmussal ún. "hozzáadott érték modell"-lel pontozták, "Nézz utána a képletnek, mutasd meg nekem, majd elmagyarázom" – feleltem. "Próbáltam megszerezni, de az oktatási minisztériumi ember azt mondta, hogy az matek, és úgysem érteném" – válaszolta.

It gets worse. The New York Post filed a Freedom of Information Act request, got all the teachers' names and all their scores and they published them as an act of teacher-shaming. When I tried to get the formulas, the source code, through the same means, I was told I couldn't. I was denied. I later found out that nobody in New York City had access to that formula. No one understood it. Then someone really smart got involved, Gary Rubinstein. He found 665 teachers from that New York Post data that actually had two scores. That could happen if they were teaching seventh grade math and eighth grade math. He decided to plot them. Each dot represents a teacher.

De ez még semmi! Az információszabadsági törvény alapján a New York Post kérvényt nyújtott be, megszerezte a tanárok nevét és pontszámát, és a tanárok megszégyenítéséül közzétette. Amikor ugyanezzel a módszerrel meg akartam szerezni a képletet, a forráskódot, azt mondták, nem lehet. Megtagadták. Később megtudtam, hogy senkinek sincs meg a képlet New Yorkban. Senki sem ismerte. Aztán Gary Rubenstein, egy okos ember, elkezdett vele foglalkozni. A New York Post adataiban talált 665 tanárt, akiknek két különböző pontjuk volt. Ez úgy lehet, ha a tanárok hetedikes és nyolcadikas matekot is tanítottak. Úgy döntött, hogy ábrát készít. Minden pötty egy tanárnak felel meg.

(Laughter)

(Nevetés)

What is that?

Mi ez?

(Laughter)

(Nevetés)

That should never have been used for individual assessment. It's almost a random number generator.

Egyéni értékelés esetén ilyen sohasem történt volna. Majdhogynem egy véletlenszám-generátor.

(Applause)

(Taps)

But it was. This is Sarah Wysocki. She got fired, along with 205 other teachers, from the Washington, DC school district, even though she had great recommendations from her principal and the parents of her kids.

Az is volt. Ő Sarah Wysocki. Kirúgták 205 tanártársával együtt a washingtoni iskolakörzetből, bár kitűnő véleménye volt róla az igazgatójának, a szülőknek és a gyerekeknek.

I know what a lot of you guys are thinking, especially the data scientists, the AI experts here. You're thinking, "Well, I would never make an algorithm that inconsistent." But algorithms can go wrong, even have deeply destructive effects with good intentions. And whereas an airplane that's designed badly crashes to the earth and everyone sees it, an algorithm designed badly can go on for a long time, silently wreaking havoc.

Tudom, a jelenlévők mire gondolnak, különösen az adattudósok és az MI-szakértők. Erre: "Én aztán soha nem csinálnék olyan következetlen algoritmust!" De az algoritmusok hibázhatnak, és erős romboló hatásuk is lehet jó szándékból adódóan. Egy rosszul tervezett repülő földre zuhan mindenki szeme láttára, de egy rosszul tervezett algoritmus sokáig működhet, csöndes rombolást okozva.

This is Roger Ailes.

Ő Roger Ailes.

(Laughter)

(Nevetés)

He founded Fox News in 1996. More than 20 women complained about sexual harassment. They said they weren't allowed to succeed at Fox News. He was ousted last year, but we've seen recently that the problems have persisted. That begs the question: What should Fox News do to turn over another leaf?

1996-ban ő alapította a Fox Newst. Több mint 20 nő panaszkodott szexuális zaklatás miatt. Mondták, hogy nem számíthattak sikerre a Fox Newsnál. 2016-ban Ailest kirúgták, de látható, hogy a helyzet nem változik. Adódik a kérdés: Mit kell a Fox Newsnak tennie, hogy a helyzet javuljon?

Well, what if they replaced their hiring process with a machine-learning algorithm? That sounds good, right? Think about it. The data, what would the data be? A reasonable choice would be the last 21 years of applications to Fox News. Reasonable. What about the definition of success? Reasonable choice would be, well, who is successful at Fox News? I guess someone who, say, stayed there for four years and was promoted at least once. Sounds reasonable. And then the algorithm would be trained. It would be trained to look for people to learn what led to success, what kind of applications historically led to success by that definition. Now think about what would happen if we applied that to a current pool of applicants. It would filter out women because they do not look like people who were successful in the past.

Mi lenne, ha felvételi rendszerüket gépi tanulási algoritmusra cserélnék le? Jól hangzik, ugye? De gondoljunk bele! Milyen adatok állnak rendelkezésre? Az észszerű választás az utóbbi 21 évben a Fox Newshoz beadott jelentkezési lapok. Észszerű. Mi van a siker meghatározásával? Az észszerű válasz ez lenne: aki sikeres volt a Fox Newsnál? Mondjuk, aki négy évet ott töltött, és legalább egyszer előléptették. Észszerűnek hangzik. Aztán idomítjuk az algoritmust arra, hogy olyanokat keressen, akik sikeresnek bizonyultak, hogy megtudjuk, idővel mely jelentkezők lettek sikeresek meghatározásunk szerint. De gondoljunk most arra, mi lenne, ha ezt alkalmaznánk a mostani jelentkezőkre, és kiszűrnénk a nőket, mert a nők nem voltak sikeresek a múltban?

Algorithms don't make things fair if you just blithely, blindly apply algorithms. They don't make things fair. They repeat our past practices, our patterns. They automate the status quo. That would be great if we had a perfect world, but we don't. And I'll add that most companies don't have embarrassing lawsuits, but the data scientists in those companies are told to follow the data, to focus on accuracy. Think about what that means. Because we all have bias, it means they could be codifying sexism or any other kind of bigotry.

Az algoritmusoktól a dolgok nem válnak korrektté, ha gondatlanul, vakon alkalmazzuk őket. Tőlük semmi sem válik korrektté. A múlt gyakorlatát ismétlik, a mi sémáinkat, Automatizálják a status quót. Tökéletes világban ez nagyszerű is lenne, de a világ nem olyan. Hozzáteszem, hogy a legtöbb cégnek nincsenek kínos perei, de azoknál a cégeknél az adattudósoknak azt mondják, hogy tartsák magukat az adatokhoz, a precizitás minden előtt. Mit jelent ez? Mivel mindannyian elfogultak vagyunk, ezért esetleg szexizmust vagy más fanatizmust kódolhatnak be.

Thought experiment, because I like them: an entirely segregated society -- racially segregated, all towns, all neighborhoods and where we send the police only to the minority neighborhoods to look for crime. The arrest data would be very biased. What if, on top of that, we found the data scientists and paid the data scientists to predict where the next crime would occur? Minority neighborhood. Or to predict who the next criminal would be? A minority. The data scientists would brag about how great and how accurate their model would be, and they'd be right.

Gondolatkísérlet. Szeretem a gondolatkísérletet. Teljesen szegregált társadalom, rasszok szerint minden város, minden környék szegregált, és csak kisebbségi környékre küldjük ki a rendőrséget bűnüldözés céljából. A letartóztatási adatok igen torzak lesznek. Mi lenne, ha adattudósokat kérnénk, jelezzék előre, hol lesz a következő bűntett. A kisebbségi környéken. Vagy jósolják meg, ki lesz a következő bűnöző. Egy kisebbségi. Az adattudósok azzal fognak kérkedni, milyen nagyszerű és precíz a modelljük, és igazuk lesz.

Now, reality isn't that drastic, but we do have severe segregations in many cities and towns, and we have plenty of evidence of biased policing and justice system data. And we actually do predict hotspots, places where crimes will occur. And we do predict, in fact, the individual criminality, the criminality of individuals. The news organization ProPublica recently looked into one of those "recidivism risk" algorithms, as they're called, being used in Florida during sentencing by judges. Bernard, on the left, the black man, was scored a 10 out of 10. Dylan, on the right, 3 out of 10. 10 out of 10, high risk. 3 out of 10, low risk. They were both brought in for drug possession. They both had records, but Dylan had a felony but Bernard didn't. This matters, because the higher score you are, the more likely you're being given a longer sentence.

A valóság nem ily végletes, de azért sok helyen súlyos szegregációt tapasztalunk, rengeteg a bizonyíték elfogult intézkedésekre és jogrendszeri adatokra. De azért megjósoljuk a gócokat, bűntettek előfordulási helyeit. Megjósoljuk az egyéni bűnözést, egyesek bűnelkövetését. A ProPublica hírügynökség nemrég megnézett egy "visszaesési kockázat" algoritmust, ahogy ők hívják, Floridában, bírói ítélethozatal közben. Bernard, fekete férfi balról, tízből 10 pontot kapott. Dylan a jobb oldalon, tízből hármat. Tízből 10 – nagy kockázat, tízből három – kis kockázat. Mindkettőt kábszer-birtoklásért kapták el. Mindketten visszaesők, Dylannak volt súlyos bűntette, de Bernardnak nem. Ez számít, mert magasabb pontszám esetén súlyosabb ítéletet szabnak ki.

What's going on? Data laundering. It's a process by which technologists hide ugly truths inside black box algorithms and call them objective; call them meritocratic. When they're secret, important and destructive, I've coined a term for these algorithms: "weapons of math destruction."

Mi történik? Adatmosás. Ezzel a folyamattal rejtik el a technikusok a csúnya igazságot a feketedoboz-algoritmusba, s eztán már objektívnak és érdemeken alapulónak hívják. Mivel titkosak, fontosak és rombolók, alkottam rájuk egy fogalmat: "a matematika tömegpusztító fegyverei".

(Laughter)

(Nevetés)

(Applause)

(Taps)

They're everywhere, and it's not a mistake. These are private companies building private algorithms for private ends. Even the ones I talked about for teachers and the public police, those were built by private companies and sold to the government institutions. They call it their "secret sauce" -- that's why they can't tell us about it. It's also private power. They are profiting for wielding the authority of the inscrutable. Now you might think, since all this stuff is private and there's competition, maybe the free market will solve this problem. It won't. There's a lot of money to be made in unfairness.

Mindenhol vannak, nem tévedés. Magáncégek magánalgoritmusokat készítenek magáncélokra. Még az említett, tanároknak és a rendőrségnek szántakat is magáncégek készítették, majd adták el állami intézményeknek. "Titkos szósznak" hívják őket, ezért nem fedik föl őket. Ez is magánhatalom. Profitálnak a kiismerhetetlen hatalom gyakorlásából. Fölvethetik: mivel ez mind magántermék, verseny van, talán a szabadpiac megoldja a nehézséget. Nem fogja. Tisztességtelenséggel sokat lehet keresni.

Also, we're not economic rational agents. We all are biased. We're all racist and bigoted in ways that we wish we weren't, in ways that we don't even know. We know this, though, in aggregate, because sociologists have consistently demonstrated this with these experiments they build, where they send a bunch of applications to jobs out, equally qualified but some have white-sounding names and some have black-sounding names, and it's always disappointing, the results -- always.

Ráadásul nem vagyunk gazdaságilag racionális egyedek. Mind elfogultak vagyunk. Mind rasszisták és bigottak vagyunk, még ha nem akarjuk is, még ha nem tudunk is róla. De összességében mégis tudunk róla, mert szociológiai kísérletek ezt következetesen alátámasztják. Beküldik egy csomó egyformán alkalmas személy állásjelentkezését, de egyeseknek "fehéres" nevük van, másoknak feketének hangzó. Az eredmény mindig elkeserítő.

So we are the ones that are biased, and we are injecting those biases into the algorithms by choosing what data to collect, like I chose not to think about ramen noodles -- I decided it was irrelevant. But by trusting the data that's actually picking up on past practices and by choosing the definition of success, how can we expect the algorithms to emerge unscathed? We can't. We have to check them. We have to check them for fairness.

Tehát mind elfogultak vagyunk, és elfogultságunkat azzal ojtjuk be az algoritmusokba, hogy megválasztjuk, milyen adatot gyűjtsünk, ahogy én sem vettem tudomást a zacskós levesről, mert nem tartottam lényegesnek. De ha múltbéli gyakorlaton alapuló adatokban bízva határozzuk meg a sikert, hogyan remélhetjük, hogy megbízhatók lesznek az algoritmusok? Sehogy. Ellenőriznünk kell őket! Ellenőrizni, hogy pártatlanok-e.

The good news is, we can check them for fairness. Algorithms can be interrogated, and they will tell us the truth every time. And we can fix them. We can make them better. I call this an algorithmic audit, and I'll walk you through it.

A jó hír, hogy lehet ezt ellenőrizni. Az algoritmusok vizsgálhatók. Mindig megmondják az igazat. Javíthatunk rajtuk. Ezt hívom algoritmus-auditálásnak, s megmutatom lépésenként, hogyan.

First, data integrity check. For the recidivism risk algorithm I talked about, a data integrity check would mean we'd have to come to terms with the fact that in the US, whites and blacks smoke pot at the same rate but blacks are far more likely to be arrested -- four or five times more likely, depending on the area. What is that bias looking like in other crime categories, and how do we account for it?

Első az adatintegritás vizsgálata. Az említett visszaesési kockázat algoritmusánál az adatintegritás azt jelenti, hogy el kell fogadnunk a tényt, hogy feketék s fehérek azonos arányban szívnak füvet az USA-ban, ám a feketéket sokkal gyakrabban tartóztatják le, a körzettől függően négy-ötször gyakrabban. Hogy néz ki az elfogultság más bűnügyi területen, és mivel magyarázható?

Second, we should think about the definition of success, audit that. Remember -- with the hiring algorithm? We talked about it. Someone who stays for four years and is promoted once? Well, that is a successful employee, but it's also an employee that is supported by their culture. That said, also it can be quite biased. We need to separate those two things. We should look to the blind orchestra audition as an example. That's where the people auditioning are behind a sheet. What I want to think about there is the people who are listening have decided what's important and they've decided what's not important, and they're not getting distracted by that. When the blind orchestra auditions started, the number of women in orchestras went up by a factor of five.

Másodszor, foglalkoznunk kell a siker meghatározásával, auditálnunk kell. Emlékeznek a felvételi algoritmusra? Sikeres, aki négy éve dolgozik, és egyszer léptették elő? Ő sikeres munkatárs, de azért, mert belesimult a cég kultúrájába. Ez is elfogultság lehet. A két dolgot el kell választanunk. Példának ott van a vak zenekari meghallgatás: a zenészek függöny mögött játszanak. A lényeg, hogy akik hallgatják őket, már eldöntötték, mi fontos, s azt is eldöntötték, mi nem, s erről semmi nem vonja el a figyelmüket. Amikor megindult a vak zenekari meghallgatás, a zenekarban játszó nők száma ötszörösére nőtt.

Next, we have to consider accuracy. This is where the value-added model for teachers would fail immediately. No algorithm is perfect, of course, so we have to consider the errors of every algorithm. How often are there errors, and for whom does this model fail? What is the cost of that failure?

Aztán minősíteni kell a precizitást. Itt rögtön megbukik a tanároknak szóló hozzáadottérték-modell. Persze, nincs tökéletes algoritmus, ezért mérlegelni kell minden algoritmus esetleges hibáját. Milyen gyakoriak a hibák, és kinél sikertelen a modell? Mi a sikertelenség ára?

And finally, we have to consider the long-term effects of algorithms, the feedback loops that are engendering. That sounds abstract, but imagine if Facebook engineers had considered that before they decided to show us only things that our friends had posted.

Végezetül, meg kell fontolnunk az algoritmusok s a keletkező visszacsatolási hurkok hosszú távú kihatásait. Ez elvontnak hangzik, de képzeljék el, ha a Facebook- mérnökök gondoltak volna rá, mielőtt eldöntötték, hogy csak a barátaink posztolta dolgokat mutatják nekünk.

I have two more messages, one for the data scientists out there. Data scientists: we should not be the arbiters of truth. We should be translators of ethical discussions that happen in larger society.

Még két megjegyzésem van, egyik az itt ülő adattudósoknak szól. Adattudósok! Nem lehetünk az igazság döntőbírái. A szélesebb társadalomban folyó erkölcsi eszmecserét kell tolmácsolnunk.

(Applause)

(Taps)

And the rest of you, the non-data scientists: this is not a math test. This is a political fight. We need to demand accountability for our algorithmic overlords.

A többieknek, a nem adattudósoknak: ez nem matekvizsga. Ez politikai küzdelem. Követelnünk kell, hogy az algoritmusok nagyurai elszámoltathatók legyenek.

(Applause)

(Taps)

The era of blind faith in big data must end.

Vessünk véget a big datába vetett vakhit korszakának!

Thank you very much.

Köszönöm szépen.

(Applause)

(Taps)

(Laughter)

(Nevetés)

(Laughter)

(Nevetés)

What is that?

Mi ez?

(Laughter)

(Nevetés)

That should never have been used for individual assessment. It's almost a random number generator.

Egyéni értékelés esetén ilyen sohasem történt volna. Majdhogynem egy véletlenszám-generátor.

(Applause)

(Taps)

Az is volt. Ő Sarah Wysocki. Kirúgták 205 tanártársával együtt a washingtoni iskolakörzetből, bár kitűnő véleménye volt róla az igazgatójának, a szülőknek és a gyerekeknek.

This is Roger Ailes.

Ő Roger Ailes.

(Laughter)

(Nevetés)

(Laughter)

(Nevetés)

(Applause)

(Taps)

A jó hír, hogy lehet ezt ellenőrizni. Az algoritmusok vizsgálhatók. Mindig megmondják az igazat. Javíthatunk rajtuk. Ezt hívom algoritmus-auditálásnak, s megmutatom lépésenként, hogyan.

(Applause)

(Taps)

And the rest of you, the non-data scientists: this is not a math test. This is a political fight. We need to demand accountability for our algorithmic overlords.

A többieknek, a nem adattudósoknak: ez nem matekvizsga. Ez politikai küzdelem. Követelnünk kell, hogy az algoritmusok nagyurai elszámoltathatók legyenek.

(Applause)

(Taps)

The era of blind faith in big data must end.

Vessünk véget a big datába vetett vakhit korszakának!

Thank you very much.

Köszönöm szépen.

(Applause)

(Taps)

Cathy O'Neil: The era of blind faith in big data must end

Cathy O'Neil: The era of blind faith in big data must end

Related talks

Tricia Wang: The human insights missing from big data

Mona Chalabi: 3 ways to spot a bad statistic

Mallory Freeman: Your company's data could help end world hunger

Christian Rudder: Inside OKCupid: The math of online dating

Zeynep Tufekci: Machine intelligence makes human morals more important

Amy Webb: How I hacked online dating

Related talks

Tricia Wang: The human insights missing from big data

Mona Chalabi: 3 ways to spot a bad statistic

Mallory Freeman: Your company's data could help end world hunger

Christian Rudder: Inside OKCupid: The math of online dating

Zeynep Tufekci: Machine intelligence makes human morals more important

Amy Webb: How I hacked online dating