Mainak Mazumdar: How bad data keeps us from good AI

AI could add 16 trillion dollars to the global economy in the next 10 years. This economy is not going to be built by billions of people or millions of factories, but by computers and algorithms. We have already seen amazing benefits of AI in simplifying tasks, bringing efficiencies and improving our lives. However, when it comes to fair and equitable policy decision-making, AI has not lived up to its promise. AI is becoming a gatekeeper to the economy, deciding who gets a job and who gets an access to a loan. AI is only reinforcing and accelerating our bias at speed and scale with societal implications. So, is AI failing us? Are we designing these algorithms to deliver biased and wrong decisions?

L’IA pourrait enrichir l’économie mondiale de 16 trillions de dollars dans les 10 prochaines années. Cette économie ne sera pas construite pas des milliards de gens ou des millions d’industries, mais par des ordinateurs et des algorithmes. Nous avons déjà vu les grands bénéfices de l’IA dans la simplification des tâches, l’apport d’efficacité et l’amélioration de nos vies. Toutefois, quand on en vient à la prise de décision équitable et juste, l’IA ne tient pas ses promesses. L’IA devient une porte d’accès à l’économie, et décide qui est embauché et qui a accès à un salaire. L’IA ne fait que renforcer et accélérer nos préjugés à grande vitesse et grande échelle avec des implications sociétales. Alors, l’IA nous déçoit-elle ? Créons-nous des algorithmes pour prendre des décisions biaisées et mauvaises ?

As a data scientist, I'm here to tell you, it's not the algorithm, but the biased data that's responsible for these decisions. To make AI possible for humanity and society, we need an urgent reset. Instead of algorithms, we need to focus on the data. We're spending time and money to scale AI at the expense of designing and collecting high-quality and contextual data. We need to stop the data, or the biased data that we already have, and focus on three things: data infrastructure, data quality and data literacy.

En tant qu’expert des données, je suis là pour vous dire que ce n’est pas l’algorithme mais la donnée biaisée qui est responsable de ces décisions. Pour rendre l’IA possible pour l’humanité et la société, il nous faut une réinitialisation de toute urgente. À la place des algorithmes, nous devons nous concentrer sur les données. Nous dépensons du temps et de l’argent à faire évoluer l’IA au détriment de la collection de données contextuelles de haute qualité. Nous devons arrêter les données, ou les données biaisées que nous avons déjà et nous concentrer sur trois choses : l’infrastructure des données, la qualité des données et la maîtrise des données.

In June of this year, we saw embarrassing bias in the Duke University AI model called PULSE, which enhanced a blurry image into a recognizable photograph of a person. This algorithm incorrectly enhanced a nonwhite image into a Caucasian image. African-American images were underrepresented in the training set, leading to wrong decisions and predictions. Probably this is not the first time you have seen an AI misidentify a Black person's image. Despite an improved AI methodology, the underrepresentation of racial and ethnic populations still left us with biased results.

En juin de cette année, nous avons connu des biais gênants dans le modèle d’IA de la Duke University appelé PULSE, qui a transformé une image floue en photographie reconnaissable d’une personne. L’algorithme a transformé à tort un non-blanc en Caucasien. Les images d’afro-américains sont sous- représentées dans le kit d’entraînement, entraînant de mauvaises décisions et prédictions. Ce n’est sûrement pas la première fois que vous voyez une IA mal identifier l’image d’une personne noire. Malgré une amélioration de la méthodologie des IA, la sous-représentation des populations raciales et ethniques entraîne encore des résultats biaisés.

This research is academic, however, not all data biases are academic. Biases have real consequences.

La recherche est académique, mais tous les biais ne sont pas académiques. Les biais ont de réelles conséquences.

Take the 2020 US Census. The census is the foundation for many social and economic policy decisions, therefore the census is required to count 100 percent of the population in the United States. However, with the pandemic and the politics of the citizenship question, undercounting of minorities is a real possibility. I expect significant undercounting of minority groups who are hard to locate, contact, persuade and interview for the census. Undercounting will introduce bias and erode the quality of our data infrastructure.

Prenez le recensement américain de 2020. Le recensement est la base de nombreuses décisions sociales, économiques et politiques, donc il est nécessaire pour compter 100% de la population aux États-Unis. Cependant, avec la pandémie et les politiques autour de la question de citoyenneté, le sous-comptage des minorités est une réelle possibilité. Je m’attends à un sous-comptage significatif des minorités qui sont difficiles à localiser, contacter, persuader et interroger. Le sous-comptage introduira des biais et érodera la qualité de nos infrastructures de données.

Let's look at undercounts in the 2010 census. 16 million people were omitted in the final counts. This is as large as the total population of Arizona, Arkansas, Oklahoma and Iowa put together for that year. We have also seen about a million kids under the age of five undercounted in the 2010 Census.

Regardons le sous-comptage dans le recensement de 2010. 16 millions de gens ont été omis dans les comptes finaux. C’est autant que la population totale de l’Arizona, de l’Arkansas, de l’Oklahoma et de l’Iowa réunis. Nous avions aussi un million d’enfants de moins de cinq ans sous-comptés dans le recensement de 2010.

Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.

Sous-compter des minorités est commun dans les recensements nationaux, puisque les minorités sont plus difficiles à atteindre, elles sont méfiantes envers le gouvernement ou vivent dans des endroits avec une agitation politique.

For example, the Australian Census in 2016 undercounted Aboriginals and Torres Strait populations by about 17.5 percent. We estimate undercounting in 2020 to be much higher than 2010, and the implications of this bias can be massive.

Par exemple, le recensement australien de 2016 a sous-compté les populations les aborigènes et celles du détroit de Torres de près de 17.5%. Nous estimons que le sous-comptage en 2020 a été plus fort qu’en 2010, et les implications de ce biais peut être massif.

Let's look at the implications of the census data. Census is the most trusted, open and publicly available rich data on population composition and characteristics. While businesses have proprietary information on consumers, the Census Bureau reports definitive, public counts on age, gender, ethnicity, race, employment, family status, as well as geographic distribution, which are the foundation of the population data infrastructure. When minorities are undercounted, AI models supporting public transportation, housing, health care, insurance are likely to overlook the communities that require these services the most.

Regardons les implications des données de recensement. Le recensement est la donnée la plus fiable, ouverte, disponible et complète sur la composition et les caractéristiques de la population. Tandis que les entreprises ont des informations exclusives sur les clients, le Bureau de Recensement fait des comptes publics et définitifs sur l’âge, le genre, l’ethnicité, la race, l’emploi, le statut familial, ou la distribution géographique, qui sont les bases de l’infrastructure de données de la population. Quand les minorités sont sous-comptées, les modèles d’IA qui prennent en charge les transports publics, le logement, les soins de santé, l’assurance, sont susceptibles d’oublier les communautés qui en ont le plus besoin.

First step to improving results is to make that database representative of age, gender, ethnicity and race per census data. Since census is so important, we have to make every effort to count 100 percent. Investing in this data quality and accuracy is essential to making AI possible, not for only few and privileged, but for everyone in the society.

La première étape pour améliorer les résultats est de rendre la base de données représentative des âges, genres, ethnicités et races par données de recensement. Puisque que le recensement est important, nous devons faire des efforts pour compter à 100%. Investir dans cette qualité et cette précision de donnée est essentielle pour rendre l’IA possible, pas seulement pour quelques privilégiés mais pour toute la société.

Most AI systems use the data that's already available or collected for some other purposes because it's convenient and cheap. Yet data quality is a discipline that requires commitment -- real commitment. This attention to the definition, data collection and measurement of the bias, is not only underappreciated -- in the world of speed, scale and convenience, it's often ignored.

La plupart des systèmes d’IA utilisent les données déjà disponibles ou récoltées pour d’autres objectifs car c’est pratique et peu cher. Mais la qualité des données demande beaucoup d’engagement -- d’engagement réel. L’attention à la définition la collecte de données n’est pas seulement sous-estimée -- dans un monde de vitesse, d’échelle et de praticité, elle est souvent ignorée.

As part of Nielsen data science team, I went to field visits to collect data, visiting retail stores outside Shanghai and Bangalore. The goal of that visit was to measure retail sales from those stores. We drove miles outside the city, found these small stores -- informal, hard to reach. And you may be wondering -- why are we interested in these specific stores? We could have selected a store in the city where the electronic data could be easily integrated into a data pipeline -- cheap, convenient and easy. Why are we so obsessed with the quality and accuracy of the data from these stores? The answer is simple: because the data from these rural stores matter. According to the International Labour Organization, 40 percent Chinese and 65 percent of Indians live in rural areas. Imagine the bias in decision when 65 percent of consumption in India is excluded in models, meaning the decision will favor the urban over the rural.

Je suis membre de l’équipe d’étude des données Nielsen. J’ai fait des visites de terrain de collecte de données, et visité des points de vente en-dehors de Shanghai et Bangalore. Le but de cette visite était de mesurer les ventes au détail dans ces magasins. Nous avons conduit loin en-dehors de la ville, et trouvé ces petits magasins -- informels, difficile à atteindre.. Et vous devez vous demander -- pourquoi s’intéresse-t-il à ces magasins spécifiques ? Nous aurions pu choisir des magasins urbains où les données électroniques pouvaient être facilement intégrées dans une base -- pas cher, pratique et facile. Pourquoi sommes-nous si obsédés par la qualité et la précision des données de ces magasins ? La réponse est simple : car les données de ces magasins ruraux ont de l’importance. Selon l’Organisation Mondiale du Travail, 40% des Chinois et 65% des Indiens vivent dans des zones rurales. Imaginez les biais décisionnels quand 65% de la consommation de l’Inde est exclue des modèles, ce qui signifie que la décision favorisera l’urbain par rapport au rural.

Without this rural-urban context and signals on livelihood, lifestyle, economy and values, retail brands will make wrong investments on pricing, advertising and marketing. Or the urban bias will lead to wrong rural policy decisions with regards to health and other investments. Wrong decisions are not the problem with the AI algorithm. It's a problem of the data that excludes areas intended to be measured in the first place. The data in the context is a priority, not the algorithms.

Sans ce contexte rural-urbain et des signaux sur les moyens de subsistance, le mode de vie, l’économie et les valeurs, les marques de détail feraient de mauvais investissements sur les prix, la publicité et le marketing. Le biais urbain mènera à de mauvaises décisions politiques sur le rural dans la santé ou pour d’autres investissements. Les mauvaises décisions ne sont pas le problème avec les algorithmes d’AI. C’est le problème des données qui excluent des zones qu’on voulait mesure au départ. La donnée dans son contexte est une priorité, pas l’algorithme.

Let's look at another example. I visited these remote, trailer park homes in Oregon state and New York City apartments to invite these homes to participate in Nielsen panels. Panels are statistically representative samples of homes that we invite to participate in the measurement over a period of time. Our mission to include everybody in the measurement led us to collect data from these Hispanic and African homes who use over-the-air TV reception to an antenna. Per Nielsen data, these homes constitute 15 percent of US households, which is about 45 million people. Commitment and focus on quality means we made every effort to collect information from these 15 percent, hard-to-reach groups.

Prenons un autre exemple. J’ai visité ces maisons isolées de camping dans l’état de l’Oregon et des appartements à New York pour inviter les foyers à participer aux panels Nielsen. Les panels sont des échantillons statistiquement représentatifs des foyers que nous invitons à participer à la mesure sur une période temporelle donnée. Notre mission d’inclure tout le monde dans la mesure nous a entraîné à récolter des données sur des foyers hispaniques et africains qui captent la télévision avec une antenne. Selon les données Nielsen, ces foyers constituent 15% des foyers américains, ce qui représente 45 millions de personnes. L’engagement et le focus sur la qualité signifie que nous faisons tous les efforts pour récolter l’information de ces 15% de groupes difficiles à atteindre.

Why does it matter? This is a sizeable group that's very, very important to the marketers, brands, as well as the media companies. Without the data, the marketers and brands and their models would not be able to reach these folks, as well as show ads to these very, very important minority populations. And without the ad revenue, the broadcasters such as Telemundo or Univision, would not be able to deliver free content, including news media, which is so foundational to our democracy.

Pourquoi cela compte-t-il ? C’est un groupe mesurable qui est très, très important pour les marques, les commerciaux et les entreprises de média. Sans ces données, les commerciaux, les marques et leurs modèles ne seraient pas capables d’atteindre ces gens, tout comme les publicités ne toucheraient pas ces minorités très importantes. Et sans le revenu publicitaire, les diffuseurs comme Telemundo ou Univision, ne seraient pas capable d’offrir du contenu gratuit, comme les programmes d’information, qui sont fondamentaux pour notre démocratie.

This data is essential for businesses and society. Our once-in-a-lifetime opportunity to reduce human bias in AI starts with the data. Instead of racing to build new algorithms, my mission is to build a better data infrastructure that makes ethical AI possible. I hope you will join me in my mission as well.

Ces données sont essentielles pour les entreprises et la société. Notre opportunité unique de réduire les biais humains dans l’IA commence par les données. Au lieu de se dépêcher de créer de nouveaux algorithmes, ma mission est de créer une meilleure infrastructure de données, qui rend possible une IA éthique. J’espère que vous rejoindrez également ma mission.

Thank you.

Merci.

This research is academic, however, not all data biases are academic. Biases have real consequences.

La recherche est académique, mais tous les biais ne sont pas académiques. Les biais ont de réelles conséquences.

Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.

Thank you.

Merci.

Mainak Mazumdar: How bad data keeps us from good AI

Mainak Mazumdar: How bad data keeps us from good AI

Related talks

Genevieve Bell: 6 big ethical questions about the future of AI

Jamila Gordon: How AI can help shatter barriers to equality

David J. Malan: What's an algorithm?

Tom Gruber: How AI can enhance our memory, work and social lives

Kai-Fu Lee: How AI can save our humanity

Kevin Kelly: How AI can bring on a second Industrial Revolution

Related talks

Genevieve Bell: 6 big ethical questions about the future of AI

Jamila Gordon: How AI can help shatter barriers to equality

David J. Malan: What's an algorithm?

Tom Gruber: How AI can enhance our memory, work and social lives

Kai-Fu Lee: How AI can save our humanity

Kevin Kelly: How AI can bring on a second Industrial Revolution