Mainak Mazumdar: How bad data keeps us from good AI

AI could add 16 trillion dollars to the global economy in the next 10 years. This economy is not going to be built by billions of people or millions of factories, but by computers and algorithms. We have already seen amazing benefits of AI in simplifying tasks, bringing efficiencies and improving our lives. However, when it comes to fair and equitable policy decision-making, AI has not lived up to its promise. AI is becoming a gatekeeper to the economy, deciding who gets a job and who gets an access to a loan. AI is only reinforcing and accelerating our bias at speed and scale with societal implications. So, is AI failing us? Are we designing these algorithms to deliver biased and wrong decisions?

La IA podría añadir USD 16 billones a la economía global en los próximos 10 años. Esta economía no va a estar compuesta por miles de millones de personas o millones de empresas sino por computadoras y algoritmos. Ya hemos visto los beneficios increíbles de la IA en la simplificación de tareas aportando eficiencia y mejorando nuestras vidas. Sin embargo, cuando se trata de tomar decisiones políticas justas y equitativas, la IA no ha cumplido su promesa. La IA se está convirtiendo en un guardián de la economía, decidiendo quien obtiene trabajo y quien obtiene acceso a un préstamo. La IA solo está reforzando y acelerando nuestro sesgo a velocidad y escala con implicaciones sociales. Entonces, ¿la IA nos está fallando? ¿Estamos diseñando estos algoritmos para que aporten opciones sesgadas y erróneas?

As a data scientist, I'm here to tell you, it's not the algorithm, but the biased data that's responsible for these decisions. To make AI possible for humanity and society, we need an urgent reset. Instead of algorithms, we need to focus on the data. We're spending time and money to scale AI at the expense of designing and collecting high-quality and contextual data. We need to stop the data, or the biased data that we already have, and focus on three things: data infrastructure, data quality and data literacy.

Como científico de datos, estoy aquí para decirles, no es el algoritmo, sino los datos erróneos que son los responsables de estas decisiones. Para que la IA sea posible para la humanidad y la sociedad, necesitamos un reinicio urgente. En lugar de los algoritmos, necesitamos enfocarnos en los datos. Estamos gastando tiempo y dinero para ampliar la IA para diseñar y recopilar datos de alta calidad y contextualizados. Necesitamos detener los datos, o los datos erróneos que ya tenemos, y enfocarnos en tres cosas: infraestructura de datos, calidad de datos y alfabetización de datos.

In June of this year, we saw embarrassing bias in the Duke University AI model called PULSE, which enhanced a blurry image into a recognizable photograph of a person. This algorithm incorrectly enhanced a nonwhite image into a Caucasian image. African-American images were underrepresented in the training set, leading to wrong decisions and predictions. Probably this is not the first time you have seen an AI misidentify a Black person's image. Despite an improved AI methodology, the underrepresentation of racial and ethnic populations still left us with biased results.

En junio de este año, vimos un sesgo vergonzoso en el modelo de IA de la Universidad de Duke denominado PULSE, el cual mejora una imagen borrosa en una fotografía reconocible de una persona. Este algoritmo mejoró incorrectamente una imagen no blanca en una imagen caucásica. Las imágenes afroamericanas estaban poco representadas en el set de entrenamiento, lo que conducía a decisiones y predicciones erróneas. Probablemente, no es la primera vez que ves a la IA identificar erróneamente la imagen de una persona negra. A pesar de una metodología de IA mejorada, la baja representación de las poblaciones raciales y étnicas nos aporta resultados sesgados.

This research is academic, however, not all data biases are academic. Biases have real consequences.

Esta investigación es académica, sin embargo, no todos los datos erróneos son académicos. Los prejuicios tienen consecuencias reales.

Take the 2020 US Census. The census is the foundation for many social and economic policy decisions, therefore the census is required to count 100 percent of the population in the United States. However, with the pandemic and the politics of the citizenship question, undercounting of minorities is a real possibility. I expect significant undercounting of minority groups who are hard to locate, contact, persuade and interview for the census. Undercounting will introduce bias and erode the quality of our data infrastructure.

Tomemos el censo de Estados Unidos del 2020 El censo es la base para muchas decisiones de política sociales y económicas, por lo tanto el censo debe contar con el 100 % de la población de Estados Unidos. Sin embargo, con la pandemia y la política de la cuestión de la ciudadanía, el mal conteo de las minorías es una posibilidad real. Espero un mal conteo de los grupos minoritarios quienes son difíciles de localizar, contactar, persuadir y entrevistar. El conteo erróneo introducirá un sesgo y perjudicará la calidad de nuestra infraestructura de datos.

Let's look at undercounts in the 2010 census. 16 million people were omitted in the final counts. This is as large as the total population of Arizona, Arkansas, Oklahoma and Iowa put together for that year. We have also seen about a million kids under the age of five undercounted in the 2010 Census.

Observemos el conteo erróneo del censo de 2010. 16 millones de personas fueron omitidas en el conteo final. Es tan grande como la población total de Arizona, Arkansas, Oklahoma e Iowa juntos ese año. También hemos visto cerca de un millón de niños menores de 5 años sin contar en el censo de 2010.

Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.

Ahora, el mal conteo de las minorías es normal en otros censos nacionales, ya que las minorías pueden ser más difíciles de alcanzar, desconfían del gobierno o viven en zonas bajo disturbios políticos.

For example, the Australian Census in 2016 undercounted Aboriginals and Torres Strait populations by about 17.5 percent. We estimate undercounting in 2020 to be much higher than 2010, and the implications of this bias can be massive.

Por ejemplo, el censo de Australia de 2016 subestimo el recuento de la población aborigen y de los Estrechos de Torres en un 17.5% aproximadamente. Estimamos que el conteo erróneo de 2020 sea mucho más alto que en 2010, y las implicaciones de este sesgo pueden ser enormes.

Let's look at the implications of the census data. Census is the most trusted, open and publicly available rich data on population composition and characteristics. While businesses have proprietary information on consumers, the Census Bureau reports definitive, public counts on age, gender, ethnicity, race, employment, family status, as well as geographic distribution, which are the foundation of the population data infrastructure. When minorities are undercounted, AI models supporting public transportation, housing, health care, insurance are likely to overlook the communities that require these services the most.

Observemos a las implicaciones de los datos del censo. El censo es el dato más confiable, abierto y disponible públicamente sobre la composición y características de la población. Mientras que las empresas poseen información privada de los consumidores, la Oficina del Censo presenta recuentos definitivos y públicos sobre la edad, el género, la etnicidad, la raza, el empleo, situación familiar, como también la distribución geográfica, los cuales son las bases de la infraestructura de datos de la población. Cuando las minorías son infravaloradas, Los modelos IA que apoyan al transporte público, vivienda, atención sanitaria, seguros probablemente pasen por alto a las comunidades que más necesitan estos servicios.

First step to improving results is to make that database representative of age, gender, ethnicity and race per census data. Since census is so important, we have to make every effort to count 100 percent. Investing in this data quality and accuracy is essential to making AI possible, not for only few and privileged, but for everyone in the society.

El primer paso para mejorar los resultados es hacer que esa base de datos sea representativa de la edad, género, etnia y raza según los datos del censo. Desde que el censo es tan importante, tenemos que hacer el esfuerzo para contar al 100 %. Invertir en la calidad y precisión de estos datos es esencial para que la IA sea accesible, no solo para unos pocos y privilegiados, sino para todos los miembros de la sociedad.

Most AI systems use the data that's already available or collected for some other purposes because it's convenient and cheap. Yet data quality is a discipline that requires commitment -- real commitment. This attention to the definition, data collection and measurement of the bias, is not only underappreciated -- in the world of speed, scale and convenience, it's often ignored.

La mayoría de los sistemas IA utilizan los datos que ya están disponibles o recolectados para otros propósitos porque es conveniente y económico. Sin embargo, la calidad de los datos es una disciplina que requiere compromiso compromiso real. Esta atención a la definición, colección de datos y medición del sesgo, no solo está infravalorada... en el mundo de la velocidad, escala y conveniencia, a menudo es ignorado.

As part of Nielsen data science team, I went to field visits to collect data, visiting retail stores outside Shanghai and Bangalore. The goal of that visit was to measure retail sales from those stores. We drove miles outside the city, found these small stores -- informal, hard to reach. And you may be wondering -- why are we interested in these specific stores? We could have selected a store in the city where the electronic data could be easily integrated into a data pipeline -- cheap, convenient and easy. Why are we so obsessed with the quality and accuracy of the data from these stores? The answer is simple: because the data from these rural stores matter. According to the International Labour Organization, 40 percent Chinese and 65 percent of Indians live in rural areas. Imagine the bias in decision when 65 percent of consumption in India is excluded in models, meaning the decision will favor the urban over the rural.

Como parte del equipo de ciencia de los datos de Nielsen, fui a las visitas de campo para recoger datos, visitando tiendas minoristas fuera de Shanghái y Bangalore. El objetivo de esa visita era medir las ventas al por menor de esas tiendas. Viajamos kilómetros fuera de la ciudad, encontramos estas pequeñas tiendas... informales, difíciles de llegar. Y se deben estar preguntando... ¿Por qué estamos interesados en estas tiendas especificas? Podríamos haber elegido una tienda en la ciudad donde los datos electrónicos podrían integrarse fácilmente en una red de datos económico, conveniente y rápido. ¿Por qué estamos tan obsesionados con la calidad y la precisión de los datos de estas tiendas? La respuesta es simple: porque los datos de estas tiendas rurales son importantes. De acuerdo a la Organización Internacional del Trabajo, 40 % de chinos y 65 % de indios viven en zonas rurales. Imaginen el sesgo de la decisión cuando el 65 % del consumo en India se excluye en los modelos, lo que significa que la decisión favorecerá lo urbano sobre la rural.

Without this rural-urban context and signals on livelihood, lifestyle, economy and values, retail brands will make wrong investments on pricing, advertising and marketing. Or the urban bias will lead to wrong rural policy decisions with regards to health and other investments. Wrong decisions are not the problem with the AI algorithm. It's a problem of the data that excludes areas intended to be measured in the first place. The data in the context is a priority, not the algorithms.

Sin este contexto rural-urbano y señales sobre los medios de vida, estilo de vida, economía y valores las marcas minoristas harán inversiones erróneas en precios, anuncios y marketing. O el sesgo urbano llevará a decisiones políticas rurales erróneas con respecto a la salud y otras inversiones. Las decisiones erróneas no son el problema con el algoritmo de IA. El problemas son los datos que excluyen las zonas previstas para ser medidas en primer lugar. Los datos en el contexto son una prioridad, no los algoritmos.

Let's look at another example. I visited these remote, trailer park homes in Oregon state and New York City apartments to invite these homes to participate in Nielsen panels. Panels are statistically representative samples of homes that we invite to participate in the measurement over a period of time. Our mission to include everybody in the measurement led us to collect data from these Hispanic and African homes who use over-the-air TV reception to an antenna. Per Nielsen data, these homes constitute 15 percent of US households, which is about 45 million people. Commitment and focus on quality means we made every effort to collect information from these 15 percent, hard-to-reach groups.

Observemos otro ejemplo. Visité estas remotas casas de remolque en el estado de Oregón y estos apartamentos en Nueva York para invitarlos a participar en los paneles de Nielsen. Los paneles son muestras estadísticamente representativas de hogares que invitamos a participar en la medición durante un periodo de tiempo. Nuestra misión de incluir a todos en la medición nos lleva a colectar datos de estos hogares hispanos y africanos que utilizan la recepción de TV de aire a una antena. Según los datos de Nielsen, estos hogares constituyen el 15 % de las viviendas de EE. UU., que son unos 45 millones de personas. El compromiso y enfoque en la calidad significa que hicimos todo el esfuerzo para colectar información de este 15 % de grupos de difícil acceso.

Why does it matter? This is a sizeable group that's very, very important to the marketers, brands, as well as the media companies. Without the data, the marketers and brands and their models would not be able to reach these folks, as well as show ads to these very, very important minority populations. And without the ad revenue, the broadcasters such as Telemundo or Univision, would not be able to deliver free content, including news media, which is so foundational to our democracy.

¿Por qué es importante? Se trata de un grupo considerable que es muy muy importante para los comerciantes, marcas, como también para los medios de comunicación. Sin los datos, los comerciantes, las marcas y sus modelos no podrían llegar a esta gente, como tampoco mostrar anuncios a estas poblaciones minoritarias tan importantes. Y sin los ingresos publicitarios, las emisoras como Telemundo o Univisión, no podrían ofrecer contenido gratuitos, incluidos los medios de comunicación, que son tan fundamentales para nuestra democracia.

This data is essential for businesses and society. Our once-in-a-lifetime opportunity to reduce human bias in AI starts with the data. Instead of racing to build new algorithms, my mission is to build a better data infrastructure that makes ethical AI possible. I hope you will join me in my mission as well.

Estos datos son esenciales para los negocios y la sociedad. Nuestra única chance en la vida para reducir el sesgo humano en la IA comienza con los datos. En lugar de correr para construir nuevos algoritmos, mi misión es construir una mejor infraestructura de datos que haga posible una IA ética. Espero que también se unan a mi misión.

Thank you.

Gracias.

This research is academic, however, not all data biases are academic. Biases have real consequences.

Esta investigación es académica, sin embargo, no todos los datos erróneos son académicos. Los prejuicios tienen consecuencias reales.

Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.

Thank you.

Gracias.

Mainak Mazumdar: How bad data keeps us from good AI

Mainak Mazumdar: How bad data keeps us from good AI

Related talks

Genevieve Bell: 6 big ethical questions about the future of AI

Jamila Gordon: How AI can help shatter barriers to equality

David J. Malan: What's an algorithm?

Tom Gruber: How AI can enhance our memory, work and social lives

Kai-Fu Lee: How AI can save our humanity

Kevin Kelly: How AI can bring on a second Industrial Revolution

Related talks

Genevieve Bell: 6 big ethical questions about the future of AI

Jamila Gordon: How AI can help shatter barriers to equality

David J. Malan: What's an algorithm?

Tom Gruber: How AI can enhance our memory, work and social lives

Kai-Fu Lee: How AI can save our humanity

Kevin Kelly: How AI can bring on a second Industrial Revolution