Mainak Mazumdar: How bad data keeps us from good AI

AI could add 16 trillion dollars to the global economy in the next 10 years. This economy is not going to be built by billions of people or millions of factories, but by computers and algorithms. We have already seen amazing benefits of AI in simplifying tasks, bringing efficiencies and improving our lives. However, when it comes to fair and equitable policy decision-making, AI has not lived up to its promise. AI is becoming a gatekeeper to the economy, deciding who gets a job and who gets an access to a loan. AI is only reinforcing and accelerating our bias at speed and scale with societal implications. So, is AI failing us? Are we designing these algorithms to deliver biased and wrong decisions?

AI có thể sẽ đóng góp 16 tỉ đô la cho nền kinh tế toàn cầu trong 10 năm tới. Nền kinh tế này sẽ không được xây dựng bởi hàng tỉ người, hay hàng triệu nhà máy, mà bởi máy tính và thuật toán. Chúng ta đã thấy những lợi ích tuyệt vời của AI trong việc đơn giản hóa các nhiệm vụ, mang lại hiệu quả cao, và cải thiện đời sống của chúng ta. Tuy nhiên, khi nói đến công bằng và chính sách ra quyết định công bằng, AI đã không thực hiện đúng lời hứa của nó. AI trở thành người gác đền của nền kinh tế quyết định ai sẽ nhận được công việc và ai sẽ được vay. AI chỉ củng cố và tăng sự thiên kiến của chúng ở tốc độ và quy mô với các công tác xã hội. Vậy có phải AI đang làm chúng ta thất vọng? Chúng ta có đang thiết kế những thuật toán để đưa ra những quyết định thiên vị và sai lầm?

As a data scientist, I'm here to tell you, it's not the algorithm, but the biased data that's responsible for these decisions. To make AI possible for humanity and society, we need an urgent reset. Instead of algorithms, we need to focus on the data. We're spending time and money to scale AI at the expense of designing and collecting high-quality and contextual data. We need to stop the data, or the biased data that we already have, and focus on three things: data infrastructure, data quality and data literacy.

Là một nhà khoa học dữ liệu, tôi ở đây để nói với bạn, nó không phải thuật toán, nhưng dữ liệu có tính thiên kiến chịu trách nhiệm cho những quyết định. Để làm AI khả thi với con người và xã hội, chúng ta cần khẩn cấp thiết lập lại. Thay vì những thuật toán, chúng ta cần tập trung vào dữ liệu. Chúng ta đang dành thời gian và tiền bạc để mở rộng quy mô AI về chi phí thiết kế, thu thập nguồn dữ liệu chất lượng cao. Chúng ta cần ngừng dữ liệu, hay dữ liệu thiên kiến mà chúng ta có, và tập trung vào ba thứ: cơ sở hạ tầng dữ liệu, chất lượng dữ liệu, và hiểu biết dữ liệu.

In June of this year, we saw embarrassing bias in the Duke University AI model called PULSE, which enhanced a blurry image into a recognizable photograph of a person. This algorithm incorrectly enhanced a nonwhite image into a Caucasian image. African-American images were underrepresented in the training set, leading to wrong decisions and predictions. Probably this is not the first time you have seen an AI misidentify a Black person's image. Despite an improved AI methodology, the underrepresentation of racial and ethnic populations still left us with biased results.

Trong tháng sáu năm nay, chúng ta đã thấy sự thiên kiến đáng xấu hổ trong mô hình AI của đại học Duke tên PULSE, nó đã biến một bức ảnh mờ thành bức ảnh của một người và ta có thể dễ dàng nhận diện. Thuật toán này đã được xây dựng không đúng từ hình ảnh của một người da màu thành hình ảnh của một người da trắng. Hình ảnh người Mỹ gốc Phi không được mô tả đúng mức trong dữ liệu đào tạo, dẫn đến quyết định và dự đoán sai lầm. Có lẽ đó không phải là lần đầu tiên bạn thấy AI nhận định sai hình ảnh của một người da đen. Mặc dù có một số phương pháp để cải tiến AI nhưng việc mô tả chưa đúng về chủng tộc vẫn sẽ để lại cho ta một kết quả mang tính thiên kiến.

This research is academic, however, not all data biases are academic. Biases have real consequences.

Nghiên cứu này mang tính học thuật, tuy nhiên, không phải tất cả dữ liệu thiên kiến đều mang tính học thuật. Những thiên kiến thực sự gây ra nhiều hậu quả.

Take the 2020 US Census. The census is the foundation for many social and economic policy decisions, therefore the census is required to count 100 percent of the population in the United States. However, with the pandemic and the politics of the citizenship question, undercounting of minorities is a real possibility. I expect significant undercounting of minority groups who are hard to locate, contact, persuade and interview for the census. Undercounting will introduce bias and erode the quality of our data infrastructure.

Ví dụ cuộc điều tra dân số Hoa Kỳ năm 2020. Điều tra dân số là nền tảng cho sự quyết định chính sách về xã hội và kinh tế. Vì vậy điều tra dân số được yêu cầu tính 100% dân số ở Hoa Kỳ. Tuy nhiên, dịch bệnh và những vấn đề chính trị về quyền công dân, bỏ sót các dân tộc thiểu số là một khả năng có thể xảy ra. Tôi cho rằng việc bỏ sót các dân tộc thiểu số là đáng kể, những dân tộc mà khó để xác định ví trí, liên lạc, thuyết phục hay phỏng vấn họ cho cuộc điều tra dân số. Bỏ sót sẽ dẫn đến sai lệch và làm giảm chất lượng cơ sở hạ tầng dữ liệu của chúng ta.

Let's look at undercounts in the 2010 census. 16 million people were omitted in the final counts. This is as large as the total population of Arizona, Arkansas, Oklahoma and Iowa put together for that year. We have also seen about a million kids under the age of five undercounted in the 2010 Census.

Hãy nhìn sự bỏ sót của cuộc điều tra dân số năm 2010. 16 triệu người đã bị bỏ sót trong lần tính cuối cùng. Nó bằng tổng dân số của 3 bang Arizona, Arkansas, Oklahoma gộp lại. Chúng ta cũng thấy hàng triệu đứa trẻ dưới năm tuổi bị bỏ sót trong cuộc điều tra dân số năm 2010.

Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.

Ngày này, việc bỏ sót các dân tộc thiểu số là điều phổ biến trong các cuộc điều tra dân số, vì dân tộc thiểu số khó tiếp cận hơn, họ không tin tưởng vào chính phủ, hay họ sống ở khu vực bất ổn chính trị.

For example, the Australian Census in 2016 undercounted Aboriginals and Torres Strait populations by about 17.5 percent. We estimate undercounting in 2020 to be much higher than 2010, and the implications of this bias can be massive.

Ví dụ, cuộc điều tra dân số ở Úc năm 2016, dân số Aboriginals và Torres bị bỏ sót chiếm khoảng 17.5%. Chúng ta ước tính sự bỏ sót năm 2020 sẽ cao hơn rất nhiều so với năm 2010, và tác động của sự thiên tính này sẽ rất lớn.

Let's look at the implications of the census data. Census is the most trusted, open and publicly available rich data on population composition and characteristics. While businesses have proprietary information on consumers, the Census Bureau reports definitive, public counts on age, gender, ethnicity, race, employment, family status, as well as geographic distribution, which are the foundation of the population data infrastructure. When minorities are undercounted, AI models supporting public transportation, housing, health care, insurance are likely to overlook the communities that require these services the most.

Hãy nhìn vào tác động của dữ liệu của cuộc điều tra dân số. Điều tra dân số là nguồn dữ liệu đáng tin cậy nhất với những số liệu phong phú và công khai về thành phần và các đặc điểm của dân số. Trong khi đó các doanh nghiệp có thông tin độc quyền của khách hàng, Cục điều tra dân số báo cáo số lượng công khai, chính xác về tuổi, giới tính, dân tộc chủng tộc, việc làm, tình trạng gia đình cũng như phân bố địa lý, tất cả những điều trên là nền tảng cho cơ sở hạ tầng dữ liệu về dân số. Khi các dân tộc thiểu số bị bỏ sót, mô hình AI hỗ trợ phương tiện công cộng, nhà ở, chăm sóc sức khỏe, bảo hiểm có khả năng bỏ sẽ qua các cộng đồng cần những dịch vụ này nhất.

First step to improving results is to make that database representative of age, gender, ethnicity and race per census data. Since census is so important, we have to make every effort to count 100 percent. Investing in this data quality and accuracy is essential to making AI possible, not for only few and privileged, but for everyone in the society.

Bước đầu tiên để cải thiện kết quả là làm cho cơ sở dữ liệu thể hiện được tuổi, giới tính, dân tộc và chủng tộc theo dữ liệu của cuộc điều tra dân số. Do điều tra dân số rất quan trọng, chúng ta cần phải nỗ lực để tính được 100% dân số. Đầu tư vào chất lượng và độ chính xác của dữ liệu là quan trọng để thực hiện hóa mô hình AI, không chỉ cho một số ít người mà là cho mọi người trong xã hội.

Most AI systems use the data that's already available or collected for some other purposes because it's convenient and cheap. Yet data quality is a discipline that requires commitment -- real commitment. This attention to the definition, data collection and measurement of the bias, is not only underappreciated -- in the world of speed, scale and convenience, it's often ignored.

Hầu hết các hệ thống AI sử dụng dữ liệu có sẵn hoặc được thu thập cho những mục đích khác bởi vì nó tiện và ít tốn chi phí. Tuy nhiên, chất lượng dữ liệu là nguyên tắc đòi hỏi sự cam kết-- một sự cam kết thực sự. Điều này làm ta chú ý đến định nghĩa, thu thập dữ liệu và tính toán thiên kiến, không chỉ bị đánh giá thấp trong một thế giới của tốc độ, quy mô và sự tiện lợi, mà nó còn thường bị bỏ qua.

As part of Nielsen data science team, I went to field visits to collect data, visiting retail stores outside Shanghai and Bangalore. The goal of that visit was to measure retail sales from those stores. We drove miles outside the city, found these small stores -- informal, hard to reach. And you may be wondering -- why are we interested in these specific stores? We could have selected a store in the city where the electronic data could be easily integrated into a data pipeline -- cheap, convenient and easy. Why are we so obsessed with the quality and accuracy of the data from these stores? The answer is simple: because the data from these rural stores matter. According to the International Labour Organization, 40 percent Chinese and 65 percent of Indians live in rural areas. Imagine the bias in decision when 65 percent of consumption in India is excluded in models, meaning the decision will favor the urban over the rural.

Là một phần của đội khoa học dữ liệu Nielsen, tôi đã đi khảo sát thực tế để thu thập dữ liệu, đến các cửa hàng bán lẻ ở ngoại ô Thượng Hải và Bangalore. Mục đích của chuyến đi là đo lường doanh số bán lẻ của các cửa hàng đó. Chúng tôi đã lái xe hàng dặm ở ngoại ô, tìm những cửa hàng nhỏ không chính thức và khó để tiếp cận. Và có thể bạn sẽ tự hỏi tại sao chúng tôi lại quan tâm tới những cửa hàng cụ thể như vậy? Chúng tôi có thể chọn những cửa hàng ở nội đô, nơi mà dữ liệu điện tử có thể dễ dàng nhập vào đường dẫn dữ liệu rẻ, tiện lợi và dễ dàng. Tại sao chúng tôi bị ám ảnh bởi chất lượng và độ chính xác của dữ liệu từ những cửa hàng này? Câu trả lời đơn giản là: bởi vì dữ liệu từ những cửa hàng nông thôn này rất quan trọng. Theo Tổ chức Lao động Quốc tế, 40% người Trung Quốc và 65% người Ấn Độ sống ở khu vực nông thôn. Hãy tưởng tượng sự thiên kiến trong quyết định khi 65% lượng tiêu thụ ở Ấn Độ không được tính trong mô hình, điều đó có nghĩa khi đưa ra quyết định, sẽ có lợi cho thành thị hơn là nông thôn.

Without this rural-urban context and signals on livelihood, lifestyle, economy and values, retail brands will make wrong investments on pricing, advertising and marketing. Or the urban bias will lead to wrong rural policy decisions with regards to health and other investments. Wrong decisions are not the problem with the AI algorithm. It's a problem of the data that excludes areas intended to be measured in the first place. The data in the context is a priority, not the algorithms.

Không có bối cảnh nông thôn - thành thị sai lầm trong việc và các tín hiệu về sinh kế, cách sống, kinh tế và trị giá, các thương hiệu bán lẻ sẽ đầu tư sai về giá cả, quảng cáo và tiếp thị. Hay sự thiên kiến về thành thị sẽ dẫn đến sai lầm trong việc đưa ra các chính sách cho khu vực nông thôn liên quan đến sức khỏe hay các khoản đầu tư khác. Quyết định sai lầm không phải lỗi do thuật toán AI. Nó thuộc về dữ liệu, dữ liệu đã bỏ qua các khu vực dự định được đo lường ngay từ ban đầu. Dữ liệu trong các bối cảnh là ưu tiên hàng đầu, không phải thuật toán.

Let's look at another example. I visited these remote, trailer park homes in Oregon state and New York City apartments to invite these homes to participate in Nielsen panels. Panels are statistically representative samples of homes that we invite to participate in the measurement over a period of time. Our mission to include everybody in the measurement led us to collect data from these Hispanic and African homes who use over-the-air TV reception to an antenna. Per Nielsen data, these homes constitute 15 percent of US households, which is about 45 million people. Commitment and focus on quality means we made every effort to collect information from these 15 percent, hard-to-reach groups.

Hãy nhìn một ví dụ khác. Tôi đã đến các vùng xa xôi này, các ngôi nhà di động ở bang Oregon và các căn hộ ở thành phố New York để mời mọi người tham gia bảng khảo sát Nielsen. Nó thống kê các hộ gia đình mà chúng tôi mời tham gia đo lường trong một khoảng thời gian. Nhiệm vụ của chúng tôi bao gồm mọi người trong cuộc đo lường này là thu thập dữ liệu từ các hộ gia đình người gốc Tây Ban Nha và gốc Phi sử dụng ăng-ten truyền hình. Theo dữ liệu Nielsen, những hộ gia đình này chiếm 15% trên tổng số hộ gia đình ở Hoa Kỳ, khoảng 45 triệu người. Cam kết và tập trung vào chất lượng có nghĩa là chúng tôi sẽ nỗ lực để thu thập dữ liệu từ 15% này - nhóm đối tượng khó tiếp cận.

Why does it matter? This is a sizeable group that's very, very important to the marketers, brands, as well as the media companies. Without the data, the marketers and brands and their models would not be able to reach these folks, as well as show ads to these very, very important minority populations. And without the ad revenue, the broadcasters such as Telemundo or Univision, would not be able to deliver free content, including news media, which is so foundational to our democracy.

Tại sao nó quan trọng? Đây là một nhóm khá lớn, nó rất quan trọng đối với nhà tiếp thị, nhãn hàng, cũng như các công ty giải trí. Nếu không có dữ liệu, các nhãn hàng và mô hình của họ sẽ không thể tiếp cận tới nhóm đối tượng này, cũng như việc chạy quảng cáo cho nhóm đối tượng thiểu số rất quan trọng này. Và nếu không có doanh thu quảng cáo, các đài truyền hình như Telemundo hay Univision, sẽ không thể phát sóng các nội dung miễn phí, bao gồm các phương tiện truyền thông mới-- nền tảng của nền dân chủ chúng ta.

This data is essential for businesses and society. Our once-in-a-lifetime opportunity to reduce human bias in AI starts with the data. Instead of racing to build new algorithms, my mission is to build a better data infrastructure that makes ethical AI possible. I hope you will join me in my mission as well.

Dữ liệu này cũng cần thiết đối với doanh nghiệp và xã hội. Cách tốt nhất để giảm thiểu sự thiên kiến của AI hãy bắt đầu với dữ liệu. Thay vì chạy đua để xây dựng những thuật toán mới, nhiệm vụ của tôi là xây dựng một cơ sở hạ tầng dữ liệu tốt hơn để AI có thể cân nhắc các yếu tố đạo đức. Tôi hi vọng bạn sẽ cùng tham gia với tôi trong nhiệm vụ này.

Thank you.

Xin cảm ơn.

This research is academic, however, not all data biases are academic. Biases have real consequences.

Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.

Thank you.

Xin cảm ơn.

Mainak Mazumdar: How bad data keeps us from good AI

Mainak Mazumdar: How bad data keeps us from good AI

Related talks

Genevieve Bell: 6 big ethical questions about the future of AI

Jamila Gordon: How AI can help shatter barriers to equality

David J. Malan: What's an algorithm?

Tom Gruber: How AI can enhance our memory, work and social lives

Kai-Fu Lee: How AI can save our humanity

Kevin Kelly: How AI can bring on a second Industrial Revolution

Related talks

Genevieve Bell: 6 big ethical questions about the future of AI

Jamila Gordon: How AI can help shatter barriers to equality

David J. Malan: What's an algorithm?

Tom Gruber: How AI can enhance our memory, work and social lives

Kai-Fu Lee: How AI can save our humanity

Kevin Kelly: How AI can bring on a second Industrial Revolution