AI could add 16 trillion dollars to the global economy in the next 10 years. This economy is not going to be built by billions of people or millions of factories, but by computers and algorithms. We have already seen amazing benefits of AI in simplifying tasks, bringing efficiencies and improving our lives. However, when it comes to fair and equitable policy decision-making, AI has not lived up to its promise. AI is becoming a gatekeeper to the economy, deciding who gets a job and who gets an access to a loan. AI is only reinforcing and accelerating our bias at speed and scale with societal implications. So, is AI failing us? Are we designing these algorithms to deliver biased and wrong decisions?
A IA pode adicionar 16 trilhões de dólares à economia global nos próximos 10 anos. Essa economia não será construída por bilhões de pessoas ou milhões de fábricas, mas por computadores e algorítmos. Já vimos os maravilhosos benefícios da IA em simplificar tarefas, trazer eficiências e melhorar nossas vidas. No entanto, quando falamos de decisões políticas justas e imparciais, A IA não atendeu às expectativas. Ela está se tornando uma guardiã da economia, decidindo quem consegue um emprego e quem tem direito a um empréstimo. A IA está apenas reforçando e acelerando nossa parcialidade, em velocidade e escala, com impactos sociais. Então, a AI está nos falindo? Estamos projetando algorítimos para entregar decisões parciais e errôneas?
As a data scientist, I'm here to tell you, it's not the algorithm, but the biased data that's responsible for these decisions. To make AI possible for humanity and society, we need an urgent reset. Instead of algorithms, we need to focus on the data. We're spending time and money to scale AI at the expense of designing and collecting high-quality and contextual data. We need to stop the data, or the biased data that we already have, and focus on three things: data infrastructure, data quality and data literacy.
Como cientista de dados, estou aqui para contar a vocês, que não é o algorítmo, mas o dado tendencioso os responsáveis por essas decisões. Para tornar a IA possível para a humanidade e a sociedade, precisamos de uma reinicialização urgente. Em vez de algoritmos, precisamos nos concentrar nos dados. Estamos gastando tempo e dinheiro para aumentar a IA em detrimento do projeto e coleta de dados de alta qualidade e contextuais. Precisamos parar os dados, ou dados tendenciosos que já temos, e nos concentrarmos em três coisas: infraestrutura de dados, qualidade de dados e domínio de dados.
In June of this year, we saw embarrassing bias in the Duke University AI model called PULSE, which enhanced a blurry image into a recognizable photograph of a person. This algorithm incorrectly enhanced a nonwhite image into a Caucasian image. African-American images were underrepresented in the training set, leading to wrong decisions and predictions. Probably this is not the first time you have seen an AI misidentify a Black person's image. Despite an improved AI methodology, the underrepresentation of racial and ethnic populations still left us with biased results.
Em junho deste ano, vimos um viés embaraçoso no modelo de IA da Duke University chamado PULSE, que melhorou uma imagem embaçada para uma foto reconhecível de uma pessoa. O algoritmo aprimorou erradamente a imagem de alguém não branca em caucasiana. Imagens Afro-Americanas estavam sub-representadas no treinamento, conduzindo à decisões e previsões errôneas. Provavelmente, essa não deve ser a primeira vez que você viu uma IA não reconhecer uma imagem de pessoa negra. Apesar do melhoramento na metodologia IA. a sub-representação de populações raciais e étnicas ainda nos deixa com resultados parciais.
This research is academic, however, not all data biases are academic. Biases have real consequences.
Esta pesquisa é acadêmica, no entanto, nem todos os dados parciais são acadêmicos. Parcialidade tem consequências reais.
Take the 2020 US Census. The census is the foundation for many social and economic policy decisions, therefore the census is required to count 100 percent of the population in the United States. However, with the pandemic and the politics of the citizenship question, undercounting of minorities is a real possibility. I expect significant undercounting of minority groups who are hard to locate, contact, persuade and interview for the census. Undercounting will introduce bias and erode the quality of our data infrastructure.
Note o Censo EUA 2020. O censo é o alicerce para muitas decisões político-econômicas e sociais, portanto o censo deve contar 100% da população nos Estados Unidos. No entanto, com a pandemia e as políticas de questões de cidadania, subcontagem de minorias é uma possibilidade real. Eu espero subcontagem significativa de grupos minoritários que são difíceis de localizar, contatar, persuadir e entrevistar para o censo. Subcontagem apresentará parcialidade e corroer a qualidade de nossa infraestrutura de dados.
Let's look at undercounts in the 2010 census. 16 million people were omitted in the final counts. This is as large as the total population of Arizona, Arkansas, Oklahoma and Iowa put together for that year. We have also seen about a million kids under the age of five undercounted in the 2010 Census.
Vamos notar a subcontagem do censo 2010. foram omitidas 16 milhões de pessoas no final das contas. Este é tão grande quanto o total da população do Arizona, Arkansas, Oklahoma e Iowa juntos naquele ano. Temos também visto milhões de crianças com idade abaixo de 5 anos subestimada no Censo 2010.
Now, undercounting of minorities is common in other national censuses, as minorities can be harder to reach, they're mistrustful towards the government or they live in an area under political unrest.
Agora, subestimagem de minorias é comum em outros censos nacionais, como minorias podem ser difíceis pesquisar, Eles são desconfiados para com o governo ou eles vivem em áreas com menor agitação política.
For example, the Australian Census in 2016 undercounted Aboriginals and Torres Strait populations by about 17.5 percent. We estimate undercounting in 2020 to be much higher than 2010, and the implications of this bias can be massive.
Por exemplo, o Censo Australiano em 2016 a subcontagem da população Torres Strait e Aborígene por cerca de 17,5% Nós estimamos subcontagem em 2020 ser muito mais alta do que 2010 e as implicacões desta parcialidade podem ser enormes.
Let's look at the implications of the census data. Census is the most trusted, open and publicly available rich data on population composition and characteristics. While businesses have proprietary information on consumers, the Census Bureau reports definitive, public counts on age, gender, ethnicity, race, employment, family status, as well as geographic distribution, which are the foundation of the population data infrastructure. When minorities are undercounted, AI models supporting public transportation, housing, health care, insurance are likely to overlook the communities that require these services the most.
Vamos notar as implicações dos dados do censo. Censo é o mais confiável, aberto e um dado rico com disponibilidade pública da composição da população e características. Enquanto empresas tem propriedade da informação dos consumidores, o relatório definitivo do Censo de Bureau, contou o público na idade, gênero. etnia, raça, emprego, status familiar, assim com também a distribuição geográfica, que são o alicerce da infraestrutura de dados da população. Quando minorias são subcontadas, O modelo IA que serve de suporte para transporte público habitação, cuidado com saúde, segurança tendem a ignorar as comunidades que mais necessitam desses serviços.
First step to improving results is to make that database representative of age, gender, ethnicity and race per census data. Since census is so important, we have to make every effort to count 100 percent. Investing in this data quality and accuracy is essential to making AI possible, not for only few and privileged, but for everyone in the society.
Primeiro passo para melhorar resultados é fazer aquela base de dados representativa de idade, gênero, etnia e raça pelos dados do censo. Já que o censo é tão importante, que nós temos que fazer esforço para contar 100% Investindo nesses dados qualidade e precisão é essencial tornar IA possível, não somente para alguns e privilegiados, mas para todo mundo na sociedade.
Most AI systems use the data that's already available or collected for some other purposes because it's convenient and cheap. Yet data quality is a discipline that requires commitment -- real commitment. This attention to the definition, data collection and measurement of the bias, is not only underappreciated -- in the world of speed, scale and convenience, it's often ignored.
O maior sistema de IA usa os dados já disponíveis ou coletados para alguns outros propósitos porque é conveniente e barato. Já dados de qualidade é uma disciplina que exige compromisso compromisso real. Esta atenção para a definição, coleção de dados e medição de parcialidade, não é só desvalorizada-- no mundo de velocidade, escala e conveniência É frequentemente ignorada.
As part of Nielsen data science team, I went to field visits to collect data, visiting retail stores outside Shanghai and Bangalore. The goal of that visit was to measure retail sales from those stores. We drove miles outside the city, found these small stores -- informal, hard to reach. And you may be wondering -- why are we interested in these specific stores? We could have selected a store in the city where the electronic data could be easily integrated into a data pipeline -- cheap, convenient and easy. Why are we so obsessed with the quality and accuracy of the data from these stores? The answer is simple: because the data from these rural stores matter. According to the International Labour Organization, 40 percent Chinese and 65 percent of Indians live in rural areas. Imagine the bias in decision when 65 percent of consumption in India is excluded in models, meaning the decision will favor the urban over the rural.
Como parte da equipe de ciência de dados de Nielsen, Eu fui para o campo de visitas para coletar dados, visitando loja de varejo fora de Shangai e Bangalore. O objetivo daquela visita era medir vendas de varejo daquelas lojas. Nós dirigimos milhas fora da cidade, encontramos aquelas lojas pequenas-- informais, difíceis de chegar. e você pode estar perguntando-- por que nós estamos interessados nestas lojas epecíficas? Nós podíamos selecionar uma loja na cidade onde dados eletrônicos seriam facilmente integrados dentro no 1pipeline’ de dados barato, conveniente e fácil. Por que somos tão obsecados com a qualidade e precisão dos dados destas lojas? A resposta é simples: porque os dados destas lojas rurais importam. De acordo com a Organização do Trabalho Internacional, 40% dos Chineses e 65% de Indianos vivem em zonas rurais. Imagine a parcialidade na decisão quando 65% do consumo na Índia é excluída em modelos, significa que a decisão favorecerá o urbano acima do rural
Without this rural-urban context and signals on livelihood, lifestyle, economy and values, retail brands will make wrong investments on pricing, advertising and marketing. Or the urban bias will lead to wrong rural policy decisions with regards to health and other investments. Wrong decisions are not the problem with the AI algorithm. It's a problem of the data that excludes areas intended to be measured in the first place. The data in the context is a priority, not the algorithms.
Sem este contexto rural-urbano e sinal de sustento, estilo de vida, economia e valores, marcas de varejo farão investimentos errados no preço, publicidade e marketing. Ou a pacialidade urbana conduzirá decisões políticas errôneas para o rural com cumprimentos para saúde e outros investimentos. Decisões errôneas não são problema com o algorítimo de IA. É um problema dos dados que excluem áreas prometidas a serem medidas em primeiro lugar. Os dados no contexto é uma prioridade, não os algorítmos.
Let's look at another example. I visited these remote, trailer park homes in Oregon state and New York City apartments to invite these homes to participate in Nielsen panels. Panels are statistically representative samples of homes that we invite to participate in the measurement over a period of time. Our mission to include everybody in the measurement led us to collect data from these Hispanic and African homes who use over-the-air TV reception to an antenna. Per Nielsen data, these homes constitute 15 percent of US households, which is about 45 million people. Commitment and focus on quality means we made every effort to collect information from these 15 percent, hard-to-reach groups.
Vamos notar um outro exemplo. Visitei estes afastados, estacionamentos de casas trailer no estado de Oregon e apartamentos de Nova York para convidar estes moradores para participar no painel de Nielsen. Painéis são estatisticamente amostras representativas de casas que nós convidamos para participar na medição durante um período de tempo. Nossa missão de incluir todo mundo na medição nos conduziu a coletar dados destes moradores Hispânicos e Africanos que usam recepção de TV pelo ar para uma antena. Pelos dados de Nielsen, estas moradias constituem 15% dos lares de EUA, que é cerca de 45 milhões de pessoas. Compromisso e enfoque na qualidade significa que nós fizemos todo esforço para coletar informação destes 15%, grupos de difícil acesso.
Why does it matter? This is a sizeable group that's very, very important to the marketers, brands, as well as the media companies. Without the data, the marketers and brands and their models would not be able to reach these folks, as well as show ads to these very, very important minority populations. And without the ad revenue, the broadcasters such as Telemundo or Univision, would not be able to deliver free content, including news media, which is so foundational to our democracy.
Por que isso importa? Este é um grupo considerável que é muito, muito importante para comerciantes, marcas, bem como também empresas de mídia. Sem os dados, os comerciantes e marcas e os modelos deles não seriam capazes de pesquisar estas famílias, bem como mostrar anúncios a estas muito, muito importantes populações minoritárias. E sem o anúncio de receita, os locutores da Telemundo ou Univision, não seriam capazes de entregar conteúdo livre, incluindo novas mídias que é tão fundamental para nossa democracia.
This data is essential for businesses and society. Our once-in-a-lifetime opportunity to reduce human bias in AI starts with the data. Instead of racing to build new algorithms, my mission is to build a better data infrastructure that makes ethical AI possible. I hope you will join me in my mission as well.
Este dado é essencial para os negócios e sociedade. Nossa única oportunidade de existência para reduzir a parcialidade humana em IA começa com os dados. Ao invés da corrida por comprar novos algorítmos, minha missão é comprar uma infraestrutura de dados melhor que faz IA ética possível. Eu espero você junte-se a mim em minha missão também.
Thank you.
Obrigada.