O Google disse na quinta-feira que descontinuaria temporariamente sua ferramenta de criação de imagens do chatbot Gemini depois que ela foi amplamente criticada por criar imagens “diversificadas” que não eram histórica ou factualmente precisas – como vikings negros, papas e nativos americanos entre os fundadores.
Usuários de mídia social classificaram Gêmeos como “ridiculamente acordado” e “inutilizável” depois que pedidos para criar imagens representativas de assuntos resultaram em estranhas imagens retocadas.
“Já estamos trabalhando para resolver problemas recentes com o recurso de criação de fotos do Gemini”, disse o Google em comunicado publicado no X. “Enquanto fazemos isso, pausaremos a criação de imagens para as pessoas e relançaremos uma versão melhorada em breve.”
Os exemplos incluem uma imagem de IA de um homem negro que parece representar George Washington, com uma peruca branca e uniforme do Exército Continental, e uma mulher do sudeste asiático vestindo trajes papais, embora todos os 266 papas ao longo da história tenham sido homens brancos.
Em outro exemplo chocante Detectado pela bordaGemini até produziu representações “diversificadas” de soldados alemães da era nazista, incluindo uma mulher asiática e um homem negro uniformizado em 1943.
Como o Google não publicou os parâmetros que regem o comportamento do chatbot Gemini, é difícil obter uma explicação clara do motivo pelo qual o programa inventa várias versões de figuras e eventos históricos.
Guilherme A. disse: “Em nome do combate ao preconceito, o preconceito real está sendo incorporado aos sistemas”, disse Jacobson, professor de direito na Universidade Cornell e fundador do Equal Protection Project, um grupo de vigilância, ao The Washington Post.
“Esta é uma preocupação não apenas para os resultados da investigação, mas também para as aplicações do mundo real, onde testar um algoritmo ‘livre de preconceitos’ na verdade cria preconceitos no sistema, visando resultados finais que atingem as cotas.”
O problema pode ser devido ao “processo de treinamento” do Google no “modelo de grande linguagem” que alimenta a ferramenta de imagens do Gemini, de acordo com Fabio Motoki, professor da Universidade de East Anglia, no Reino Unido, que foi coautor de um artigo no ano passado que descobriu uma solução. Viés esquerdo perceptível no ChatGPT.
“Lembre-se, a aprendizagem por reforço a partir do feedback humano (RLHF) consiste em pessoas dizendo ao modelo o que é melhor e o que é pior, moldando efetivamente sua função de ‘recompensa’ – tecnicamente, a função de perda”, disse Motoki ao Post.
“Portanto, dependendo de quem o Google está recrutando ou das instruções que o Google está dando a eles, isso pode levar a esse problema.”
Este foi um grande passo em falso para o gigante das buscas, que acabou de renomear seu principal chatbot de Bard no início deste mês e introduziu novos recursos muito elogiados – incluindo a criação de imagens.
O erro também ocorreu dias depois que a OpenAI, que alimenta o popular ChatGPT, introduziu uma nova ferramenta de IA chamada Sora, que cria vídeos com base nas solicitações de texto dos usuários.
O Google já havia admitido que o comportamento errôneo do chatbot precisava ser corrigido.
“Estamos melhorando esses tipos de imagens imediatamente”, disse Jack Krawczyk, diretor sênior de gerenciamento de produtos do Google para experiências Gemini, ao The Post.
“A geração de imagens de IA do Gemini é gerada para uma ampla gama de pessoas. Isso geralmente é uma coisa boa porque pessoas ao redor do mundo a usam. Mas aqui erra o alvo.”
O Post entrou em contato com o Google para mais comentários.
Quando solicitado pelo The Washington Post a fornecer suas diretrizes de confiança e segurança, Gemini reconheceu que elas não haviam sido “divulgadas publicamente devido a complexidades técnicas e considerações de propriedade intelectual”.
O chatbot também reconheceu em suas respostas às alegações que estava ciente das “críticas de que Gemini pode ter priorizado a diversidade forçada na geração de imagens, resultando em representações historicamente imprecisas”.
“Os algoritmos por trás dos modelos de geração de imagens são complexos e ainda estão em desenvolvimento”, disse Gemini. “Eles podem ter dificuldade em compreender as nuances do contexto histórico e da representação cultural, levando a resultados imprecisos.”
More Stories
O próximo mini drone 4K da DJI cabe na palma da sua mão
Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro
Os jogadores reclamam do longo tempo de matchmaking no PS5 conforme os números do Concord caem