Recentemente, a gigante da tecnologia Google implementou mudanças em suas diretrizes para os contratados que trabalham com o sistema de inteligência artificial Gemini, o que levantou inúmeras dúvidas sobre a precisão das respostas geradas pelo AI, especialmente em áreas de sensibilidade crítica como saúde e ciências. As modificações, que visam aprimorar a precisão do modelo, acabam por suscitar preocupações sobre a qualidade das avaliações feitas por profissionais sem a expertise necessária para lidar com tópicos complexos.
O funcionamento dos sistemas de inteligência artificial generativa, que parecem mágica aos olhos do público, não ocorre sem o suporte de uma infraestrutura robusta composta por engenheiros de prompt e analistas que avaliam a precisão das respostas dadas pelos chatbots. Em empresas como Google e OpenAI, esses profissionais desempenham um papel crítico na melhoria contínua das tecnologias de AI. No entanto, as recentes alterações nas diretrizes de avaliação do Gemini, conforme revelado pelo TechCrunch, apontam para uma nova política que exige avaliações mesmo em áreas onde os contratados não têm formação técnica.
Os contratados que trabalham com a GlobalLogic, uma firma de terceirização pertencente à Hitachi, recebiam a orientação de ignorar prompts que estavam completamente fora da sua área de especialização. Por exemplo, um contratado sem formação em ciências poderia, de forma justificada, optar por não avaliar perguntas específicas sobre cardiologia. Contudo, numa mudança significativa, agora foi comunicado que essa política de “escolha” foi descontinuada, e que todos os prompts devem ser avaliados, independentemente da especialização do avaliador.
Um ponto importante é que as novas diretrizes instruem os contratados a avaliarem apenas as partes dos prompts que compreendem e a registrarem uma nota sobre a falta de conhecimento específico. Essa prática, embora ostensivamente planejada para otimizar o processo de avaliação, levanta questões sobre a acurácia das informações. Afinal, como um contratante sem conhecimento prévio em um campo altamente técnico poderia avaliar a qualidade das informações apresentadas?
Um contratante expressou suas preocupações em uma comunicação interna, questionando a lógica por trás dessa mudança ao afirmar: “Eu pensei que o ponto de pular seria aumentar a precisão, passando para alguém melhor qualificado?”. Essa observação destaca a contradição na abordagem de avaliação, onde a falta de especialização pode resultar em vieses e na disseminação de informações errôneas, especialmente sobre doenças raras ou questões médicas delicadas.
As novas diretrizes estabelecem que os contratados só podem ignorar prompts em duas situações específicas: quando faltam informações cruciais, como partes da pergunta ou da resposta, ou quando o conteúdo envolve informações prejudiciais que requerem consentimento especial para serem avaliadas. Isso, de certa forma, limita a autonomia dos contratados em manter a qualidade das avaliações, aumentando a pressão sobre eles para fornecer feedback, independentemente do seu nível de conhecimento.
Diante dessas mudanças, observadores da indústria e especialistas em inteligência artificial expressam preocupações sobre as repercussões que essa política pode ter em um serviço que é, em muitos casos, utilizado para fornecer informações críticas ao público. A qualidade das respostas geradas pela AI é essencial para preservar a integridade e a confiança nas tecnologias modernas que respondem a perguntas dos usuários.
Até o fechamento desta matéria, o Google não havia comentado oficialmente sobre as mudanças implementadas nas diretrizes para os avaliadores do Gemini. Em um panorama onde a precisão da informação é crucial, surge a necessidade de um debate mais amplo sobre as práticas de avaliação em projetos de inteligência artificial e como essas métricas podem influenciar diretamente a qualidade da informação acessada pelos cidadãos. O futuro do Gemini, portanto, poderá depender não apenas de suas capacidades tecnológicas, mas também da formação e da experiência dos profissionais encarregados de avaliar suas respostas.