A busca pela inteligência geral artificial (AGI) tem sido um dos assuntos mais debatidos no campo da inteligência artificial. Recentemente, um teste amplamente conhecido para AGI, o ARC-AGI, que significa “Corpus de Raciocínio e Abstrato para Inteligência Geral Artificial”, ganhou destaque por supostamente estar mais próximo de uma solução definitiva. No entanto, a equipe que criou esse teste destaca que os resultados obtidos revelam mais sobre as falhas de design do teste do que sobre uma verdadeira inovação na área de pesquisa. Essa revelação acende um alerta sobre a eficácia dos métodos atuais e sobre os desafios que a pesquisa em AGI ainda enfrenta.
Introduzido pelo respeitado François Chollet, um dos principais nomes do setor de inteligência artificial em 2019, o ARC-AGI tem como objetivo avaliar se um sistema de IA pode adquirir novas habilidades de forma eficiente a partir de dados que não foram utilizados em seu treinamento. Francois afirma que o ARC-AGI continua a ser o único teste genuíno a medir o progresso em direção à inteligência geral artificial. Contudo, até este ano, a tecnologia mais avançada de IA conseguia resolver apenas menos de um terço das tarefas propostas pelo ARC-AGI. Chollet atribui essa limitação à ênfase excessiva da indústria em modelos de linguagem de grande porte (LLMs), que, segundo ele, não são capazes de um raciocínio verdadeiro.
Chollet argumenta que os LLMs são máquinas estatísticas que, embora tenham um treinamento abrangente baseado em muitos exemplos, dependem de memorização em vez de raciocínio. Em um conjunto de postagens na rede social X, ele enfatizou sua visão de que os modelos de grande porte têm dificuldade em generalizar, já que frequentemente falham ao lidar com situações que não constam em seus dados de treinamento. O autor sugere que, embora os LLMs possam conseguir memorizar “padrões de raciocínio”, é improvável que consigam gerar “novos raciocínios” em novas situações. Essa reflexão levanta questões sobre a qualidade do que estamos considerando uma inteligência funcional em máquinas.
Para estimular a pesquisa além dos LLMs, em junho deste ano, Chollet e Mike Knoop, cofundador da Zapier, lançaram uma competição de 1 milhão de dólares com o intuito de desenvolver uma IA de código aberto que conseguisse superar o ARC-AGI. Foi uma iniciativa que gerou um grande número de inscrições, totalizando 17.789 contribuições. O projeto mais bem-sucedido obteve uma pontuação de 55,5%, cerca de 20% a mais do que o melhor desempenho do ano anterior, embora ainda estivesse aquém do limiar de 85% que indica um desempenho “humano”.
No entanto, Knoop ressalta que isso não significa que estamos 20% mais próximos da verdadeira AGI. Em um anúncio recente, o vencedor do prêmio ARC 2024 foi revelado, juntamente com um relatório técnico abrangente sobre os aprendizados da competição. O melhor desempenho subiu de 33% para 55,5%, a maior melhoria em um único ano desde 2020, mas ainda assim deixa em aberto as perguntas sobre a real capacidade dessas máquinas em alcançar um nível comparável ao humano.
Knoop observou, em uma publicação de blog, que muitas das submissões à competição conseguiram “forçar” a solução para os desafios do ARC-AGI, indicando que uma grande parte das tarefas deste test não fornece um “sinal” realmente útil em direção à inteligência geral. Os problemas em si consistem em desafios semelhantes a quebra-cabeças, onde uma IA deve, a partir de uma grade de quadrados coloridos diferentes, gerar a grade “correta”. Esses desafios foram formulados para forçar uma adaptação em situações que a IA não havia encontrado previamente. No entanto, não está claro se eles estão alcançando plenamente esse objetivo. Knoop, de forma honesta, admitiu que o ARC-AGI permanece inalterado desde 2019 e possui suas imperfeições.
Além disso, tanto Chollet quanto Knoop enfrentaram críticas por, conforme alguns avaliadores, apresentarem o ARC-AGI de maneira exagerada como um padrão para AGI, em um momento em que a própria definição de AGI é alvo de intensa discussão. Um membro da equipe da OpenAI chegou a afirmar que a AGI já foi “alcancada” se considerarmos a definição de AGI como qualquer IA que supere a maioria dos humanos em diversas tarefas. Essa controvérsia evidencia a complexidade do debate atual.
Com um futuro promissor, Knoop e Chollet planejam lançar uma segunda geração do teste ARC-AGI para abordar as questões levantadas e uma nova competição em 2025. “Continuaremos a direcionar os esforços da comunidade de pesquisa para o que acreditamos serem os problemas não resolvidos mais importantes em IA, acelerando assim a linha do tempo em direção à AGI”, escreveu Chollet em uma de suas postagens na rede social X. No entanto, as soluções para os problemas estavam longe de ser simples. Se as falhas do primeiro teste ARC-AGI forem algum indicativo, definir inteligência em máquinas será tão complexo e polêmico quanto tem sido para a própria humanidade ao longo da história.