O debate sobre a eficácia dos benchmarks atuais de inteligência artificial (IA) tem ganhado força, pois muitos deles parecem não ser capazes de medir as habilidades de resolução de problemas das máquinas de maneira eficaz. Em vez de satisfazer o teste da verdadeira capacidade de raciocínio, diversos benchmarks têm se baseados em memorização e em questões que não refletem a realidade da maioria dos usuários. Para contornar essa limitação, entusiastas da IA têm buscado alternativas distintas, utilizando jogos que desafiam a lógica e a criatividade dos modelos de IA, como Pictionary e Minecraft, para testar suas habilidades.
Um dos entusiastas que apostou nessa abordagem é Paul Calcraft, um desenvolvedor freelance de IA. Recentemente, ele criou um aplicativo onde dois modelos de IA jogam um jogo semelhante ao Pictionary. Em sua versão, uma das IAs faz rabiscos enquanto a outra tenta adivinhar o que aquele doodle representa. “Achei que isso seria super divertido e potencialmente interessante do ponto de vista das capacidades do modelo”, afirmou Calcraft em uma entrevista. Sua inspiração veio de um projeto de Simon Willison, um programador britânico que desafiou modelos a criar um desenho vetorial de um pelicano montando uma bicicleta. O objetivo é claro: criar um benchmark que não possa ser vencido simplesmente pela memorização de respostas específicas ou padrões simples vistos durante o treinamento.
Minecraft também entrou no foco dos desenvolvedores de IA. Adonis Singh, um jovem de apenas 16 anos, criou uma ferramenta chamada Mcbench, que permite aos modelos controlar um personagem do jogo e avaliar sua capacidade de estruturar e projetar construções, com base no projeto da Microsoft, Project Malmo. “Acredito que o Minecraft testa os modelos em termos de engenhosidade e lhes oferece mais autonomia”, comentou Singh. Diferente de benchmarks tradicionais, a natureza menos restritiva do Minecraft apresenta desafios dinâmicos, que testam habilidades de resolução em um ambiente mais abrangente.
Embora a ideia de usar jogos para avaliar inteligência artificial não seja nova e remonte a décadas passadas, como argumentou o matemático Claude Shannon em 1949, a novato abordagem contemporânea ganha um novo significado. Modelos de linguagem grandes (LLMs), capazes de analisar texto e imagens, estão sendo conectados a jogos para investigar como se saem em tarefas lógicas. “Os LLMs são conhecidos por sua sensibilidade a formas específicas de formulação de perguntas, tornando-os geralmente imprevisíveis”, detalhou Calcraft.
A inclusão de jogos nesse processo também adiciona uma camada visual, intuitiva, que difere dos benchmarks textuais, permitindo comparações diretas sobre o desempenho e comportamento dos modelos, segundo Matthew Guzdial, pesquisador de IA e professor na Universidade de Alberta. “Cada benchmark oferece uma simplificação da realidade focada em problemas específicos, como raciocínio ou comunicação. Os jogos representam outras formas de tomar decisões com a IA, de modo que as pessoas os utilizam de maneira semelhante a qualquer outra abordagem”, declarou Guzdial.
Na visão de Calcraft, o jogo Pictionary pode capturar a capacidade de um LLM de compreender conceitos básicos como formas, cores e preposições. Embora não se possa afirmar que ele seja um teste confiável de raciocínio, o jogo requer estratégia e a habilidade de entender pistas, que são desafios para os modelos. “A dinâmica adversarial do jogo em questão se assemelha a redes geradoras adversariais (GANs), onde um modelo criador envia imagens para um avaliador que as avalia”, acrescentou. Para Calcraft, Pictionary pode não ser um problema do mundo real em si, mas representa um passo crucial em direção à compreensão espacial e multimodalidade, elementos essenciais para o avanço da inteligência artificial.
Por outro lado, Singh considera Minecraft igualmente relevante para medir raciocínio em LLMs. “Os resultados que obtive até agora estão perfeitamente alinhados com o quanto confio no modelo em questões relacionadas ao raciocínio”, afirmou. Contudo, nem todos compartilham da mesma visão. Mike Cook, pesquisador da Queen Mary University especializado em IA, não acredita que Minecraft se destaque como um verdadeiro campo de testes para inteligência artificial. “Acredito que a fascinação com Minecraft vem de pessoas fora do nicho de jogos que talvez pensem que, por parecer ‘o mundo real’, ele está mais próximo de um raciocínio ou ação realistas”, refletiu Cook. Ele comparou a lógica do Minecraft a outros games populares, como Fortnite, Stardew Valley e World of Warcraft, argumentando que, embora apresentem um formato distinto, os desafios em todos esses jogos são, em essência, similares.
Ainda assim, mesmo com as colocações críticas, não se pode ignorar o encanto de ver modelos de linguagem grande construindo castelos e se aventurando em mundos virtualmente gerados. Essa nova era de desafios, com o uso de jogos como benchmarks, revela não só a limitação dos testes tradicionais, mas também a busca incessante pela melhoria das inteligências artificiais. À medida que essa pesquisa avança, um leque de novas possibilidades e inovações poderá surgir, enriquecendo ainda mais o fascinante mundo da inteligência artificial.