Quando uma nova tecnologia de geração de vídeo por inteligência artificial é lançada, não demora para que alguém produza um vídeo icônico, como o do ator Will Smith devorando espaguete. Este conceito transcendeu a mera criação de conteúdo, tornando-se um verdadeiro meme, além de um parâmetro não oficial para avaliar as capacidades da nova ferramenta de IA. Recentemente, Smith até mesmo fez uma paródia sobre essa tendência em uma publicação no Instagram, confirmando o impacto desse fenômeno na cultura digital.
O Google Veo 2, uma das mais recentes inovações em geração de vídeo por IA, se tornou célebre por realizar este “teste” peculiar, com o famoso ator saboreando um prato de espaguete. A repercussão foi tanta que um usuário do Twitter, Jerrod Lew, brincou com a frase “Finalmente estamos comendo espaguete”, evidenciando como esse tipo de conteúdo está se enraizando nas redes sociais.
A relação entre Will Smith e um prato de macarrão representa apenas uma entre vários benchmarks excêntricos que capturaram a atenção da comunidade de inteligência artificial ao longo de 2024. Um jovem desenvolvedor de apenas 16 anos criou um aplicativo que permite à IA controlar elementos de jogos como o Minecraft, testando sua capacidade de projetar estruturas. Além disso, um programador britânico desenvolveu uma plataforma onde IAs competem em jogos como Pictionary e Conecta 4, trazendo um toque lúdico à avaliação de desempenho da inteligência artificial.
Contudo, é importante ressaltar que não faltam testes acadêmicos profundos para avaliar a performance da IA. A pergunta que fica é: por que esses benchmarks mais bizarros estão fazendo tanto sucesso? A resposta está na acessibilidade e no entretenimento que proporcionam. As métricas tradicionais de desempenho, muitas vezes, não são compreensíveis para o público em geral.
Comumente, as empresas destacam a habilidade de suas IAs em resolver questões de exames de Olimpíadas de Matemática ou encontrar soluções plausíveis para problemas de nível de doutorado. Entretanto, o uso cotidiano de chatbots é, muitas vezes, voltado para atividades como responder e-mails ou realizar pesquisas simples, o que distorce a compreensão geral de quão efetiva realmente é a tecnologia.
Um exemplo desse fenômeno é o Chatbot Arena, um benchmark público que muitos entusiastas e desenvolvedores de IA acompanham com afinco. Nele, qualquer pessoa na internet pode avaliar o desempenho da IA em tarefas específicas, como a criação de aplicações web e geração de imagens. Contudo, as opiniões emitidas pelos avaliadores geralmente não são representativas, pois a maioria provém de círculos profissionais de tecnologia, levando a uma série de preferências pessoais que são difíceis de definir ou quantificar.
O professor de gestão da Wharton, Ethan Mollick, destacou em uma recente publicação na plataforma X que muitos benchmarks da indústria de IA não realizam comparações entre o desempenho de um sistema e o de um usuário comum. Segundo ele, a falta de métricas diversificadas em setores como medicina e direito é uma pena, dado que sistemas de IA são cada vez mais utilizados nesses campos.
Embora essas medidas de avaliação estranhas, como jogar Conecta 4 ou observar um vídeo de Will Smith comendo espaguete, não sejam empíricas ou totalmente generalizáveis, elas oferecem um charme particular. Um especialista que conversei sugeriu que a comunidade de IA deveria focar nos impactos a longo prazo da inteligência artificial, em vez de sua eficácia em domínios muito específicos. Essa é uma postura sensata. No entanto, é difícil imaginar que esses benchmarks excêntricos desapareçam em um futuro próximo. Afinal, eles têm um apelo indiscutível — quem não gostaria de ver uma IA construir castelos no Minecraft?
À medida que a indústria continua a encontrar maneiras de tornar uma tecnologia tão complexa como a inteligência artificial em algo mais palpável e atraente para o público em geral, a única interrogação que entoa é: quais novos benchmarks excêntricos se tornarão virais em 2025? O futuro promete, e podemos esperar por mais inovações e surpresas para entreter tanto usuários quanto desenvolvedores.