Os modelos mundiais, também conhecidos como simuladores de mundo, estão se destacando no cenário da inteligência artificial como uma das inovações mais promissoras do setor. Apesar de seu conceito ter existido por décadas, a recente movimentação do mercado, com investimentos significativos e a contratação de especialistas renomados, veio ampliar o debate sobre o impacto desses modelos nas aplicações futuras de IA. Por exemplo, o World Labs, fundado pela pioneira em IA Fei-Fei Li, arrecadou impressionantes 230 milhões de dólares para desenvolver “grandes modelos mundiais” e a DeepMind trouxe para sua equipe um dos criadores do gerador de vídeos OpenAI, Sora, que, por sua vez, foi lançado na última segunda-feira. Portanto, o que exatamente são esses modelos que prometem revolucionar a IA?
O Que São Modelos Mundiais e Como Funcionam?
Os modelos mundiais são inspirados nas representações mentais que os seres humanos criam para entender o mundo. Desde muito jovens, nossos cérebros processam informações sensoriais, formando uma compreensão que guia nosso comportamento no dia a dia. Um exemplo ilustrativo pode ser encontrado no esporte: imagine um jogador de beisebol que precisa decidir a última fração de segundo como rebater uma bola que se aproxima a 160 km/h. O ato de rebater ocorre quase que por instinto; isso acontece porque o atleta está contando com seu modelo interno do mundo — suas previsões subconscientes sobre a trajetória da bola. Os pesquisadores David Ha e Jürgen Schmidhuber destacam que a capacidade de um jogador de reagir instantaneamente, sem ter que pensar conscientemente em todas as possibilidades, é uma evidência dessa capacidade humana que muitos acreditam ser necessária para atingir um nível de inteligência semelhante ao humano em máquinas.
A Revolução na Geração de Vídeos e Muito Mais
A proposta dos modelos mundiais não se limita à execução trivial de ações em vídeos, mas implica em uma compreensão mais profunda das interações e comportamentos do mundo. Essa renovada busca por modelos que poderiam representar o mundo virtual de forma mais realista ganhou impulso principalmente na área de vídeos gerados por inteligência artificial, que, até agora, frequentemente resultam em conteúdo enigmático ou perturbador, conhecido como o “vale inquietante” da IA. Basta assistir a um vídeo gerado por IA por tempo suficiente para notar que forma humana, por exemplo, tende a se torcer ou se mesclar de forma estranha, mostrando que os modelos atuais não compreendem as razões subjacentes a esses eventos.
Alex Mashrabov, ex-chefe de IA da Snap e atual CEO da Higgsfield, ilustra que um modelo mundial bem treinado entenderia intuitivamente o movimento de um objeto. Em outras palavras, se um espectador assistisse a um vídeo em que uma pena caísse pesadamente no chão, isso quebraria a ilusão de realidade que o espectador espera de uma peça audiovisual. Assim, os desenvolvedores poderiam dedicar seu tempo não apenas aos movimentos e comportamentos dos objetos, mas permitir que a máquina aprendesse essas interações de forma automatizada.
Desafios Técnicos e o Caminho à Frente
Embora a ideia de modelos mundiais seja tentadora, diversos desafios técnicos ainda precisam ser vencidos. A requerimento de uma capacidade computacional massiva é a primeira barreira. Modelo como o Sora necessitam de milhares de unidades de processamento gráfico (GPUs) para serem treinados e operados, o que não é viável em dispositivos comuns, pelo menos por enquanto. Além disso, os modelos atuais ainda apresentam o problema da “alucinação” e internalização de preconceitos presentes nos dados de treinamento. Um modelo treinado com um conjunto de dados limitado pode falhar ao tentar representar cenários variados, como variar entre o clima ensolarado de cidades europeias e a neve de Seul, por exemplo.
Estudos recentes apontam que os dados devem ser abrangentes e diversificados para que os modelos mundiais possam capturar a complexidade do comportamento humano e animal. Cristóbal Valenzuela, CEO da startup Runway, também observou que a geração de mapas consistentes e a capacidade de navegar em ambientes complexos são fatores cruciais para o sucesso dos modelos mundiais. Aplicações futuras, se bem conduzidas, podem levar a robôs mais avançados e a decisões assistidas por IA em uma variedade de setores.
Considerações Finais Sobre o Futuro dos Modelos Mundiais
Ainda que haja muitas incógnitas, o potencial dos modelos mundiais se estende para além da geração de vídeos; eles também possuem a capacidade de influenciar a robótica e a tomada de decisões em ambientes complexos. Mashrabov ressalta que, uma vez superados os obstáculos maiores, os modelos mundiais podem estabelecer uma ponte mais robusta entre a IA e o mundo real. Esse conhecimento poderia conceder aos robôs uma compreensão básica do cenário em que operam, permitindo-lhes raciocinar sobre soluções adequadas. Portanto, enquanto a jornada em direção à implementação efetiva de modelos mundiais enfrenta desafios, a expectativa de que eles se tornem aliados valiosos na evolução da tecnologia de IA permanece alta.
Para mais informações sobre o avanço da inteligência artificial, assine nossa newsletter da TechCrunch, que traz as principais novidades do universo da tecnologia toda quarta-feira.