A Nvidia, uma das principais empresas de tecnologia e inovação em inteligência artificial, anunciou durante a CES 2025 em Las Vegas o lançamento de sua nova linha de modelos conhecidos como Cosmos World Foundation Models, ou simplesmente Cosmos WFMs. Estes modelos são inspirados nas estruturas mentais que os humanos desenvolvem naturalmente da interação com o mundo, oferecendo um conjunto de ferramentas para predição e geração de vídeos cientes das leis da física.
O anúncio marca a entrada firme da Nvidia no campo dos modelos de mundo, que têm ganho destaque na área de inteligência artificial. Os Cosmos WFMs são projetados para permitir que pesquisadores e desenvolvedores, independentemente do porte de suas empresas, utilizem essas ferramentas sob licenciamento permissivo, possibilitando ainda seu uso comercial. Isso representa um avanço significativo, considerando que esses modelos são desenvolvidos com fins diversos, como simulação física e geração de dados sintéticos que podem ser aplicados em inovações tecnológicas e pesquisa.
Em uma postagem de blog, a Nvidia destacou que a primeira leva de Cosmos WFMs para simulações baseadas na física está agora disponível através das APIs da Nvidia e catálogos NGC, GitHub e também na plataforma de desenvolvimento de IA Hugging Face. Como parte do ecossistema dos Cosmos, a empresa liberou diferentes modelos categorizados em três grupos: Nano, Super e Ultra. O modelo Nano é voltado para aplicações de baixa latência e em tempo real, enquanto o Super consiste em modelos de alto desempenho e o Ultra se destina a produzir resultados de qualidade máxima.
Os modelos variam em tamanho, podendo conter entre 4 bilhões a 14 bilhões de parâmetros. Esses parâmetros correspondem, em termos gerais, à capacidade de resolução de problemas da IA, onde modelos com maior quantidade de parâmetros tendem a demonstrar desempenho superior. Além disso, a Nvidia anunciou a introdução de um “modelo de upsampling”, um decodificador de vídeo otimizado para realidades aumentadas, bem como modelos de guardrail para garantir o uso responsável, e modelos ajustados para aplicações específicas, como a geração de dados sensoriais voltados para o desenvolvimento de veículos autônomos. Todos esses modelos foram treinados com uma quantidade colossal de dados — 9.000 trilhões de tokens provenientes de 20 milhões de horas de interações humanas reais, dados ambientais, industriais, robóticos e de condução, segundo informações da Nvidia.
Entretanto, surgem questionamentos sobre a origem desses dados de treinamento. Apesar da Nvidia não ter esclarecido a proveniência dos dados, há relatos e até processos judiciais que alegam que a empresa utilizou vídeos do YouTube protegidos por direitos autorais sem autorização. Quando questionada, a Nvidia afirmou que o Cosmos “não é projetado para copiar ou infringir obras protegidas”. Um porta-voz da Nvidia utilizou a analogia do aprendizado humano para justificar que “o Cosmos aprende da mesma forma que as pessoas aprendem”, buscando enfatizar a diversidade de fontes utilizadas para o treinamento.
No entanto, especialistas em propriedade intelectual levantam dúvidas sobre a validade desses argumentos da Nvidia. A aplicação da doutrina de uso justo, que permite a utilização de obras protegidas desde que isso resulte em algo novo e transformativo, pode não encontrar respaldo nos tribunais, pois a forma como os modelos de IA realmente aprendem não se assemelha ao aprendizado humano. A eficácia dessas alegações dependerá grandemente de como os tribunais interpretam o conceito de uso justo no contexto do treinamento de IA.
Com capacidades que permitem gerar dados sintéticos controláveis e de alta qualidade a partir de entradas textuais ou de vídeo, a Nvidia acredita que os Cosmos WFM podem impulsionar o desenvolvimento de modelos em áreas como robótica e veículos autônomos. A empresa mencionou que grupos como Waabi, Wayve, Fortellix e Uber já estão comprometidos em testar os Cosmos WFMs para diversas finalidades, desde curadoria de vídeos até a construção de modelos de IA para veículos autônomos.
O CEO da Uber, Dara Khosrowshahi, destacou em um comunicado que a IA generativa será um fator crucial para o futuro da mobilidade, afirmando que o trabalho junto à Nvidia implicará em acelerar a linha do tempo para soluções autônomas seguras e escaláveis dentro da indústria. O desempenho e a precisão prometidos pelos Cosmos WFMs instigam a expectativa de resultados significativos em áreas imprescindíveis para o desenvolvimento tecnológico contemporâneo.
Contudo, é importante ressaltar que os modelos da Nvidia não são “open source” no sentido mais rígido do termo. Para que um modelo de IA se classifique como verdadeiramente “open source”, seria necessário fornecer informações suficientes sobre seu design, permitindo que um indivíduo possa “recriar substancialmente” a estrutura base, além de divulgar detalhes pertinentes sobre os dados de treinamento, como a proveniência e como obtê-los ou licenciá-los. Até o momento, a Nvidia não liberou tais informações, o que pode justificar o uso do termo “aberto” para descrever os Cosmos.
O CEO da Nvidia, Jensen Huang, expressou a esperança de que o Cosmos indiretamente faça por robótica e IA industrial o que modelos como o Llama fazem pelo setor empresarial. A trajetória dos Cosmos WFMs indica uma nova era no relacionamento entre tecnologia, aprendizado de máquina e impactos éticos, trazendo à tona debates importantes sobre o futuro da inteligência artificial.