No emocionante cenário da inteligência artificial, onde inovações são constantemente apresentadas, o Google DeepMind, uma das principais pesquisas em IA da gigante de tecnologia, fez um movimento audacioso com o lançamento do Veo 2, prometendo elevar a barra da geração de vídeos digitais e, em particular, se tornar um novo competidor na análise de vídeo que antes era dominada por soluções como o Sora da OpenAI. Anunciado em uma conferência especial na segunda-feira, o Veo 2 surge como o sucessor de Veo, equipada com habilidades que prometem não apenas mais potência, mas uma qualidade também superior, atingindo a impressionante resolução de até 4K (4096 x 2160 pixels) e com clipes que podem ultrapassar dois minutos de duração.
Para se ter uma ideia dos avanços significativos, o Veo 2 é capaz de oferecer uma resolução quatro vezes superior e uma duração mais de seis vezes maior do que o que a Sora pode atualmente oferecer. Contudo, por ora, este é apenas um benefício teórico: na ferramenta experimental do Google, chamada VideoFX, onde o Veo 2 está disponível exclusivamente, os vídeos ainda são limitados a 720p e a uma duração de somente oito segundos. A Sora, por outro lado, pode produzir clipes de até 1080p e com duração de 20 segundos. Vale destacar que o VideoFX está funcionando a partir de uma lista de espera, mas o Google já anunciou que está ampliando o número de usuários que terão acesso a essa ferramenta esta semana.
O vice-presidente de produto do DeepMind, Eli Collins, compartilhou que o Veo 2 será disponibilizado através da plataforma de desenvolvedores Vertex AI da empresa, quando o modelo estiver pronto para uso em larga escala. Ao longo dos próximos meses, o Google promete continuar a aprimorar as funcionalidades do Veo 2, baseado no feedback dos usuários, com a expectativa de compartilhar mais atualizações no ano que vem. Isso certamente sugere um compromisso contínuo da empresa em refinar suas ferramentas de inteligência artificial para torná-las não apenas mais eficientes, mas também mais alinhadas com as necessidades do mercado.
Menos Erros nos Vídeos Gerados e Estilos Diversos
Uma das características marcantes do Veo 2 é sua capacidade de gerar vídeos a partir de um prompt de texto — como “Um carro correndo em uma autoestrada” — ou de um texto composto junto a uma imagem de referência. No entanto, a verdadeira inovação trazida pelo modelo é um aprimoramento na “compreensão” que a IA tem sobre a física e os controles de câmera, resultando em vídeos com imagens mais nítidas, especialmente em cenas que apresentam muito movimento. Isso se traduz em um desempenho notável em reprodução de texturas e na assistência em criar um movimento mais realista ao modelar a dinâmica de fluidos, como o ato de servir café em uma xícara.
Ademais, a DeepMind afirma que o Veo 2 é mais eficiente em captar a expressão humana de maneira mais “sutil”, colocando à disposição dos criadores de conteúdo uma caixa de ferramentas que, embora já inovadora, ainda está em fase de testes. No entanto, ao analisar alguns clipes que foram disponibilizados para a TechCrunch, os resultados são promissores, demonstrando uma forte capacidade do modelo em imitar animações no estilo Pixar e capturar fenômenos como a refração da luz. Mesmo assim, vale a pena ressaltar que, apesar do progresso, o Veo 2 ainda se vê desafiado pela “valley uncanny”, representando um desafio que modelos anteriores já enfrentavam.
Um exemplo disso pode ser observado em certos clipes que apresentam elementos como “olhos sem vida” em criaturas animadas e estranhas composições em cenas do cotidiano que resultarão em aprendizado adicional para a IA. O vice-presidente Collins reconheceu que há um caminho a percorrer: “Coerência e consistência são áreas a serem trabalhadas. O Veo pode aderir a um prompt por alguns minutos, mas não consegue manter a coerência em prompts complexos ao longo do tempo.” Este espaço de melhoria será essencial para aprofundar as capacidades e a aceitação do Veo 2 no mercado.
A Colaboração com Artistas e as Implicações Éticas do Uso de Dados
Um aspecto preocupante da evolução das IAs generativas como o Veo 2 são as implicações éticas relacionadas à utilização de dados. O treinamento do modelo se deu por meio de um vasto conjunto de dados, mas a DeepMind não detalhou as fontes específicas utilizadas para a extração de vídeos que alimentaram o modelo. Entretanto, o YouTube, sendo de propriedade do Google, é uma fonte provável, em que o modelo pode ter sido treinado com conteúdos disponíveis na plataforma. Essa prática levanta questões sobre consentimento e direitos autorais que a comunidade criativa vem levantando continuamente, especialmente diante da crescente preocupação com o impacto da IA em empregos artísticos e criativos.
Para responder a essas preocupações, a empresa lançou uma política de segurança e regulamentos para mitigar riscos associados a deepfakes e pelo menos um filtro de nível de prompt que pode prevenir a geração de conteúdo gráfico e violento, porcentualmente ainda em fase de implementação. Até que o Veo 2 se torne acessível ao público em geral, a garantia de defesa da política de indenização do Google não se aplicará. Isso demonstra um comprometimento da DeepMind com a segurança e a regulamentação em um espaço tão complexos como o da criação de conteúdos digitais.
Considerações Finais Sobre o Futuro do Veo 2
Encerramos esta análise do Veo 2 reconhecendo que, embora o modelo represente um vasto escopo de possibilidades para criadores e desenvolvedores, os desafios e as questões éticas precisam ser geridos com cuidado. O compromisso do DeepMind com feedbacks criativos e a colaboração com artistas, como Donald Glover e The Weeknd, além de outras figuras da indústria, promete moldar um futuro onde a IA se tornará uma aliada e não um substituto para a criatividade humana. Com a evolução contínua das tecnologias por trás do Veo 2, o que podemos esperar no futuro pode transformar as maneiras como consumimos e criamos conteúdo visual. Em última análise, a inclusão desses pontos de vista e a evolução das práticas de IA serão fundamentais para um desenvolvimento ético e responsável neste campo fascinante.