No universo da tecnologia, a inovação é uma constante. E na última terça-feira, durante a conferência Google I/O 2024, a gigante californiana fez um movimento ousado ao lançar o Veo, uma nova ferramenta de inteligência artificial destinada a criar clipes de vídeo em formato 1080p com duração de cerca de um minuto a partir de uma simples solicitação textual. O lançamento do Veo sinaliza a intenção da Google de competir diretamente com o Sora, da OpenAI, e com outras startups como Pika, Runway e Irreverent Labs. Com essa novidade, a empresa não apenas avança em suas capacidades de geração de vídeo, mas também estabelece um novo padrão para o mercado de IA.
O Veo surge como uma evolução do trabalho preliminar da Google na geração de vídeo, que foi mencionado em abril deste ano trago à tona através da família de modelos generativos de imagem, Imagen 2. No entanto, a grande vantagem do Veo em relação a seu antecessor é a capacidade de gerar vídeos com muito mais definição, superando as limitações de baixa resolução e duração reduzida. De acordo com Demis Hassabis, chefe do laboratório de Pesquisa e Desenvolvimento de IA da DeepMind, a atualização foi significativa. “Estamos explorando recursos como storyboard e a geração de cenas mais longas para ver até onde o Veo pode ir,” disse ele durante uma rodada de entrevistas virtuais. A capacidade do Veo de capturar diferentes estilos visuais e cinematográficos, incluindo paisagens e time lapses, demonstra seu potencial em um mercado em expansão.
Obviamente, a corrida pela criação de vídeos gerados por inteligência artificial não é um campo inexplorado, mas as capacidades do Veo se destacam, como evidenciado por Douglas Eck, líder de pesquisa na DeepMind. Durante uma sessão de apresentação, ele compartilhou exemplos escolhidos do que o Veo pode fazer, incluindo uma visualização aérea de uma praia movimentada, ressaltando sua habilidade de gerar detalhes complexos em cenários com muitos personagens em movimento. “O detalhe de todos os banhistas na praia é algo que tradicionalmente tem sido desafiador para modelos de geração de imagem e vídeo,” explicou Eck, ressaltando a qualidade impressionante da geração do Veo em comparação com os modelos rivais.
Mas o que alimenta a capacidade do Veo de criar esses vídeos impressionantes? O modelo foi treinado com uma enorme quantidade de filmagens, um conceito básico utilizado pela maioria dos modelos de IA generativa. Embora Eck não tenha revelado as fontes exatas do material de treinamento, ele insinuou que parte desse conteúdo pode ter vindo do YouTube da Google. Entretanto, ele garantiu que isso ocorreu em conformidade com os acordos com os criadores de conteúdos da plataforma. A recente atualização dos termos de serviço da Google ampliou os direitos da empresa em relação às informações coletadas, permitindo que ela utilize dados do YouTube para o treinamento de seus modelos de IA, gerando preocupações entre os criadores de conteúdo sobre as implicações éticas nesse processo.
Matérias publicadas pelo The New York Times em abril identificaram que a Google atualizou seus termos de serviço em parte para permitir a coleta de uma quantidade maior de dados, algo que pode ser visto como uma invasão de privacidade por muitos criadores. Eck mencionou que a Google está comprometida em estabelecer um alto padrão ético neste processo de treinamento de dados. “A solução para esse desafio de dados de treinamento será encontrada com todos os envolvidos se reunindo para entender os próximos passos,” defendeu ele. O cenário ético para a coleta e uso de dados torna-se complicado, especialmente sabendo que os criadores na plataforma não têm muita escolha a não ser seguir as regras impostas pela Google para alcançar um público mais amplo.
Enquanto isso, Veo já está sendo disponibilizado para um grupo seleto de criadores, incluindo Donald Glover, famoso como Childish Gambino, e sua agência criativa. A Google se posiciona como uma aliada para criadores, promovendo o Veo como uma ferramenta potencialmente inovadora e criativa. Para isso, a empresa implementou filtros para evitar a geração de conteúdo violento ou explícito, e utiliza a tecnologia SynthID da DeepMind para identificar os vídeos gerados por sua IA. No entanto, Eck reconheceu que a proteção contra a “regurgitação”, onde um modelo pode gerar cópias exatas de exemplos de treinamento, é um desafio ainda em aberto. Este panorama acirrado destaca a necessidade de soluções para evitar potenciais litígios em torno de direitos autorais, algo que rivais como a OpenAI já enfrentam.
Dentre as capacidades do Veo, também se destaca sua competência em entender movimentos de câmera e efeitos visuais a partir de prompts. O modelo é descrito por Eck como “bastante controlável”, o que significa que ele pode interpretar comandos de movimento e até mesmo simular leis da física em suas produções, aumentando ainda mais o realismo dos vídeos. Com essas características, o Veo tem o potencial de criar vídeos mais longos a partir de sequências de prompts, ampliando seu uso criativo face o que o público espera. Contudo, a Google admite que o Veo ainda precisa de ajustes, já que há inconsistências, como objetos que aparecem e desaparecem sem razão aparente, e falhas na simulação da física.
Enquanto o Veo continua a ser desenvolvido, ele permanecerá disponível apenas para um grupo restrito de usuários no Google Labs, a plataforma da empresa para tecnologias experimentais. As perspectivas futuras incluem a integração de algumas capacidades do modelo para produtos como YouTube Shorts, à medida que os desenvolvimentos avançam. “Este é um trabalho em andamento, muito experimental… há muito mais a ser feito do que já foi realizado,” afirmou Eck, sugerindo que, mesmo com suas limitações, o Veo representa um recurso valioso no campo da produção cinematográfica.
Tudo considerado, a apresentação do Veo na Google I/O 2024 não apenas redefine o que pensávamos ser possível em termos de criação de conteúdo gerado por inteligência artificial, mas também levanta questões complexas sobre ética, direitos autorais e a proteção dos criadores de conteúdo. Com um futuro incerto, mas promissor pela frente, a tecnologia parece estar finalmente se aproximando de um ponto em que a linha entre a criação humana e a gerada por máquinas se tornará cada vez mais tênue.