A crescente demanda por soluções eficazes de tradução mostrou-se uma oportunidade promissora para o uso de inteligência artificial generativa, e a startup Panjaya está impulsionando esse conceito a um novo patamar. A empresa apresenta o BodyTalk, um inovador sistema de dublagem que promete revolucionar a forma como os vídeos são dublados, permitindo a recriação hiper-realista da voz original de uma pessoa em outro idioma. Essa tecnologia não se limita apenas à dublagem, mas também realiza ajustes automáticos nos movimentos físicos do locutor, garantindo uma experiência visual que se alinha naturalmente aos novos padrões de fala. Com três anos de desenvolvimento em modo stealth, a Panjaya agora entra em evidência ao revelar sua primeira versão do produto, acompanhada de investimentos externos na ordem de 9,5 milhões de dólares.
A história da Panjaya é impulsionada pelo talento de Hilik Shani e Ariel Shalom, dois especialistas em aprendizado profundo que dedicaram grande parte de suas carreiras ao avanço dessa tecnologia para o governo israelense. Ambos decidiram deixar suas funções em 2021 para explorar uma nova jornada empreendedora. Há um ano e meio, Guy Piekarz, ex-executivo da Apple que ficou conhecido por fundar uma startup de sucesso comprada por essa gigante da tecnologia, juntou-se à equipe como CEO. O Matcha, sua antiga startup, foi vendido por um valor entre 10 milhões e 15 milhões de dólares, valor modesto diante do impacto que a Apple exerceria mais tarde no mercado de streaming.
Piekarz, ao sair da Apple, se deparou com a Panjaya graças à Viola Ventures, um de seus investidores. O impacto do produto foi instantâneo para ele; uma demonstração da tecnologia simplesmente o impressionou. O BodyTalk é um software que integra diferentes peças de tecnologia para criar o que pode ser considerado uma nova era de mídia sintética, começando por traduções baseadas em áudio que hoje suportam 29 idiomas. O resultado é uma dublagem em uma voz que imita o locutor original em um vídeo cujos movimentos labiais e outras expressões são automaticamente ajustados para corresponder às novas palavras e frases. Este processo é realizado de forma rápida pela plataforma assim que os usuários fazem o upload de seus vídeos, que também conta com ferramentas de edição adicionais. A Panjaya planeja um futuro que inclui uma API e melhorias em processamento em tempo real, já que o BodyTalk, atualmente, trabalha em um modo quase em tempo real, levando apenas alguns minutos para processar cada vídeo.
Um dos aspectos mais notáveis da Panjaya é o seu uso de modelos de linguagem avançados e ferramentas desenvolvidas internamente, especialmente em seu sistema de sincronia labial, que, segundo Piekarz, foi totalmente desenvolvido por sua equipe de pesquisa em inteligência artificial, refletindo a busca por soluções que atendam aos altos padrões que o mercado exige. A Panjaya tem focado no mercado B2B, com clientes notáveis como JFrog e a organização de mídia TED. As ambições da empresa incluem expansão em áreas como esportes, educação, marketing e saúde.
Os vídeos traduzidos pela Panjaya têm gerado resultados impressionantes, embora a natureza de sua tecnologia remeta a conceitos associados a “deepfakes”. Esse termo, entretanto, traz consigo conotações negativas que a Panjaya pretende evitar a todo custo. Piekarz reforça que a companhia se posiciona como parte da categoria que ele chama de “deep real”. A empresa introduz “guardiões” tecnológicos para proteger a utilização de sua tecnologia, permitindo que apenas o mercado B2B tenha acesso às suas ferramentas, desestimulando o uso indevido. Ele ainda acredita que, em um futuro próximo, ferramentas adicionais serão desenvolvidas, incluindo marcas d’água para identificar vídeos que foram modificados, tanto para fins legítimos quanto para combater desinformação.
A competição no campo de tradução baseada em inteligência artificial é acirrada, com nomes renomados como Vimeo e Eleven Labs se destacando, além de startups menores como Speechify e Synthesis. Contudo, o cenário de conteúdo legendado predomina na forma como os filmes e programas de TV são consumidos atualmente. Um estudo da CBS indicou que mais da metade dos telespectadores norte-americanos mantêm as legendas ativadas “algumas vezes” ou “o tempo todo”. As legendas se tornaram um elemento trivial na experiência de consumo de conteúdo, tanto por questões de acessibilidade quanto pela praticidade em ambientes barulhentos. Apesar disso, há um enorme mercado internacional em busca de conteúdo dublado, onde pesquisas apontam que conteúdos apresentados na língua nativa geram maior engajamento, especialmente em contextos B2B. A proposta da Panjaya sugere que se a dublagem for mais natural e fluida, os resultados poderiam ser impressionantemente melhores.
Alguns clientes da startup, como a TED, já começam a visualizar os benefícios disso, com vídeos traduzidos por meio da tecnologia da Panjaya apresentando um aumento de 115% nas visualizações e uma duplicação nas taxas de conclusão. Com um cenário tão promissor à frente, a Panjaya mostra que mesmo em um mercado em evolução, a dublagem de qualidade continua a ser um ouro em meio à crescente demanda por personalização e acessibilidade em conteúdo audiovisual.