A Twelve Labs está se destacando no cenário tecnológico ao desenvolver modelos de inteligência artificial (IA) que não apenas analisam vídeos, mas também permitem uma busca profunda dentro deles, facilitando aplicações bastante inovadoras. Jae Lee, cofundador da empresa, acredita que a capacidade de entender vídeos, assim como já acontece com textos, é a chave para liberar um novo potencial em várias indústrias, e ele pode ter razão. Afinal, a Twelve Labs já atraí investimentos de pesos pesados como Nvidia, Samsung e Intel, o que é, sem dúvida, um forte indicativo da relevância de sua proposta.
Utilizando os modelos da Twelve Labs, usuários têm a capacidade de buscar momentos específicos em vídeos, resumir trechos ou até mesmo fazer perguntas como “Quando a pessoa com a camisa vermelha entrou no restaurante?”. Essas funcionalidades não apenas oferecem um leque robusto de aplicações, mas também revelam a defasagem que existe em métodos tradicionais de busca em vídeo, que muitas vezes se resumem a uma busca por palavras-chave, limitando sua efetividade.
Lee, que possui formação em ciência de dados, expressa sua frustração com as práticas atuais de busca em vídeos, que são completamente inadequadas: “Vídeo é o meio que mais cresce — e o mais intenso em dados —, no entanto, a maioria das organizações não vai dispor de recursos humanos para filtrar todo o seu arquivo de vídeos. Mesmo que você tentasse etiquetar manualmente, isso não resolveria o problema. Encontrar um momento ou ângulo específico pode ser como procurar uma agulha em um palheiro.” Determinado a encontrar uma solução mais eficaz, Lee uniu forças com colegas como Aiden Lee, SJ Kim, Dave Chung e Soyoung Lee, que resultou na criação da Twelve Labs. A empresa treina modelos para mapear texto ao que está acontecendo na gravação, abrangendo ações, objetos e até sons de fundo.
Apesar de algumas empresas, como Google e Microsoft, já oferecerem serviços de análise de vídeo, Lee argumenta que os produtos da Twelve Labs trazem diferenciais significativos, especialmente no que se refere a opções de personalização. “Empresas como a OpenAI e Google estão investindo pesado em modelos multimodais de uso geral, mas esses modelos não são otimizados para vídeo. Nossa diferenciação está em ser ‘video-first’ desde o início… acreditamos que o vídeo merece nosso foco exclusivo — não é um complemento”, afirma Lee.
Além disso, os desenvolvedores podem criar aplicativos integrados aos modelos da Twelve Labs, abrangendo uma variedade de funções, como inserção de anúncios, moderação de conteúdo e geração automática de reels destacando os melhores momentos das gravações. Contudo, a questão da imparcialidade nos modelos tem sido uma preocupação levantada na indústria. Um estudo de 2021 constatou que o treinamento de um modelo de compreensão de vídeo utilizando clipes de notícias locais, que frequentemente abordam crimes de forma racificada, pode levar o modelo a aprender padrões de racismo. Embora a Twelve Labs esteja implementando testes de viés em todos os seus modelos antes do lançamento, conforme atestou Lee, ainda não publicaram benchmarks formais de viés, mas prometem que essas ferramentas estão a caminho.
Outrossim, a Twelve Labs continua a solidificar sua posição no mercado de análise de vídeo, mas está diversificando suas operações, explorando áreas como “qualquer-para-qualquer” busca e embeddings multimodais. Um dos modelos da Twelve Labs, Marengo, é capaz de pesquisar em imagens e áudio, além de vídeos, facilitando buscas com base em um áudio ou imagem de referência.
Recentemente, a Twelve Labs lançou uma API chamada Embed API, que permite criar embeddings multimodais para vídeos, textos, imagens e arquivos de áudio. Essas estruturas matemáticas capturam o significado e as relações entre diferentes pontos de dados, mostrando ser muito úteis em aplicações como a detecção de anomalias. O portfólio em expansão de produtos ajudou a startup a garantir clientes em setores como empresas, mídia e entretenimento. Alguns de seus parceiros de peso incluem Databricks e Snowflake, que estão integrando as ferramentas da Twelve Labs em suas ofertas.
A colaboração com a Databricks, por exemplo, possibilitou que os clientes acionassem o serviço de embedding da Twelve Labs a partir de suas pipelines de dados existentes. Para a Snowflake, estão sendo criados conectores para os modelos da Twelve Labs dentro do Cortex AI, um de seus serviços totalmente gerenciados de IA. Atualmente, a empresa conta com uma comunidade de mais de 30.000 desenvolvedores utilizando sua plataforma, que varia desde indivíduos que querem experimentar até grandes empresas que integram a tecnologia em seus fluxos de trabalho.
Na última investigação de Lee, foi revelado que a Twelve Labs conseguiu um novo investimento de US$ 30 milhões, o que elevou o total arrecadado para US$ 107,1 milhões. Esses recursos serão utilizados em desenvolvimento de produtos e contratações, com a empresa agora contando com 73 funcionários e planos de aumentar seu time nas áreas de engenharia, pesquisa e atendimento ao cliente.
Uma mudança recente na diretoria reforça o compromisso de crescimento da Twelve Labs: Yoon Kim, ex-CTO da SK Telecom e um dos arquitetos do Siri da Apple, foi nomeado presidente e diretor de estratégia da startup. Lee afirma que essa contratação incomum para uma empresa em estágio inicial demonstra a alta demanda que a Twelve Labs enfrenta. Yoon dividirá seu tempo entre os escritórios de San Francisco e Seul, sendo fundamental para expandir a presença global da empresa e impulsionar o crescimento futuro por meio de aquisições estratégicas.
Com olhar no futuro, Lee mencionou que a empresa pretende crescer para novos e adjacentes setores, como automotivo e segurança, nos próximos anos, e a recente parceria com a In-Q-Tel sugere que a segurança nacional pode ser uma das áreas a serem exploradas. “O investimento da In-Q-Tel reflete a versatilidade e o potencial da nossa tecnologia em diversos setores, incluindo a segurança nacional”, disse Lee. Ele concluiu reafirmando o compromisso da Twelve Labs com práticas éticas em suas inovações e a busca por oportunidades que façam um impacto positivo em diferentes esferas.