A constante evolução e crescente popularidade da inteligência artificial (IA) traz consigo desafios significativos, como o alto custo de desenvolvimento e operação dessas tecnologias. Com estima-se que os custos operacionais da OpenAI possam atingir a casa dos 7 bilhões de dólares neste ano e a previsão do CEO da Anthropic quanto a modelos que podem ultrapassar a marca dos 10 bilhões de dólares em breve, a busca por alternativas que reduzam os gastos se torna cada vez mais urgente. Nesse contexto, as inovações na arquitetura de IA se destacam como uma solução promissora.

Entre as startups que se aventuram nesse campo está a Cartesia, cofundada por Karan Goel, que está desenvolvendo modelos conhecidos como state space models (SSMs). Essa nova abordagem arquitetônica busca manipular grandes volumes de dados — incluindo texto e imagens — de maneira mais eficiente e moderna. Goel é um defensor da ideia de que novas arquiteturas de modelos são essenciais para o desenvolvimento de ferramentas de IA realmente úteis, especialmente em um mercado tão competitivo, tanto comercial quanto de código aberto.

A trajetória acadêmica da equipe fundadora

Antes de dar vida à Cartesia, Karan Goel fez suas contribuições no laboratório de IA da Universidade de Stanford, onde obteve seu Ph.D. sob a orientação de notáveis cientistas, como o professor Christopher Ré. Durante esse período, ele se tornou amigo e colaborador de Albert Gu, também doutorando na faculdade. A pesquisa dos dois resultou nos SSMs, um modelo que prometia revolucionar o campo da inteligência artificial. Goel, após sua graduação, trabalhou em empresas como Snorkel AI e Salesforce, enquanto Gu se tornou professor assistente na Carnegie Mellon University, mantendo uma colaboração contínua em suas pesquisas.

Em 2023, a dupla, acompanhada por outros ex-colegas da Stanford — Arjun Desai e Brandon Yang — uniu forças para fundar Cartesia, com a missão de comercializar suas investigações sobre SSMs. O time de fundadores, que também conta com Christopher Ré, vem trabalhando em inovações a partir de Mamba, um projeto que se tornou bastante popular no mundo dos SSMs. Criado por Gu e pelo professor Tri Dao da Universidade de Princeton, Mamba começou como um projeto de pesquisa aberta e ainda passa por refinamentos regulares.

A eficiência dos SSMs em comparação aos transformadores

No atual cenário da IA, a maioria dos aplicativos, incluindo ChatGPT e Sora, utiliza uma arquitetura chamada transformador. Essa arquitetura funciona por meio de um sistema que acumula informações em um estado oculto, o que é parte da razão pela qual os transformadores são extremamente poderosos. No entanto, essa mesma característica gera ineficiências. Para produzir qualquer output, como uma palavra representando um livro já processado, o transformador precisa revisar todo seu estado oculto, um esforço que consome uma quantidade considerável de recursos computacionais.

Em contrapartida, os SSMs compactam todos os pontos de dados anteriores em um resumo conciso, atualizando seu estado à medida que novas informações surgem e descartando a maior parte dos dados já processados. Essa característica permite que os SSMs lidem com grandes volumes de dados e superem os transformadores em certas tarefas de geração de dados. À medida que os custos de inferência aumentam, essa proposta se torna atraente para empresas que buscam soluções de IA financeiramente sustentáveis.

Cartesia e seus desafios éticos

Como um laboratório de pesquisa comunitária, Cartesia desenvolve seus SSMs em colaboração com organizações externas e, ao mesmo tempo, realiza pesquisas internas. Um de seus mais recentes projetos é a Sonic, um SSM capaz de clonar a voz de uma pessoa ou gerar uma nova voz ajustando o tom e a cadência da gravação. Goel afirma que Sonic é o modelo mais rápido em sua categoria, demonstrando excepcional desempenho com dados de longo prazo, como áudio, enquanto mantém a estabilidade e a precisão. Entretanto, a Cartesia enfrentou dilemas éticos semelhantes aos de outros desenvolvedores de IA, especialmente em relação ao uso de dados em larga escala.

Particularmente, a Cartesia utilizou determinados SSMs com um conjunto de dados conhecido como The Pile, que contém livros protegidos por direitos autorais. Embora muitos em sua indústria argumentem que a doutrina de uso justo os protege de reivindicações de violação, autores têm processado empresas como Meta e Microsoft por alegadamente treinar modelos usando esse conjunto de dados. Além disso, a falta de salvaguardas evidentes para o clonado de vozes através da Sonic levanta preocupações. Goel, porém, afirmou que a empresa está trabalhando em sistemas de verificação para garantir a segurança e a confiabilidade dos modelos, uma vez que reconhecem que essa é uma questão contínua que requer constante aprimoramento.

O crescimento da Cartesia e suas visões futuras

Atualmente, centenas de clientes estão utilizando o acesso à API do Sonic, incluindo a aplicação de chamadas automatizadas Goodcall. O modelo da Cartesia é gratuito até 100 mil caracteres lidos em voz alta, com planos pagos que chegam a 299 dólares por mês para 8 milhões de caracteres. Essa política de uso de dados dos clientes para treinamento de modelos é comum, mas pode não agradar a usuários preocupados com a privacidade. Notavelmente, o CEO da Goodcall, Bob Summers, destacou que escolheu a Sonic por ser o único modelo com latência abaixo de 90 milissegundos, superando suas alternativas em até quatro vezes.

O Sonic está sendo utilizado em diversas aplicações, desde jogos até dublagens, mas Goel acredita que ainda há muito a ser explorado com os SSMs. Ele possui uma visão ambiciosa de modelos que consigam operar em qualquer dispositivo e que compreendam e gerem diversos modos de dados — como texto, imagens e vídeos — quase instantaneamente. Neste contexto, a Cartesia lançou um beta do Sonic On-Device, uma versão otimizada para ser utilizada em dispositivos móveis, oferecendo funcionalidades como tradução em tempo real.

Além disso, a Cartesia publicou a Edge, uma biblioteca de software para otimizar SSMs em diferentes configurações de hardware, e a Rene, um modelo de linguagem compacto. Segundo Goel, a equipe de 26 colaboradores da Cartesia está em uma posição favorável para o sucesso, especialmente após um novo investimento de 22 milhões de dólares liderado pela Index Ventures, elevando o total arrecadado pela empresa para 27 milhões de dólares.

Shardul Shah, parceiro da Index Ventures, acredita que a tecnologia da Cartesia poderá um dia impulsionar aplicativos em diversos setores, como atendimento ao cliente, vendas, marketing, robótica e segurança. “Desafiando a dependência tradicional de arquiteturas baseadas em transformadores, a Cartesia desbloqueou novas formas de construir aplicações de IA em tempo real, eficientes em custo e escaláveis”, afirmou. À medida que o mercado demanda modelos mais rápidos e eficientes, seria intrigante observar como a Cartesia irá atender a essas necessidades emergentes e talvez até mesmo liderar a próxima onda de inovação em IA.

Similar Posts

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *