Em um mundo onde a inteligência artificial evolui a passos largos, uma nova estrela nasceu no firmamento tecnológico. O laboratório chinês DeepSeek revelou recentemente o modelo que promete revolucionar o universo da IA: o DeepSeek V3. Lançado oficialmente em uma quarta-feira sob uma licença permissiva, o modelo convida desenvolvedores a baixá-lo e adaptá-lo para uma ampla gama de aplicações, incluindo projetos comerciais. Essa abertura representa um marco significativo, não apenas para a comunidade de desenvolvedores, mas também para o mercado de tecnologia global.
O DeepSeek V3 é projetado para lidar com tarefas variadas que exigem manuseio e interpretação de texto, incluindo programação, tradução e a elaboração de ensaios e e-mails a partir de solicitações descritivas. De acordo com testes de benchmark internos realizados pela própria DeepSeek, o modelo demonstra um desempenho superior não apenas em relação a outros modelos acessíveis de forma aberta, mas também em comparação com modelos fechados que requerem acesso através de uma API. Durante uma série de competições de programação organizadas pela plataforma Codeforces, a nova criação da DeepSeek superou concorrentes como o Llama 3.1 405B da Meta, o GPT-4o da OpenAI e o Qwen 2.5 72B da Alibaba, consolidando sua posição como um verdadeiro campeão no cenário da IA.
O desempenho do DeepSeek V3 se fortalece ainda mais em testes como o Aider Polgyglot, que avalia a capacidade de um modelo em criar novo código capaz de se integrar a códigos já existentes. Se você acredita que a corrida da inteligência artificial já estava a todo vapor, é melhor se segurar; isso é apenas o começo do que o DeepSeek V3 pode realizar.
Uma das áreas que chama a atenção é a magnitude do modelo. DeepSeek V3 foi treinado em um conjunto de dados colossal de 14,8 trilhões de tokens, onde um token pode ser compreendido como a representação de unidades de dados. Em termos práticos, 1 milhão de tokens correspondem a aproximadamente 750 mil palavras. O que mais impressiona é o número de parâmetros do modelo: impressionantes 685 bilhões, em comparação com os 405 bilhões do Llama 3.1 405B, que já era considerado um gigante em termos de complexidade. Para você ter uma ideia do que isso implica, o número de parâmetros geralmente indica a capacidade preditiva de um modelo e, costumamos ver que modelos mais robustos tendem a ter um desempenho superior.
Embora essa grandeza não venha sem desafios, o DeepSeek V3 precisou de um conjunto robusto de 2048 GPUs Nvidia H800 para ser treinado em um tempo recorde de aproximadamente dois meses. O valor gasto na criação do modelo se destaca também; a DeepSeek afirmou ter investido apenas 5,5 milhões de dólares, um valor ínfimo em comparação com os custos de desenvolvimento de modelos conhecidos, como o GPT-4 da OpenAI. Essa eficiência orçamentária, no entanto, não se traduz na facilidade de uso, pois uma versão não otimizada do modelo exigiria um banco de GPUs potente para funcionar em velocidade razoável, o que pode limitar a acessibilidade em um cenário mais amplo.
Outro aspecto notável à medida que o DeepSeek V3 se engrandece no mercado de IA é a questão das suas respostas. As visões políticas do modelo podem estar sujeitas a restrições. Um exemplo disso é a incapacidade de responder a questões relacionadas a eventos sensíveis, como a Praça da Paz Celestial, uma limitação que é reflexo do controle rigoroso exercido pelo governo chinês sobre conteúdos relacionados à tecnologia. Como uma empresa da China, a DeepSeek deve garantir que as respostas dos seus modelos reflitam os “valores socialistas centrais”, o que pode resultar em um acesso restrito a temas que provoquem a regulamentação do estado. Tal cenário dispara um alarme sobre as liberdades em torno do desenvolvimento e do uso da IA em território chinês.
Com a recente introdução do DeepSeek-R1, uma resposta ao modelo de raciocínio da OpenAI chamado o1, a empresa mostra ambição inegável. A DeepSeek opera com o apoio do High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza IA desta natureza para orientar decisões de investimento. Essa dinâmica não apenas fornece uma base financeira sólida, mas também posiciona a DeepSeek como um concorrente formidável contra gigantes como ByteDance, Baidu e Alibaba, que já precisaram reavaliar seus preços em decorrência das inovações apresentadas pelo novo modelo da DeepSeek.
Para completar, Liang Wenfeng, fundador da High-Flyer, expressou, em uma entrevista, que a prática de open sourcing é uma “atitude cultural”. Em suas observações, ele sinalizou que a abordagem de código fechado, como a adotada pela OpenAI, é um “moat temporário”. “Mesmo a estratégia fechada da OpenAI não conseguiu impedir outros de alcançarem seu patamar de eficiência”, afirmou Liang, ressaltando a crescente concorrência nesse espaço dinâmico.
Se as inovações de IA têm nos ensinado alguma coisa, é que a corrida nunca para e que sempre há espaço para surpresas. A evolução do DeepSeek V3 pode ser uma prova de que, mesmo frente a limitações, a criatividade e a técnica conseguem abrir novos horizontes nesse campo em constante mutação.