No universo da inteligência artificial, uma nova concorrência está surgindo e promete mudar as regras do jogo. Na quarta-feira, o laboratório chinês DeepSeek revelou ao mundo seu mais recente modelo de IA, batizado de DeepSeek-R1. Este lançamento tem chamado atenção por se apresentar como um modelo de raciocínio, prometendo competir diretamente com o aclamado modelo o1 da OpenAI. A inovação ocorre em um momento em que a IA busca não apenas processar informações, mas também compreender e analisar questões de forma mais profunda, o que poderá impactar significativamente diversas indústrias ao redor do mundo.
Características inovadoras do modelo DeepSeek-R1 e desafios enfrentados
Em contraste com a maioria dos modelos de IA disponíveis atualmente, modelos de raciocínio, como o DeepSeek-R1, destacam-se por sua capacidade de autoavaliação. Esse modelo dedica mais tempo a ponderar sobre perguntas e questionamentos, o que ajuda a contornar armadilhas comuns que costumam afetar outros modelos. Por exemplo, assim como o o1, o DeepSeek-R1 realiza análises de tarefas planejadas, passando por uma série de ações que o levam a uma resposta mais precisa. Esse processo de “pensar” pode ser demorado, levando até dezenas de segundos, dependendo da complexidade da pergunta em questão. Além disso, a empresa afirma que o DeepSeek-R1 demonstra um desempenho semelhante ao do modelo o1-preview da OpenAI em dois benchmarks populares de IA: AIME e MATH, sendo que o AIME utiliza outros modelos de IA para avaliar o desempenho do modelo e o MATH seria uma coleção de problemas de palavras.
Entretanto, o modelo ainda não é perfeito. Alguns comentários em redes sociais, especialmente no X, apontaram que o DeepSeek-R1 enfrenta dificuldades em tarefas de raciocínio lógico, como o clássico jogo da velha. Surpreendentemente, o modelo tem suas falhas, similar ao que ocorre com o o1. Além disso, a possibilidade de “jailbreaking”, onde usuários conseguem contornar as proteções do modelo e obter respostas não autorizadas, foi observada. Um exemplo notável foi quando um usuário conseguiu fazer com que o modelo fornecesse uma receita detalhada de metanfetamina, levantando preocupações sobre a segurança e a ética do uso da tecnologia.
Desafios de censura e regulação na China
Outra questão significativa que envolve o DeepSeek-R1 é a censura e a regulação governamental na China. O modelo foi projetado para bloquear consultas consideradas politicamente sensíveis. Em testes realizados, o modelo se recusou a responder perguntas sobre o líder chinês Xi Jinping, a Praça Tiananmen e as implicações geopolíticas da possível invasão de Taiwan pela China. Tais operações seguem as diretrizes rigorosas do governo chinês, que exige que os modelos de IA se adequem aos “valores socialistas centrais”. Essas regulamentações estão levando a um cenário onde muitos sistemas de IA chineses evitam discutir tópicos que possam provocar descontentamento entre os reguladores.
A crescente atenção dada aos modelos de raciocínio surge em um momento em que a validade das chamadas “leis de escalabilidade” está sendo reavaliada. Estas leis sugerem que, ao adicionar mais dados e poder computacional, as capacidades do modelo poderiam aumentar indefinidamente. No entanto, uma série de notícias recentes sugere que modelos de grandes laboratórios de IA, incluindo OpenAI, Google e Anthropic, não estão apresentando melhorias significativas como ocorria anteriormente. Essa nova realidade está impulsionando uma corrida por métodos inovadores de desenvolvimento e arquitetura de IA, sendo um exemplo disso a computação de teste, conhecida como test-time compute, que é o principio subjacente a modelos como DeepSeek-R1 e o o1.
O futuro promissor da DeepSeek e suas intenções de open source
O CEO da Microsoft, Satya Nadella, reafirmou essa tendência durante uma conferência, mencionando a importância da computação de teste. Essa abordagem fornece tempo extra de processamento aos modelos para concluir suas tarefas, o que pode ser crucial para aprimorar sua eficácia. A DeepSeek, que planeja tornar o DeepSeek-R1 um modelo de código aberto e liberar uma API, é apoiada pelo High-Flyer Capital Management, um fundo de hedge quantitativo que utiliza inteligência artificial para informar suas decisões de investimento.
Um de seus primeiros modelos, o DeepSeek-V2, foi um divisor de águas, forçando concorrentes como ByteDance, Baidu e Alibaba a reduzir os preços de uso de alguns de seus modelos, e em alguns casos, até torná-los completamente gratuitos. A High-Flyer, que é responsável pela construção de seus próprios clusters de servidores para o treinamento de modelos, possui clusters de última geração, incluindo 10.000 GPUs Nvidia A100, custando aproximadamente 1 bilhão de ienes, cerca de 138 milhões de dólares. Fundada por Liang Wenfeng, um graduado em ciência da computação, a High-Flyer tem como objetivo alcançar uma IA “superinteligente” por meio da organização DeepSeek.
Com o avanço das tecnologias de IA, observamos um cenário cada vez mais dinâmico e competitivo, com o surgimento de novas iniciativas que buscam não apenas inovar, mas também contornar as barreiras impostas pela ética e pela regulação. A batalha entre DeepSeek e OpenAI pode ser apenas o começo de uma nova era no campo da inteligência artificial, onde a razão e a lógica se tornam protagonistas. O que resta saber é como esses modelos influenciarão o nosso cotidiano e qual será o papel das regulamentações nesse novo contexto. Afinal, temos diante de nós uma tecnologia que pode, sim, transformar muitos aspectos de nossas vidas.