À medida que os laboratórios de inteligência artificial (IA) buscam alcançar sistemas superinteligentes, muitos estão começando a perceber que podem precisar alterar sua trajetória. As “leis de escalabilidade da IA”, os métodos e expectativas que impulsionaram o aumento das capacidades dos modelos nos últimos cinco anos, agora mostram sinais de retornos decrescentes. Essa constatação vêm de diversos investidores, fundadores e CEOs que dialogaram com veículos de comunicação especializados. As reflexões sobre essa nova realidade estão em linha com recentes relatórios que indicam que os modelos nas principais empresas de IA estão se aprimorando mais lentamente do que anteriormente.

A ideia de que a simples combinação de mais poder de computação e dados durante a pré-treinagem de grandes modelos de linguagem possa moldá-los em um deus digital quase omnisciente começa a parecer um tanto ingênua. É verdade que essa lógica alimentou o desenvolvimento de produtos como o ChatGPT e viabilizou previsões otimistas de que a inteligência geral artificial (AGI) se tornaria uma realidade em um futuro próximo. Entretanto, a voz de especialistas, como Ilya Sutskever, co-fundador da OpenAI, ecoa um novo chamado à prática. Ele observa que os players do setor estão à procura de alternativas para escalar seus modelos, uma vez que todos parecem concordar que, agora, a escalabilidade não poderá mais ser facilmente garantida pela mera adição de recursos.

O ambiente de IA, que antes parecia estar em um crescimento exponencial, agora sofre um importante reajuste. Marc Andreessen, co-fundador da Andreessen Horowitz, também abordou essa transição recente em um podcast, afirmando que as capacidades dos modelos de IA estão convergindo para um mesmo teto, o que sugere uma natureza limitante nessa escalabilidade. O surgimento de uma nova abordagem baseada no “compute no tempo de teste” promete ser a próxima revolução nesse cenário. Essa técnica, segundo o CEO da Microsoft, Satya Nadella, permitirá que os modelos de IA tenham mais tempo e recursos de computação para “pensar” antes de fornecer respostas, o que pode adicionar uma nova camada de complexidade e potencial a esse campo.

No entanto, o que exatamente são essas leis de escalabilidade da IA? Desde 2020, os rápidos avanços nos modelos de IA, em empresas como OpenAI, Google, Meta e Anthropic, podem ser atribuídos principalmente a uma única percepção: a utilização de mais poder de computação e dados durante a fase de pré-treinamento. Ao oferecer recursos abundantes durante essa fase crucial, os sistemas de aprendizado de máquina tiveram melhores desempenhos na previsão da próxima palavra ou frase. O sucesso inicial dessa primeira geração de leis de escalabilidade levou empresas de tecnologia a investirem pesado em suas estruturas de IA, e a Nvidia, fornecedora de GPUs, se tornou a companhia mais valiosa do mercado financeiro global.

Entretanto, os investidores que anteciparam um crescimento contínuo baseado nas estratégias anteriores agora se veem confrontados com a realidade de que as leis de escalabilidade não são imutáveis. Até o observador mais otimista precisa reconhecer que, se apenas aumentar a computação e os dados não gera mais resultados, é necessário buscar novas ideias para continuar progredindo. Robert Nishihara, co-fundador da Anyscale, uma empresa que alcançou um valuation de um bilhão de dólares por ajudar a escalar as cargas de trabalho da OpenAI, salienta que a atual fase de escalonamento requer uma reavaliação dos métodos empregados, especialmente em relação ao pós-treinamento, que se encontra em estágios iniciais de desenvolvimento.

A infinidade de avaliações que um sistema de IA pode ter lido sobre um determinado contexto, como em uma plataforma online de resenhas, pode não criar necessariamente um valor añadido em sua capacidade de prever. Nishihara sugere que, à medida que os métodos de pré-treinamento atingem suas limitações, o foco deve ser ampliado para técnicas mais desenvolvidas de pós-treinamento. Embora os desenvolvedores de modelos de IA continuem em busca de clusters de computação maiores e conjuntos de dados mais robustos, a expectativa de crescimento exponencial através dessas práticas tradicionais parece um tanto ilusória.

Em sua busca por novos horizontes, o conceito de compute no tempo de teste se destaca. OpenAI, ao apresentar sua série de modelos “o1”, afasta-se das leis de escalabilidade tradicionais. Essa nova abordagem, que utiliza recursos computacionais após a solicitação, ainda está sendo explorada, mas já apresenta revelações promissoras. O modelo o1, por exemplo, possui um método que permite re-promptar várias vezes, quebrando problemas maiores em questões menores antes de fornecer uma solução. Essa nova estratégia poderia revolucionar o processamento de informações nos modelos de IA.

Entretanto, o impacto desse novo paradigma pode não ser imediato. A maioria dos especialistas e pesquisadores na área não está alarmada com a desaceleração dos modelos. A crença de que ainda existe espaço para ganharem eficiência através das aplicações práticas atuais pode provar-se um antídoto temporário enquanto os laboratórios investigam novas maneiras de aprimorar seus modelos. Uma série de inovações em produtos e experiências de usuário são vistas como alternativas viáveis e poderiam sustentar um desempenho relevante sem a necessidade de elevar exponencialmente a complexidade dos modelos subjacentes. As experiências atuais, mesmo que não revolucionárias na essência, ainda podem proporcionar significativas melhorias em eficácia.

Por fim, enquanto os laboratórios de IA se dedicam a buscar alternativas para continuar avançando suas capacidades, as mudanças esperadas na forma como a inteligência artificial é desenvolvida nas próximas décadas prometem ser profundas. A indústria da IA deve se preparar para se adaptar e inovar, pois novos caminhos em busca de maior inteligência estão se formando, sem dúvida, em um cenário em mudança.

Similar Posts

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *