A quantização, uma das técnicas mais amplamente utilizadas no setor de Inteligência Artificial para aumentar a eficiência dos modelos, pode estar se aproximando de seus limites. Essa situação, conforme apontam especialistas, é um sinal de que o setor precisa reconsiderar suas abordagens para o treinamento e implementação desses modelos. Para entender melhor o que está em jogo, é necessário mergulhar nas complexidades da quantização e suas implicações nos modelos de IA.
Para contextualizar, a quantização refere-se à redução da quantidade de bits – as menores unidades que um computador pode processar – necessários para representar informações. Pense na situação em que alguém pergunta as horas: é mais comum responder “meio-dia” do que “doze horas, um segundo e quatro milissegundos”. Embora ambas as respostas estejam certas, uma delas é mais precisa e, dependendo do contexto, pode ser a mais adequada. Da mesma forma, a precisão necessária em um modelo de IA depende do contexto em que ele está inserido.
Os modelos de IA são compostos por vários componentes que podem ser quantizados, em particular, os parâmetros. Estes parâmetros são variáveis internas que os modelos utilizam para fazer previsões ou decisões. Essa abordagem é conveniente, uma vez que, ao serem executados, os modelos realizam milhões de cálculos. A quantização resulta em modelos que demandam menos recursos computacionais, tornando suas operações mais eficientes. Contudo, é importante frisar que esse processo é distinto da “destilação”, que envolve uma poda mais seletiva e complexa dos parâmetros.
Entretanto, a quantização pode ter uma gama de desvantagens que não foram claramente consideradas anteriormente. Um estudo conduzido por pesquisadores de instituições renomadas como Harvard, Stanford, MIT, Databricks e Carnegie Mellon revelou que modelos quantizados tendem a apresentar um desempenho inferior se a versão original, não quantizada, foi treinada por um longo período com grandes volumes de dados. Em outras palavras, em determinados contextos, pode ser mais eficiente treinar um modelo menor do que tentar adaptar um modelo grande e complexo para a quantização.
Essa revelação pode ser um alerta para as empresas de IA que treinaram modelos de tamanho excepcional, conhecidos por sua qualidade nas respostas, e os quantizaram para reduzir custos operacionais. Os efeitos dessa prática já estão se tornando evidentes. Recentemente, desenvolvedores e acadêmicos relataram que a quantização do modelo Llama 3 da Meta foi “mais prejudicial” em comparação com outros modelos, possivelmente devido à forma como ele foi treinado.
Tanishq Kumar, estudante de matemática de Harvard e autor principal do estudo, declarou: “Na minha opinião, o maior custo para todos na IA é e continuará a ser a inferência. Nosso trabalho mostra que uma maneira importante de reduzi-lo não funcionará para sempre.” É essencial ressaltar que, contrariamente à crença popular, a inferência em modelos de IA – o processo pelo qual um modelo, como o ChatGPT, gera respostas – é frequentemente mais cara em termos agregados do que o treinamento do modelo.
Tomando o exemplo do Google, que gastou aproximadamente 191 milhões de dólares no treinamento de seu modelo Gemini, se a empresa usasse esse modelo para responder metade de todas as consultas de pesquisa do Google com respostas de 50 palavras, os custos anuais chegariam a cerca de 6 bilhões de dólares. Essa disparidade de custos tem gerado discussões acaloradas sobre a necessidade de inovação nos métodos de treinamento e pragmatismo no uso dos dados.
Com base nisso, os principais laboratórios de IA adotaram a estratégia de treinar modelos em conjuntos de dados massivos, na suposição de que “escalar” – ou seja, aumentar a quantidade de dados e poder computacional durante o treinamento – levaria ao desenvolvimento de IAs cada vez mais competentes. A Meta, por exemplo, treinou o Llama 3 em um conjunto de 15 trilhões de tokens, enquanto seu antecessor, o Llama 2, foi treinado “apenas” com 2 trilhões de tokens. Em dezembro, a Meta lançou uma nova versão, o Llama 3.3 70B, que promete melhorar o desempenho central a um custo significativamente menor.
Contudo, evidências sugerem que a escalabilidade eventualmente oferece retornos decrescentes; relatos indicam que a Anthropic e o Google treinaram modelos enormes que não corresponderam às expectativas de avaliação interna. Apesar disso, pouco sinal existe de que a indústria esteja disposta a abandonar essas abordagens enraizadas de escalabilidade.
Se os laboratórios hesitam em treinar modelos em conjuntos de dados menores, existe a possibilidade de tornar esses modelos menos suscetíveis a degradações. De acordo com Kumar, a pesquisa indica que treinar modelos com “baixa precisão” pode torná-los mais robustos. A “precisão” refere-se ao número de dígitos que um tipo de dado numérico pode representar com precisão. Por exemplo, a maioria dos modelos atualmente é treinada com precisão de 16 bits, ou “meia precisão”, e posteriormente quantizada para 8 bits. Essa técnica é semelhante a realizar cálculos com algumas casas decimais e arredondar para a casa decimal mais próxima, frequentemente combinando o melhor de dois mundos.
Fabricantes de hardware como a Nvidia estão promovendo a precisão reduzida para a inferência de modelos quantizados. A empresa lançou um novo chip, o Blackwell, que suporta precisão de 4 bits, utilizando um tipo de dado chamado FP4, o que promete ser uma solução interessante para data centers com limitações em termos de memória e consumo de energia. No entanto, uma precisão de quantização extremamente baixa pode não ser desejável. Segundo Kumar, a menos que o modelo original tenha uma quantidade significativa de parâmetros, precisões inferiores a 7 ou 8 bits podem resultar em uma degradação perceptível na qualidade do modelo.
Embora esse assunto possa parecer técnico demais e até mesmo um tanto intimidador, a essência da questão é que os modelos de IA ainda não são totalmente compreendidos e as soluções conhecidas que funcionam em muitos tipos de computação, podem não ser aplicáveis aqui. Afinal, você não diria “meio-dia” se alguém perguntasse quando começou uma corrida de 100 metros, não é mesmo? É claro que a situação não é tão simples, mas a analogia serve para ilustrar o ponto. Kumar conclui: “O ponto chave do nosso trabalho é que existem limitações que não podem ser ignoradas. Esperamos que nossa pesquisa adicione nuances à discussão que frequentemente busca padrões de baixa precisão cada vez mais para treinamento e inferência.”
Kumar reconhece que o estudo de sua equipe foi realizado em uma escala relativamente pequena – planejando testar com mais modelos no futuro. No entanto, ele acredita que um dos insights revelados permanecerá: não existe uma solução mágica para reduzir custos de inferência. “A precisão dos bits importa, e não é de graça. Você não pode reduzi-la indefinidamente sem prejudicar os modelos. Eles têm uma capacidade finita, por isso, em vez de tentar acondicionar um quadrilhão de tokens em um modelo pequeno, na minha opinião, muito mais esforço será investido na curadoria e filtragem meticulosa dos dados, garantindo que apenas os dados de mais alta qualidade sejam utilizados em modelos menores. Estou otimista de que novas arquiteturas que busquem deliberadamente tornar o treinamento com baixa precisão estável serão essenciais no futuro.” Esta história foi originalmente publicada em 17 de novembro de 2024, e atualizada em 23 de dezembro com novas informações.