Uma técnica amplamente utilizada para melhorar a eficiência dos modelos de inteligência artificial (IA), a quantização, está se mostrando menos eficaz do que se acreditava. A quantização refere-se à redução do número de bits usados para representar informações em um modelo de IA. Embora a ideia de otimizar modelos para que funcionem mais rapidamente e com menor consumo de recursos seja atraente, as limitações dessa técnica podem trazer desafios significativos para a indústria. A crescente demanda por modelos de IA mais rápidos e acessíveis pode rapidamente encontrar um teto, e entender seus limites é fundamental para o futuro dos sistemas de IA.
entendendo a quantização: o que acontece quando simplificamos informações?
Para compreender a quantização, é essencial pensar em como lidamos com informações. Quando alguém pergunta as horas, a resposta “meio-dia” é uma maneira adequada e simplificada em vez de uma explicação mais detalhada sobre o tempo exato até o último milissegundo. Essa analogia ajuda a visualizar quantização: ambos os conceitos comunicam a mesma ideia, mas com diferentes níveis de precisão. O problema surge quando se tenta aplicar essa simplificação em modelos que já foram treinados exaustivamente com grandes volumes de dados.
Os modelos de IA são compostos por diversos componentes que podem ser quantizados, particularmente os parâmetros, que são as variáveis internas que os modelos utilizam para fazer previsões. Essa técnica se torna ainda mais atraente quando se considera que os modelos realizam milhões de cálculos simultaneamente. Modelos quantizados, que utilizam menos bits para representar seus parâmetros, têm a vantagem de serem menos exigentes em termos computacionais. Entretanto, a preocupação reside na possibilidade de que essa quantização prejudique a eficiência do modelo, especialmente quando ele foi originalmente treinado por longos períodos e com grandes conjuntos de dados.
a questão da eficiência: como a quantização pode piorar o desempenho?
Um estudo conduzido por pesquisadores de instituições renomadas, como Harvard, Stanford e MIT, revelou que os modelos quantizados tendem a se sair pior quando o modelo original, sem quantização, foi treinado extensivamente. Isso levanta a dúvida: seria melhor treinar um modelo menor desde o início em vez de tentar otimizar um grande modelo por meio da quantização? Essa situação pode ser preocupante para empresas de IA que treinam modelos massivos, conhecidos por melhorar a qualidade das respostas, mas que, ao passarem pelo processo de quantização, podem sofrer perdas significativas de desempenho.
Os efeitos dessa limitação já começaram a se manifestar, como relatado por desenvolvedores e acadêmicos que se depararam com o modelo Llama 3 da Meta. Este modelo, após passar pelo processo de quantização, revelou-se “mais prejudicial” em comparação com modelos de outras empresas, possivelmente devido à forma como foi treinado. O estudante de matemática de Harvard, Tanishq Kumar, que foi um dos autores do estudo, afirmou: “Para todos no campo da IA, o maior custo continua a ser a inferência, e nosso trabalho mostra que uma forma importante de reduzir isso pode não funcionar para sempre”.
o custo invisível da inferência em IA: uma realidade alarmante
Contrariando a crença comum de que o treinamento de modelos é o aspecto mais dispendioso no desenvolvimento de IA, a inferência – o processo de executar um modelo para obter respostas, como quando o ChatGPT fornece informações – é frequentemente mais custosa em termos agregados. Para se ter uma ideia, o Google gastou aproximadamente 191 milhões de dólares apenas para treinar um de seus modelos de destaque, o Gemini. No entanto, se a empresa utilizasse um modelo para gerar respostas de 50 palavras para metade de todas as consultas de busca, esse custo saltaria para cerca de 6 bilhões de dólares por ano.
Os principais laboratórios de IA têm seguido a prática de treinar seus modelos em conjuntos de dados massivos. A ideia predominante é que o “aumento da escala” – que envolve o uso de maiores volumes de dados e capacidade computacional no treinamento – resultará em sistemas de IA mais capazes. Um exemplo é o Llama 3, que foi treinado com um conjunto impressionante de 15 trilhões de tokens; para efeito de comparação, o modelo anterior, o Llama 2, foi treinado com apenas 2 trilhões de tokens. Contudo, evidências sugerem que o aumento de escala pode eventualmente oferecer retornos decrescentes, como demonstrado recentemente por tentativas de treinamento de grandes modelos por parte da Anthropic e do Google, que não conseguiram atingir as expectativas em seus benchmarks internos.
novas abordagens: como superar os obstáculos da quantização?
Diante de tantas dificuldades relacionadas à quantização, surge a pergunta: existe uma maneira alternativa de desenvolver modelos que sejam menos suscetíveis à degradação? Kumar e seus co-autores acreditam que o treinamento de modelos em “baixa precisão” pode ajudar nesse sentido. Para esclarecer, “precisão” refere-se ao número de dígitos que um tipo de dado numérico pode representar com precisão. A maioria dos modelos atualmente é treinada com precisão de 16 bits e, após o treinamento, quantizada para 8 bits. Ao fazer essa transição, algumas componentes do modelo, como seus parâmetros, são convertidos para um formato de baixa precisão, mas isso pode vir acompanhado de uma perda de precisão.
Fabricantes de hardware, como a Nvidia, estão promovendo a utilização de menor precisão para a inferência de modelos quantizados. Seu novo chip Blackwell suporta precisão de 4 bits, usando um tipo de dados conhecido como FP4, que, segundo a Nvidia, promete beneficiar centros de dados que enfrentam restrições de memória e energia. Contudo, Kumar observa que precisões extremamente baixas podem não ser desejáveis. A menos que o modelo original tenha um número de parâmetros significativamente grande, precisões inferiores a 7 ou 8 bits podem resultar em uma diminuição notável na qualidade do modelo.
implacáveis limites da simplificação na inteligência artificial
Em resumo, este estudo de Kumar e seus colegas destaca que não existe uma solução simples para os desafios da quantização em IA. A mensagem principal é clara: “as limitações não podem ser contornadas de forma ingênua”. Mesmo com as esperanças de que novas arquiteturas possam surgir para estabilizar o treinamento de baixa precisão, Kumar enfatiza que a redução nos custos de inferência não será uma jornada fácil. O futuro dos modelos de IA parecerá cada vez mais baseado na curadoria criteriosa de dados, garantindo que apenas dados de alta qualidade sejam utilizados. Em um cenário em que o mundo da IA continua a evoluir rapidamente, a sabedoria de que “não existe almoço grátis” nunca foi tão relevante quanto agora.