O magnata Elon Musk, reconhecido por sua visão audaciosa em diversas indústrias, incluiu a inteligência artificial em sua lista de preocupações. Durante uma conversación ao vivo com Mark Penn, presidente da Stagwell, Musk concordou com outros especialistas da área, indicando que já esgotamos em grande parte o estoque de dados do mundo real disponíveis para o treinamento de modelos de IA. Ele afirmou categoricamente: “Basicamente, agora esgotamos a soma cumulativa do conhecimento humano em treinamento de IA… Isso aconteceu basicamente no ano passado.” Esta declaração lança um olhar crítico sobre os desafios futuros enfrentados pela indústria da inteligência artificial.
A discussão entre Musk e Penn, transmitida na plataforma X, trouxe à tona um tema que também foi abordado anteriormente na Conferência NeurIPS por Ilya Sutskever, ex-cientista-chefe da OpenAI. Sutskever mencionou que a indústria de IA chegou ao que ele chama de “pico de dados”, prevendo que a escassez de dados de treinamento forçará uma mudança significativa na forma como os modelos de IA são desenvolvidos. Em um contexto onde o crescimento exponencial da IA se depara com a limitação de dados de qualidade, Musk sugere que o futuro do treinamento de modelos de IA pode repousar sobre a utilização de dados sintéticos, gerados pelos próprios modelos de IA, como uma solução viável.
Musk afirmou: “A única maneira de suplementar [os dados do mundo real] é com dados sintéticos, onde a IA cria [dados de treinamento].” Para ele, essa abordagem permitirá que as IA se autoavaliem e passem por um processo contínuo de autoaprimoramento, o que poderia, potencialmente, melhorar a qualidade e a eficácia dos modelos. Essa perspectiva se alinha com as estratégias já adotadas por grandes corporações do setor tecnológico, como Microsoft, Meta, OpenAI e Anthropic, que já estão utilizando dados sintéticos para treinar seus modelos de IA de destaque.
De acordo com dados da Gartner, estima-se que, em 2024, cerca de 60% dos dados utilizados em projetos de IA e análise de dados sejam gerados de maneira sintética. Modelos inovadores, como o Phi-4 da Microsoft, que foi disponibilizado como código aberto recentemente, exemplificam essa nova abordagem. O Phi-4 foi treinado tanto com dados sintéticos quanto com dados do mundo real, assim como os modelos Gemma do Google. Por sua vez, a Anthropic utilizou dados sintéticos no desenvolvimento de seu sistema mais eficaz, Claude 3.5 Sonnet, enquanto a Meta aprimorou sua mais recente série de modelos Llama através de dados gerados por IA.
Embora o uso de dados sintéticos apresente vantagens significativas, como a redução de custos — por exemplo, a startup de IA Writer revelou que seu modelo Palmyra X 004, desenvolvido quase inteiramente com fontes sintéticas, custou apenas US$ 700 mil, enquanto um modelo de tamanho comparável da OpenAI é estimado em impressionantes US$ 4,6 milhões — a estratégia não é isenta de desvantagens.
Certain research indicates that relying on synthetic data can lead to model collapse, where models may become less innovative and more biased in their outputs, potentially jeopardizing their effectiveness. This raises a critical point of concern: if the models creating the synthetic data bear inherent biases and limitations, their outputs will inevitably reflect those same flaws. Portanto, a discussão em torno do uso de dados sintéticos é complexa e suscita questionamentos sobre a ética e a eficácia da inteligência artificial no futuro.
Assim, à medida que a comunidade de IA navega por esse novo território, a necessidade de encontrar um equilíbrio entre dados reais e sintéticos, preservando a criatividade e a objetividade da tecnologia, torna-se uma tarefa crucial. Para o futuro da inteligência artificial, essa transição para o uso de dados sintéticos pode servir como um ponto de virada, tanto promissor quanto desafiador, estabelecendo uma nova era onde a inovação e as limitações coexistem em um equilíbrio delicado.