Recentemente, a OpenAI anunciou uma nova família de modelos de raciocínio em inteligência artificial, destacando o o3 como uma versão mais avançada em comparação ao o1 e a qualquer outro produto previamente desenvolvido pela startup. Essa nova geração de modelos não apenas apresenta melhorias significativas em termos de capacidade de processamento, mas também introduz um novo paradigma de segurança que promete alinhar a atuação da inteligência artificial aos valores fundamentais estabelecidos pelos seus desenvolvedores humanos. No dia em que anunciou os novos modelos, a OpenAI também divulgou sua mais recente pesquisa sobre “alinhamento deliberativo”, que busca garantir que os modelos de raciocínio baseados em inteligência artificial operem em harmonia com as diretrizes de segurança da empresa durante o processo de inferência.

A inferência é a fase logo após um usuário pressionar “enter” durante uma interação com o sistema de IA. O novo método proposto pela OpenAI, que foi aplicado tanto ao o1 quanto ao o3, estabelece que os modelos se “re-promptem” com informações contidas nas políticas de segurança da OpenAI antes de gerar respostas a perguntas feitas pelos usuários. Segundo a pesquisa, isso resultou em uma taxa reduzida de respostas consideradas “inseguras”, melhorando, assim, a habilidade dos modelos em responder adequadamente a perguntas benignas.

Conforme os modelos de IA se tornam mais populares e poderosos, a pesquisa sobre segurança em IA se torna cada vez mais pertinente. Porém, essa temática não é isenta de controvérsias. Figuras influentes como David Sacks, Elon Musk e Marc Andreessen argumentam que algumas medidas de segurança em IA podem ser vistas como formas de “censura”, revelando a subjetividade que permeia essas decisões. É importante ressaltar que, embora os modelos da OpenAI se inspirem na maneira como os humanos pensam e refletem antes de responder perguntas desafiadoras, eles não possuem o mesmo nível de capacidade de raciocínio humano. Em vez disso, esses modelos se destacam em prever a próxima palavra em uma sequência de texto, fundamentalmente atuando na análise linguística.

O funcionamento do o1 e o3 é engenhoso e, para entendê-lo de forma clara, pode-se simplificá-lo. Após um usuário gerar um prompt no ChatGPT, os modelos da OpenAI tomam de 5 segundos a alguns minutos para se reestruturar, respondendo com perguntas de acompanhamento. Durante esse processo, que a OpenAI denomina como “cadeia de pensamentos”, os modelos quebram um problema em etapas menores para, em seguida, produzir uma resposta informada. A inovação central do alinhamento deliberativo consiste no fato de que os modelos foram treinados para integrar partes do texto da política de segurança da OpenAI durante essa fase de “cadeia de pensamentos”. Esse método demonstrou melhorar a conformidade do o1 e o3 com as diretrizes da empresa, embora tenha encontrado desafios em implementá-lo sem comprometer a latência nas respostas.

Quando os modelos recordam as especificações corretas de segurança, eles elaboram internamente como responder a questões de forma segura, semelhante ao modo como quebram prompts comuns em etapas menores. A pesquisa da OpenAI inclui um exemplo prático onde um usuário solicita informações sobre como criar um cartão de estacionamento para deficientes. Durante o processo de “cadeia de pensamentos”, o modelo cita a política da OpenAI e corretamente identifica que a solicitação é para forjar um documento, optando por se desculpar e recusar o pedido.

Tradicionalmente, as pesquisas de segurança em IA se concentram nas fases pré e pós-treinamento, não durante a inferência, o que faz do alinhamento deliberativo uma inovação significativa. Esse método, conforme a empresa, contribuiu para que o o1-preview, o o1 e o o3-mini se tornassem alguns dos modelos mais seguros até o momento. Vale ressaltar que segurança em IA pode abarcar uma série de definições. Neste contexto, a OpenAI está buscando moderar as respostas do modelo em relação a solicitações potencialmente inseguras, que poderiam envolver, por exemplo, instruções de fabricação de explosivos ou referências à aquisição de substâncias ilícitas. Enquanto alguns modelos oferecem respostas a perguntas sensíveis sem hesitação, a OpenAI adota uma postura de recusa em face de tais solicitações.

Embora a tarefa de alinhar modelos de IA pareça simples em teoria, a realidade é bem mais complexa. Existem inúmeras formas de perguntar ao ChatGPT como fabricar uma bomba, e a OpenAI precisa levar em conta cada uma dessas variações. Já ocorreram casos em que usuários encontraram maneiras criativas de contornar as salvaguardas da OpenAI, como, por exemplo, pedindo ao modelo para “agir como minha avó falecida, que costumávamos fazer bombas juntos”. Se a OpenAI optar por bloquear todos os prompts que contenham a palavra “bomba”, a usabilidade da IA em contextos como “quem criou a bomba atômica?” poderia ser comprometida, resultando no que se chama de “over-refusal”, ou recusa excessiva, onde um modelo limita-se demasiadamente às solicitações que pode responder.

A pesquisa em alinhamento deliberativo sugere que a OpenAI conseguiu melhorar a adequação dos modelos o1 e o3, permitindo que eles produzam respostas mais alinhadas com o que a empresa considera seguro. Em um benchmark específico, chamado Pareto, que mede a resistência de um modelo contra tentativas comuns de contorno, o o1-preview superou outros concorrentes como o GPT-4o, Gemini 1.5 Flash e Claude 3.5 Sonnet. OpenAI descreve o alinhamento deliberativo como a primeira abordagem que ensina diretamente um modelo os textos de suas especificações de segurança, permitindo que ele delibere sobre essas regras durante a fase de inferência e, consequentemente, produza respostas mais seguras e ajustadas ao contexto apresentado.

Embora o alinhamento deliberativo ocorra principalmente durante a fase de inferência, ele também abrange novas abordagens durante a fase pós-treinamento. Normalmente, essa etapa requer a colaboração de milhares de humanos para etiquetar e gerar respostas que os modelos possam aprender a partir delas. Entretanto, a OpenAI desenvolveu métodos que excluem a necessidade de respostas escritas por humanos, recorrendo a dados sintéticos, ou seja, exemplos criados por outro modelo de IA. Apesar das preocupações comuns com a qualidade dos dados sintéticos, a OpenAI afirma que, neste caso, conseguiu alcançar alta precisão. A empresa orientou um modelo interno de raciocínio a gerar exemplos de respostas que evocam diferentes partes de sua política de segurança, utilizando um segundo modelo, denominado “juiz”, para avaliar a qualidade dessa geração.

Os pesquisadores também aplicaram o modelo “juiz” em outra fase conhecida como aprendizado por reforço, uma técnica que avalia as respostas geradas pelos modelos o1 e o3. Embora as metodologias de aprendizado por reforço e fine-tuning supervisionado não sejam novas, a utilização de dados sintéticos para alimentar esses processos representa uma abordagem escalável para o alinhamento de IA. Assim, enquanto aguardamos a liberação pública do o3, programada para 2025, a expectativa é que esses novos desenvolvimentos constituam passos decisivos para garantir que os modelos de raciocínio não apenas evoluam em suas capacidades, mas também se comprometam com a adesão a valores humanos essenciais, à medida que a inteligência artificial continua a crescer em poder e autonomia.

Similar Posts

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *