A tecnologia generativa de inteligência artificial tem avançado a passos largos, transformando a maneira como criamos e interagimos com o conteúdo digital. Contudo, com essa evolução, surgem também desafios significativos, como a verificação da origem e veracidade dos textos gerados. Em uma iniciativa para enfrentar essas questões, o Google anunciou a disponibilização geral do SynthID Text, uma ferramenta projetada para permitir que desenvolvedores implementem marcas d’água e detectem textos gerados por modelos de IA. Essa tecnologia pode ser baixada através da plataforma de inteligência artificial Hugging Face e do recém-atualizado Responsible GenAI Toolkit do Google.
O anúncio foi feito em um post na rede social X, onde a empresa declarou: “Estamos tornando nossa ferramenta de marca d’água SynthID Text de código aberto”. Com essa liberação, tanto desenvolvedores quanto empresas terão acesso gratuito a uma ferramenta que promete facilitar a identificação do conteúdo gerado por inteligência artificial. Mas afinal, como essa tecnologia funciona? O processo de geração de texto em modelos de IA começa com um comando, como “Qual é a sua fruta favorita?”, onde o modelo de geração prevê qual “token” possui a maior probabilidade de seguir outro, token por token. Os tokens, que podem ser um único caractere ou uma palavra, são os elementos fundamentais que um modelo generativo utiliza para processar informações.
A metodologia do SynthID Text envolve uma modulação na probabilidade de geração dos tokens. Segundo o Google, essa ferramenta insere informações adicionais na distribuição de probabilidade dos tokens, aumentando assim as chances de que o texto gerado contenha a marca d’água assim que concluído. O modelo atribui uma pontuação a cada token possível, refletindo a porcentagem da chance de inclusão no texto de saída. O padrão final de pontuação, que resulta da combinação das escolhas de palavras do modelo com as pontuações ajustadas, constitui a marca d’água. Essa sequência de pontuações é, então, comparada com os padrões esperados para textos marcados e não marcados, permitindo que o SynthID identifique se o texto foi de fato gerado por uma ferramenta de IA ou se provém de outras fontes.
Uma das afirmações mais notáveis do Google sobre o SynthID Text é que, desde que foi integrado aos seus modelos Gemini nesta primavera, a tecnologia não compromete a qualidade, precisão ou velocidade da geração de texto. Melhor ainda, ela opera eficientemente mesmo em textos que foram cortados, parafraseados ou modificados de alguma forma. No entanto, não se pode deixar de observar que a tecnologia de marca d’água possui suas limitações. Por exemplo, o SynthID Text enfrenta dificuldades com textos curtos ou aqueles que são reescritos ou traduzidos de outra língua, bem como com respostas a perguntas factuais.
O Google explica que, ao responder a comandos factuais, há menos oportunidades de ajustar a distribuição de tokens sem comprometer a precisão factual. Situações como perguntas sobre a capital da França ou solicitações para recitar um poema de William Wordsworth são exemplos em que o trabalho do SynthID Text pode ser bastante desafiador. Apesar das limitações, a empresa demonstra estar na vanguarda do combate à proliferação de conteúdo gerado artificialmente e das questões associadas à sua verificação.
Entretanto, o Google não está sozinho nesse esforço. A OpenAI, por exemplo, tem investigado métodos de marcação d’água para textos gerados há anos, embora tenha atrasado sua liberação devido a preocupações técnicas e comerciais. A implementação de técnicas de marcação d’água que sejam amplamente aceitas pode ajudar a reverter a tendência de “detetores de IA” que frequentemente sinalizam de maneira incorreta ensaios escritos em uma voz mais genérica. Resta saber, no entanto, se essa tecnologia será adotada de forma ampla e se um padrão ou tecnologia prevalecerá sobre as demais.
Por fim, é importante destacar que pode haver mecanismos legais que forcem os desenvolvedores a adotarem essa tecnologia. O governo da China já introduziu a obrigatoriedade da marca d’água para o conteúdo gerado por IA, enquanto o estado da Califórnia está considerando implementar legislação semelhante. A urgência da situação é evidente. Um relatório da Agência de Execução da Lei da União Europeia prevê que 90% do conteúdo online poderá ser gerado sinteticamente até 2026, o que apresentará novos desafios para a aplicação da lei em questões de desinformação, propaganda, fraude e engano.