No último sábado, Oleksandr Tomchuk, CEO da Triplegangers, recebeu um comunicado preocupante: o site de e-commerce da sua companhia estava fora do ar. Inicialmente, acreditou que se tratava de algum tipo de ataque de negação de serviço distribuído, algo que poderia ter consequências desastrosas para um negócio que, nos últimos dez anos, construiu uma vasta base de dados de “gêmeos digitais humanos” – essencialmente, arquivos 3D escaneados de modelos humanos reais. Entretanto, ao investigar o que estava realmente acontecendo, Tomchuk descobriu que o culpado era, na verdade, um bot oriundo da OpenAI, que estava tentando extrair incessantemente toda a imensa quantidade de dados disponíveis no site da empresa.

Em conversa com o TechCrunch, Tomchuk explicou que a Triplegangers possui mais de 65.000 produtos, cada um com sua própria página repleta de informações e imagens. Com a intenção de acessar todo esse conteúdo, o bot da OpenAI fez “dezenas de milhares” de requisições ao servidor, tentando baixar não apenas um volume quase incontável de fotos, mas também as descrições detalhadas de cada item. Como se um ataque DDoS virtual tivesse sido orquestrado por um programa, a Triplegangers se viu esmagada sob o peso das solicitações do bot. “A OpenAI utilizou mais de 600 endereços IP para realizar a coleta de dados, e ainda estamos analisando os logs da última semana, talvez seja um número muito maior”, informou o CEO.

A situação se torna ainda mais crítica quando se considera o fato de que o site da Triplegangers não é apenas uma vitrine, mas a própria essência do negócio. A empresa é composta por uma equipe enxuta de sete funcionários, mas que, com engenho e dedicação, alcançou o que se autodenomina a maior base de dados de arquivos digitais 3D do mercado. Esses arquivos são comercializados para artistas digitais, desenvolvedores de jogos e qualquer pessoa que busque recriar características humanas autênticas em ambientes virtuais.

Embora a Triplegangers possua uma página de termos de serviço que proíbe explicitamente a utilização de bots sem permissão, essa medida se provou ineficaz. Para que um site seja protegido eficazmente, é necessário utilizar um arquivo robot.txt corretamente configurado, com tags específicas que instruem o bot da OpenAI, chamado GPTBot, a não acessar o conteúdo. A OpenAI também opera outros bots, como ChatGPT-User e OAI-SearchBot, cada um com suas próprias diretrizes, de acordo com a página de informações da empresa sobre seus bots.

O robot.txt, conhecido como Protocolo de Exclusão de Robots, foi criado para orientar os motores de busca sobre o que não deve ser indexado na web. A OpenAI afirma que respeita esses arquivos desde que estejam devidamente configurados com suas tags específicas para não rastrear. Contudo, a empresa também alerta que pode levar até 24 horas para que suas tecnologias reconheçam uma atualização nesse arquivo. Tomchuk aprendeu da maneira mais difícil que, na ausência de uma configuração adequada, a OpenAI e outros bots assumem que têm a liberdade de coletar informações sem restrições. A vara da legislação não está como um sistema de opt-in.

Além da frustração de ver seu site incapacitado durante as horas de expediente nos Estados Unidos, Tomchuk também se queixa da expectativa de um aumento significativo na fatura da AWS, devido toda atividade frenética de CPU e download gerada pelo bot. A situação enfatiza a fragilidade na proteção de direitos autorais em um ambiente digital onde a coleta de dados é recorrente. A empresa de Tomchuk, que lida com a digitalização de pessoas reais, está particularmente vulnerável. Ele pondera sobre as implicações das leis como a GDPR na Europa, que não permitem que qualquer um capture e utilize a imagem de qualquer pessoa disponível na web.

Após dias de tentativas desenfreadas do bot da OpenAI, a Triplegangers finalmente implementou um arquivo robot.txt corretamente configurado e também criou uma conta no Cloudflare para bloquear não apenas o GPTBot, mas também outros bots indesejados que havia descoberto, como Barkrowler e Bytespider. A essa altura, Tomchuk ficou esperançoso de que as tentativas de coleta de dados estavam contidas, e ao amanhecer da quinta-feira, seu servidor não havia travado como antes.

No entanto, a incerteza persiste, uma vez que Tomchuk não possui meios viáveis de descobrir exatamente o que foi acessado ou coletado pelo bot da OpenAI. A comunicação com a empresa se revelou infrutífera, uma vez que a OpenAI não respondeu aos pedidos de comentário feitos pelo TechCrunch. Para complicar ainda mais, a promessa de uma ferramenta de exclusão foi deixada sem cumprimento, conforme relatado recentemente pela mesma publicação.

Esse cenário é especialmente desafiador para a Triplegangers, onde as questões de direitos de imagem são considerações sérias. O que torna a situação ainda mais complicada é o fato de que a empresa possui um banco de dados com informações meticulosamente anotadas, desde etnia e idade até marcas corporais como tatuagens e cicatrizes. Isso o torna um alvo atraente para bots de inteligência artificial, especialmente em um mercado onde startups multibilionárias, como a Scale AI, dependem da coleta massiva de dados para treinar suas tecnologias. Ironia ou não, foi a avareza do bot da OpenAI que chamou a atenção da Triplegangers para sua vulnerabilidade; se a coleta tivesse sido menos agressiva, ele talvez jamais tivesse percebido.

Tomchuk se mostra alarmado com a situação, afirmando que parece haver uma brecha nas normas que permite que essas empresas coletem dados sem uma clara autorização. A responsabilidade recai sobre os ombros dos empresários que precisam aprender a defender suas informações sem antes serem atacados. As logs do servidor da Triplegangers revelaram a voracidade com que um bot da OpenAI acessou o site, utilizando uma quantidade impressionante de endereços IP. Ele faz um apelo a outras pequenas empresas online para que estejam atentas ao comportamento de bots e coletem suas próprias evidências. Recentemente, proprietários de outros sites também relataram ao Business Insider como os bots da OpenAI causaram colapsos em seus sites e aumentaram suas contas na AWS.

De acordo com novas pesquisas da empresa de publicidade digital DoubleVerify, o problema das atividades de coleta de IA aumentou de forma exponencial em 2024, com uma elevação de 86% no tráfego inválido geral – tráfego que não provém de usuários reais. Contudo, Tomchuk alerta que a maioria dos sites permanece ignorante sobre suas vulnerabilidades. “Agora temos que monitorar diariamente a atividade das logs para identificar esses bots”, observou. Em última análise, o paradoxo é que o funcionamento dessas tecnologias agride o princípio de consentimento que deveria guiar a coleta de dados online. “Eles deveriam pedir permissão, e não apenas raspar os dados”, conclui Tomchuk, refletindo sobre um dilema moderno que muitos negócios enfrentam na era digital.

Similar Posts

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *