Recentemente, a OpenAI, desenvolvedora de um dos mais notórios sistemas de inteligência artificial do mundo, tornou-se o centro de uma nova controvérsia ligada a um processo judicial que envolve o The New York Times e o Daily News. Ambas as publicações estão processando a empresa sob a alegação de que seus trabalhos foram utilizados sem autorização para o treinamento de modelos de IA. Em um novo desenvolvimento, os advogados das publicações afirmam que engenheiros da OpenAI acidentalmente apagaram dados que podem ser cruciais para o caso.
Engenheiros Apagam Dados Importantes para Caso Judicial
No início da estação de outono, a OpenAI concordou em fornecer duas máquinas virtuais, que funcionam como computadores baseados em software dentro do sistema operacional de outro computador, para que os advogados do The Times e do Daily News pudessem realizar buscas em seus conjuntos de dados de treinamento de IA por conteúdo protegido por direitos autorais. Desde o dia 1º de novembro, os advogados e especialistas contratados pelas publicações gastaram mais de 150 horas na busca por suas obras no conjunto de dados da OpenAI.
Entretanto, em 14 de novembro, engenheiros da OpenAI apagaram todos os dados de busca das publicações que estavam armazenados em uma das máquinas virtuais. Essa informação veio à tona em uma carta apresentada ao Tribunal Distrital dos Estados Unidos para o Sul de Nova York na quarta-feira passada. Embora a OpenAI tenha tentado recuperar os dados apagados e tenha obtido sucesso em grande parte do processo, o formato de diretórios e os nomes dos arquivos foram “irrecuperavelmente” perdidos. Isso significa que os dados recuperados são incapazes de determinar onde os artigos das publicações foram utilizados para a construção dos modelos da OpenAI.
Desafios Adicionais para os Demandantes
Os advogados do The Times e do Daily News ressaltaram que as publicações foram forçadas a recriar seu trabalho do zero, utilizando uma quantidade significante de horas de trabalho e processamento computacional. Em sua comunicação, eles mencionaram que aprenderam apenas um dia antes que os dados recuperados eram inutilizáveis e, consequentemente, todo o trabalho realizado durante uma semana por especialistas e advogados deveria ser refeito. Essa situação motivou a apresentação da carta suplementar ao tribunal.
Embora os advogados das publicações tenham deixado claro que não acreditam que a exclusão dos dados tenha sido intencional, eles argumentam que tal incidente reforça que a OpenAI “está na melhor posição para buscar seus próprios conjuntos de dados” em busca de conteúdo que possa infringir os direitos autorais. Apesar disso, um porta-voz da OpenAI se absteve de fazer comentários sobre o caso.
Resposta da OpenAI e Persistência nas Alegaçõe
Na última sexta-feira, 22 de novembro, advogados da OpenAI apresentaram uma resposta à carta enviada pelos advogados do The Times e do Daily News. Nele, os advogados da OpenAI negaram categoricamente a acusação de que qualquer evidência tivesse sido deletada. Em vez disso, a empresa sugeriu que a responsabilidade pela configuração inadequada do sistema recaía sobre os demandantes, o que gerou a questão técnica. A defesa afirmou que os autores do processo haviam solicitado uma mudança de configuração em uma das várias máquinas fornecidas pela OpenAI para busca em datasets de treinamento. A implementação dessa mudança resultou na remoção da estrutura de pastas e de alguns nomes de arquivos em um dos discos rígidos, que, segundo eles, deveria ser usado como um cache temporário.
Ademais, a OpenAI reiterou que não há motivos para crer que qualquer arquivo tenha realmente sido perdido. Em casos anteriores e no contexto atual, a OpenAI defende que o treinamento de seus modelos a partir de dados disponíveis publicamente, incluindo artigos do The Times e do Daily News, constitui um uso justo, o que implica que a empresa não estaria obrigada a licenciar ou pagar pelo uso desses conteúdos, mesmo que obtenha lucro com os modelos.
Parcerias de Licenciamento e o Futuro da OpenAI
Apesar das controvérsias, a OpenAI tem celebrado acordos de licenciamento com um número crescente de novas publicações, incluindo a Associated Press, a proprietária do Business Insider, a Financial Times, a controladora da People, a Dotdash Meredith, e a News Corp. Embora os termos dessas transações não tenham sido divulgados publicamente, um parceiro de conteúdo, a Dotdash, teria recebido pelo menos $16 milhões por ano. A OpenAI não confirmou nem negou se treinou seus sistemas de IA com obras específicas protegidas por direitos autorais sem permissão.
Este caso representa uma importante intersecção entre inovação tecnológica e direitos autorais, levantando questões que podem influenciar o desenvolvimento de políticas e normas no futuro. Assim, a atual disputa judicial poderá não apenas definir o destino desta ação particular, mas também estabelecer precedentes significativos para a relação entre criadores de conteúdo e desenvolvedores de IA.