No desenrolar de uma controvérsia legal que envolve a Meta Platforms, a empresa de tecnologia co-fundada por Mark Zuckerberg, surgiram novas alegações que indicam que o CEO da companhia deu aval para que a equipe responsável pelos modelos de inteligência artificial Llama fizesse uso de um conjunto de dados composto por e-books e artigos de periódicos com direitos autorais, todos supostamente obtidos de maneira ilegal. O processo, denominado Kadrey v. Meta, é um dos muitos que surgiram contra gigantes da tecnologia que estão desenvolvendo sistemas de IA, acusando-os de utilizar obras protegidas por direitos autorais sem a devida autorização. As alegações envolvem conflitos entre o conceito de uso justo, que a Meta e outras empresas alegam usar como defesa, e os direitos dos criadores de conteúdo que se opõem a essa argumentação.
De acordo com documentos recentemente desclassificados registrados no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, os autores do processo, incluindo nomes renomados como Sarah Silverman e Ta-Nehisi Coates, narram os depoimentos fornecidos pela Meta em uma audiência realizada no final do ano passado. Nesse depoimento, foi revelado que Zuckerberg havia aprovado o uso do conjunto de dados conhecido como LibGen para o treinamento dos modelos Llama. O LibGen, que se autodenomina um “agregador de links”, oferece acesso a obras com direitos autorais de editoras renomadas, como Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education, e tem um histórico de processos por infração de direitos autorais, com multas de dezenas de milhões de dólares.
Atestando as alegações dos autores do processo, testemunhos e documentos indicam que, apesar das preocupações manifestadas dentro da própria Meta, que incluíam integrantes da equipe de inteligência artificial, Zuckerberg autorizou a utilização do LibGen para treinar pelo menos um dos modelos Llama. Funcionários da Meta descreveram o LibGen como um “conjunto de dados que sabemos ser pirateado”, alertando que seu uso “poderia prejudicar a posição de negociação da Meta perante os reguladores”, revelando a fragilidade da defesa da empresa. Um memorando enviado aos tomadores de decisão da Meta na área de IA evidenciou que, após a “escalada para MZ”, a equipe de IA da empresa estava “autorizada a usar o LibGen”. Aqui, “MZ” é uma referência clara a “Mark Zuckerberg”. As novas descobertas ligam-se ainda a reportagens anteriores, como aquelas publicadas pelo The New York Times, que insinuam que a Meta teria utilizado métodos questionáveis para reunir dados para sua inteligência artificial. Um dos métodos incluía a contratação de funcionários na África para resumir livros e a consideração de adquirir a editora Simon & Schuster. Contudo, os executivos da Meta acabaram decidindo que as negociações para obter licenças demorariam demais e que o uso justo seria uma defesa válida.
Além disso, o processo revela novas acusações de que a Meta pode ter tentado ocultar suas supostas infrações ao remover a atribuição dos dados obtidos via LibGen. De acordo com os advogados dos autores, um engenheiro da Meta, Nikolay Bashlykov, que trabalha na equipe de pesquisa Llama, teria escrito um script para eliminar informações sobre direitos autorais, incluindo as palavras “copyright” e “acknowledgments”, dos e-books contidos no LibGen. Em um relato separado, a Meta também é acusada de ter removido marcas de copyright dos artigos de periódicos científicos e de “metadados de origem” nos dados utilizados para treinar o Llama. “Esta descoberta sugere que a Meta remove [informações de direitos autorais] não apenas para fins de treinamento”, afirma o registro, “mas também para esconder sua infração de direitos autorais, porque a remoção de obras protegidas impediu o Llama de gerar informações de direitos autorais que poderiam alertar os usuários e o público sobre a infração da Meta.”
O registro mais recente do caso também revela novas informações durante os depoimentos, onde a Meta admitiu que utilizou Torrent para obter o LibGen, um procedimento que deixou alguns engenheiros de pesquisa da Meta cautelosos. O Torrenting, que é uma maneira de distribuir arquivos pela internet, exige que quem está fazendo isso também “sementeie”, ou seja, faça upload, dos arquivos que está tentando obter. A defesa alega que a Meta cometeu outra forma de infração de direitos autorais ao utilizar o Torrent para acessar o LibGen, ajudando assim a disseminar seu conteúdo. Também é alegado que a Meta tentou ocultar essas atividades minimizando o número de arquivos enviados.
No processo, Ahmad Ah-Dahle, chefe de IA generativa da Meta, é citado com a intenção de “liberar o caminho” para o uso do Torrent no LibGen, ignorando as reservas de Bashlykov de que essa ação “poderia não ser legalmente aceitável”. Os advogados dos autores expressaram: “Se a Meta tivesse comprado as obras dos autores em uma livraria ou as tivesse emprestado de uma biblioteca e treinado seus modelos Llama com elas sem uma licença, estaria cometendo uma infração de direitos autorais”. Conclui-se que a decisão da Meta de evitar métodos legais para adquirir livros e se tornar um participante consciente de uma rede de torrent ilegal evidencia a infração de direitos autorais.
O desfecho do caso contra a Meta ainda está longe de ser decidido. Atualmente, o processo se refere apenas aos primeiros modelos do Llama, não abrangendo seus lançamentos mais recentes. O tribunal pode, de fato, decidir a favor da Meta se se convencer do argumento de uso justo da empresa. Entretanto, as alegações apresentadas não fazem bem à reputação da Meta, como observou o juiz Thomas Hixson, que preside o caso, ao rejeitar um pedido da Meta para redigir grandes porções do processo. “É evidente que o pedido de sigilo da Meta não tem como objetivo proteger informações sensíveis de negócios que seus concorrentes poderiam usar a seu favor”, escreveu Hixson. “Na verdade, esse pedido visa evitar publicidade negativa.”
Entramos em contato com a assessoria de imprensa da Meta para obter comentários e vamos atualizar esta matéria assim que recebermos uma resposta.