A Meta Platforms treinou seus modelos de IA usando versões piratas de livros protegidos por direitos autorais, com a aprovação de seu CEO, Mark Zuckerberg.
De acordo com documentos judiciais recentemente divulgados, um grupo de autores alega que o gigante das redes sociais sabia que estava a utilizar trabalho pirata para treinar os seus sistemas de IA.
Em seu processo judicial, os autores disseram que documentos internos produzidos pela Meta durante o processo de descoberta mostraram que a empresa de rede social sabia sobre os livros piratas. De acordo com o The Guardian , seu CEO, Zuckerberg, apoiou o uso do conjunto de dados LibGen, um enorme arquivo online de livros. Isso ocorreu apesar dos avisos da equipe executiva de IA da empresa de que se trata de um conjunto de dados “que sabemos ser pirateado”.
O autor norte-americano Ta-Nehisi Coates, a comediante Sarah Silverman e outros escritores que processam a empresa por violação de direitos autorais fizeram as acusações em documentos que foram tornados públicos na quarta-feira em um tribunal federal da Califórnia.
Os autores levaram Meta ao tribunal em 2023 sob alegações de que a empresa de mídia social estava usando indevidamente seus livros para treinar modelos de IA, especificamente o Llama, seu grande modelo de linguagem que alimenta seus chatbots.
Originário da Rússia, o conjunto de dados Library Genesis ou LibGen é uma “biblioteca sombra” que afirma conter milhões de romances, livros de notificação, bem como artigos de revistas científicas.
Em 2024, um tribunal federal de Nova York pediu aos operadores anônimos da LibGen que pagassem a um grupo de editores US$ 30 milhões em danos por violação de direitos autorais.
Este é um dos muitos outros que alegam que trabalhos protegidos por direitos autorais de autores, artistas e outros foram usados para treinar ferramentas generativas de IA, como o chatbot ChatGPT, sem o consentimento dos proprietários. Os profissionais criativos alertaram que a utilização do seu trabalho sem o seu consentimento está a pôr em perigo os seus modelos de negócio.
De acordo com a Reuters , os réus argumentaram, no entanto, que fizeram uso justo de material protegido por direitos autorais.
No caso Meta, os autores teriam pedido ao tribunal na quarta-feira permissão para registrar uma reclamação atualizada. Nos seus argumentos, indicaram que novas evidências mostraram que as empresas de redes sociais usaram o conjunto de dados de formação em IA LibGen, que inclui milhões de obras piratas, e distribuíram-no através de torrents peer-to-peer.
Segundo eles, Zuckerberg “aprovou o uso do conjunto de dados LibGen pela Meta, apesar das preocupações da equipe executiva de IA da Meta (e de outros na Meta) de que LibGen é ‘um conjunto de dados que sabemos ser pirateado’”.
O processo também cita um memorando que se referia às iniciais de Zuckerberg, observando que “após escalação para MZ” a equipe de IA da Meta “foi aprovada para usar LibGen”.
No ano passado, um juiz distrital dos EUA, Vince Chhabria, rejeitou alegações de que o texto gerado pelos modelos de IA da Meta infringia os direitos autorais dos autores e que a Meta retirou ilegalmente informações de gerenciamento de direitos autorais dos livros. Refere-se a informações sobre o trabalho, incluindo título, nome do autor e proprietário dos direitos autorais.
Os demandantes foram, no entanto, autorizados a alterar suas reivindicações. Em seus argumentos desta semana, os autores disseram que as evidências reforçaram suas alegações de violação e justificaram a retomada do caso de informações sobre gerenciamento de direitos autorais, acrescentando uma nova alegação de fraude informática.
Durante uma audiência na quinta-feira, o juiz disse que permitiria que os autores apresentassem uma queixa alterada, embora estivesse cético quanto ao mérito das alegações de fraude.
Consiga um emprego bem remunerado na Web3 em 90 dias: o roteiro definitivo