Na pesquisa, o advogado de IA de Ziff Davis, George Wukoson, e o diretor de tecnologia Joey Fortuna afirmaram que as empresas de IA escolhem dados de treinamento com base na classificação de sites confiáveis com altas classificações em mecanismos de pesquisa. Sites populares e de alta qualidade foram escolhidos para aprimorar os modelos, pois possuem boa reputação. Uma estratégia que, segundo o estudo, permite aos desenvolvedores de IA ajustar o modelo de linguagem. Ziff Davis destacou que provedores de conteúdo de primeira linha como Axel Springer, Future PLC, Hearst, News Corp e The New York Times, entre outros, contribuíram para o desenvolvimento de conjuntos de dados de treinamento. Em particular, foi dent que 12,04% do OpenWebText2, que foi utilizado para a criação do GPT-3 da OpenAI, veio destes editores confiáveis. Mark Zuckerberg também opinou sobre o debate em andamento em torno do uso de conteúdo no treinamento de IA. Numa entrevista recente ao The Verge, Zuckerberg reconheceu que a recolha de dados para IA é um desafio, mas também apontou que o conteúdo de criadores ou editores individuais pode não ser tão impactante. Ele afirmou : “Acho que criadores ou editores individuais tendem a superestimar o valor de seu conteúdo específico no grande esquema disso”. O sigilo em torno das fontes de dados de treinamento levantou preocupações tanto entre editores quanto entre consumidores. O New York Times e o Wall Street Journal recentemente entraram com ações judiciais contra empresas de IA, dizendo que elas violaram as leis de direitos autorais ao usar seu conteúdo. Embora a OpenAI tenha avançado nos esforços para obter licenciamento de conteúdo de organizações de mídia como o Financial Times e a DotDash Meredith, várias empresas de IA ainda trabalham sem o licenciamento adequado. O relatório afirma ainda que “os principais desenvolvedores de LLM não divulgam mais seus dados de treinamento como faziam antes”. Embora os valores das empresas de IA aumentem, o fosso entre os titãs da tecnologia e as empresas de comunicação convencionais permanece vasto. Gigantes da tecnologia como Google e Meta, que têm um valor estimado de 2,2 biliões de dólares e 1,5 biliões de dólares, respetivamente, permanecem na vanguarda da IA generativa, enquanto startups como a OpenAI e a Anthropic estão avaliadas em 157 mil milhões e 40 mil milhões de dólares, respetivamente. Por outro lado, os editores ainda enfrentam demissões e reestruturações, o que evidencia a pressão financeira de adaptação a um ambiente cada vez mais defi pela IA. Como resultado da concorrência com conteúdos gerados pelos utilizadores e baseados em IA, numerosos editores enfrentam desafios em termos de redução de custos e de pessoal. Editores entram com ações judiciais contra empresas de IA