En la investigación, el abogado de inteligencia artificial de Ziff Davis, George Wukoson, y el director de tecnología, Joey Fortuna, afirmaron que las empresas de inteligencia artificial eligen los datos de capacitación en función de la clasificación de sitios web autorizados con altas clasificaciones en los motores de búsqueda. Se eligieron sitios web populares y de alta calidad para mejorar los modelos, ya que tienen buena reputación. Una estrategia que, según el estudio, permite a los desarrolladores de IA afinar el modelo del lenguaje. Ziff Davis ha señalado que proveedores de contenidos de primer nivel como Axel Springer, Future PLC, Hearst, News Corp y The New York Times, entre otros, han contribuido al desarrollo de conjuntos de datos de entrenamiento. En particular, se ha dent que el 12,04% de OpenWebText2, que se utilizó para la creación de GPT-3 de OpenAI, provino de estos editores de confianza. Mark Zuckerberg también intervino en el debate en curso sobre el uso de contenidos en la formación de IA. En una entrevista reciente con The Verge, Zuckerberg reconoció que la extracción de datos para la IA es un desafío, pero también señaló que el contenido de los creadores o editores individuales podría no tener tanto impacto. Dijo : "Creo que los creadores o editores individuales tienden a sobreestimar el valor de su contenido específico en el gran esquema de esto". El secreto en torno a las fuentes de datos de capacitación ha generado preocupación tanto entre los editores como entre los consumidores. El New York Times y el Wall Street Journal presentaron recientemente demandas contra empresas de inteligencia artificial, alegando que habían violado las leyes de derechos de autor al utilizar su contenido. Si bien OpenAI ha avanzado en sus esfuerzos para obtener licencias de contenido de organizaciones de medios como Financial Times y DotDash Meredith, varias empresas de IA todavía trabajan sin las licencias adecuadas. El informe afirma además que "los principales desarrolladores de LLM ya no divulgan sus datos de capacitación como lo hacían antes". Si bien los valores de las empresas de IA aumentan, la brecha entre los titanes de la tecnología y las empresas de medios convencionales sigue siendo enorme. Gigantes tecnológicos como Google y Meta, que tienen un valor estimado de 2,2 billones de dólares y 1,5 billones de dólares, respectivamente, siguen a la vanguardia de la IA generativa, mientras que empresas emergentes como OpenAI y Anthropic están valoradas en 157 mil millones de dólares y 40 mil millones de dólares respectivamente. Por otro lado, los editores todavía se enfrentan a despidos y reestructuraciones, lo que demuestra la presión financiera que supone adaptarse a un entorno cada vez más defi por la IA. Como resultado de la competencia con el contenido generado por los usuarios y basado en IA, numerosos editores enfrentan desafíos en términos de reducción de costos y personal. Los editores presentan demandas contra las empresas de inteligencia artificial