在研究中,Ziff Davis 的 AI 律师 George Wukoson 和首席技术官 Joey Fortuna 声称,AI 公司根据搜索引擎排名较高的权威网站的排名来选择训练数据。选择高质量和受欢迎的网站来改进模型,因为它们具有良好的声誉。根据该研究,该策略使人工智能开发人员能够微调语言模型。 Ziff Davis 指出,Axel Springer、Future PLC、Hearst、新闻集团和纽约时报等顶级内容提供商为训练数据集的开发做出了贡献。特别是,已dent用于创建 OpenAI 的 GPT-3 的 OpenWebText2 的 12.04% 来自这些受信任的发布者。 马克·扎克伯格还对围绕人工智能培训内容使用正在进行的争论发表了看法。在最近接受 The Verge 采访时,扎克伯格承认人工智能的数据抓取具有挑战性,但也指出个人创作者或出版商的内容可能没有那么有影响力。他表示,“我认为个人创作者或出版商往往会高估其特定内容在这个宏伟计划中的价值。” 培训数据源的保密引起了出版商和消费者的担忧。 《纽约时报》和《华尔街日报》最近对人工智能公司提起诉讼,称它们使用其内容违反了版权法。 尽管 OpenAI 已努力从《金融时报》和 DotDash Meredith 等媒体组织获得内容许可,但仍有几家人工智能公司在没有适当许可的情况下开展业务。该报告进一步指出, “主要的法学硕士开发人员不再像以前那样披露他们的培训数据。” 尽管人工智能公司的价值不断上升,但科技巨头与传统媒体公司之间的差距仍然巨大。谷歌和 Meta 等科技巨头的估值分别为 2.2 万亿美元和 1.5 万亿美元,仍然处于生成人工智能领域的前沿,而 OpenAI 和 Anthropic 等初创公司的估值分别为 1570 亿美元和 400 亿美元。 另一方面,出版商仍在应对裁员和重组,这证明了适应人工智能日益defi的环境所面临的财务压力。由于与用户生成和基于人工智能的内容的竞争,许多出版商面临着降低成本和人员方面的挑战。出版商对人工智能公司提起诉讼