据报道,苹果公司无视工程师对其有缺陷的苹果智能的警告,并继续发布了该技术,但市场评价却平淡无奇。
这家 iPhone 制造商的 Apple Intelligence 因错误原因成为头条新闻,并受到广泛批评,尤其是捏造虚假信息和搞砸新闻头条。
虽然大型语言模型产生幻觉是很常见的,这是人工智能行业尚未解决的挑战(如果有的话),但苹果的情况有点不同。工程师在发布之前注意到该模型存在一些严重缺陷。然而,该公司忽视了这些警告。
分析师表示,在对其人工智能的巨大缺陷发出警告后,这家科技巨头继续发布该模型是鲁莽defi。这些警告来自去年十月发布的研究
尽管尚未经过同行评审,但在测试了人工智能行业一些顶级法学硕士的matic“推理”能力后,该研究还得出结论,这些模型无法推理。
为了测试这些模型,工程师让他们从广泛使用的GSM8K 数据,该数据集是行业的基准。
根据 Futurism 的说法,数据集中的一个典型问题是:“詹姆斯买了 5 包牛肉,每包 4 磅。牛肉价格为每磅 5.50 美元。他付了多少钱?”
工程师们通过简单地更改问题中的一些数字来暴露人工智能模型中的差距,以避免数据污染。这导致了所检查的 20 个法学硕士存在一些小但值得注意的错误。
然而,当研究人员更进一步,更改名称并添加一些“不相关的细节”时,结果却是“灾难性的”,高达 65%。
研究人员写道:“这揭示了模型识别解决问题相关信息的能力的一个关键缺陷,可能是因为它们的推理在常识术语中并不正式,并且主要基于模式匹配。”
研究人员表示,每个模型的结果都不同。 OpenAI 01-preview 下降了 17.5%,其前身 GPT-4o 下降了 32%。研究人员指出,即使是“最聪明”的模型也会面临问题并表现出一些严重的缺陷。
测试还证明,人工智能模型在解决问题方面可能看起来很聪明,但一旦它们不能逐字复制某人的作业,它们就会陷入困境。至于苹果公司,据报道这家科技巨头知道测试结果,但向市场发布了其型号。
由于市场的强烈反对,包括英国广播公司(BBC)对该模型泄露误导性信息的担忧,苹果最终暂停了该计划,直到能够修复它。
苹果的人工智能功能原本应该能够总结新闻通知,但它有时会自己编造新闻,这让读者和新闻出版商非常不满。
其中一条不准确的新闻提醒称,拉斐尔·纳达尔是同性恋,一名被指控杀害美国保险老板的男子开枪自杀。苹果的人工智能还错误地总结了 BBC 应用程序通知,声称卢克·利特勒 (Luke Littler) 在 PDC 世界飞镖锦标赛开始前几个小时就赢得了冠军。
《纽约时报》报道的另一篇错误摘要似乎已于 1 月 6 日发表,与国会山骚乱四周年有关。
苹果在给 BBC 的一份声明中表示:“Apple Intelligence 功能尚处于测试阶段,我们将在用户反馈的帮助下不断进行改进。” “未来几周的软件更新将进一步澄清显示的文本何时是 Apple Intelligence 提供的摘要。我们鼓励用户在看到意外的通知摘要时报告问题。”声明补充道。
苹果的缺陷功能之一是去年 12 月向一些较新 iPhone 的用户发布的人工智能工具之一,包括 iPhone 16、15 Pro 和 15 Pro Max 手机,以及一些 iPad 和 Mac。
90 天内开启您的 Web3 职业生涯并获得高薪加密工作的分步系统