哈佛大学和密歇根大学并不是第一个尝试了解人工智能模型功能的大学,Anthropic 的研究人员发表了一篇题为“字典学习”的论文。论文讨论了如何将克劳德语言中的联系与它理解的特定概念联系起来。虽然这些研究大多采取不同的角度,但主要是为了理解人工智能模型。 Anthropic 透露,它发现了可能与不同可解释概念相关的特征。研究显示:“我们发现了数百万个特征,这些特征似乎与可解释的概念相对应,从人物、国家和著名建筑等具体物体到情感、写作风格和推理步骤等trac。” 在研究过程中,研究人员使用扩散模型(最流行的人工智能架构之一)进行了多项实验。在实验过程中,他们意识到这些模型有不同的方式来操纵基本概念。这些模式是一致的,因为人工智能模型在不同阶段显示了新能力,并且在获得新能力时发出了尖锐的转变点信号。 在训练过程中,模型显示他们比标准测试检测到的时间早了大约 2,000 步掌握了概念。tron概念出现在 6,000 步左右,较弱概念出现在 20,000 步左右。调整概念信号后,他们发现与学习速度直接相关。 研究人员使用替代提示方法来揭示隐藏的能力,然后再在标准测试中展示它们。隐性涌现的猖獗影响着人工智能的评估和安全。例如,传统的基准测试可能会错过人工智能模型的某些功能,从而错过有益的和相关的功能。 在研究过程中,团队找到了访问人工智能模型隐藏功能的某些方法。该研究将这些方法称为线性潜在干预和过度提示,因为研究人员使模型在标准测试中表现出复杂的行为。研究人员还发现,人工智能模型在通过标准提示显示某些复杂特征之前就对其进行了操纵。 例如,可以提示模型成功生成“微笑的女性”或“戴帽子的男性”,然后再要求将它们组合起来。然而,研究表明他们很早就学会了如何将其结合起来,但无法通过传统的提示来展示它。模型展示的能力可以说是令人惊叹,模型在经过长时间的训练后表现出完美的测试性能。然而,研究人员表示,两者之间存在关键差异。 虽然摸索是在几次培训课程之后发生的,并且涉及改进相同数据集的几种分布,但研究表明这些能力是在主动学习过程中出现的。研究人员指出,这些模型找到了通过阶段变化来操纵概念的新方法,而不是逐步改进摸索中的表征。 研究表明,人工智能模型知道这些概念,但无法展示它们。这类似于人们观看和理解外国电影但不会说外国语言。这表明大多数模型所具有的能力比它们所显示的要多,也表明了理解和控制其能力的难度。 从零到 Web3 Pro:您的 90 天职业启动计划研究表明人工智能模型内化概念
研究人员揭示了访问隐藏功能的方法