哈佛大學和密歇根大學並不是第一個嘗試瞭解人工智能模型功能的大學,Anthropic 的研究人員發表了一篇題爲“字典學習”的論文。論文討論瞭如何將克勞德語言中的聯繫與它理解的特定概念聯繫起來。雖然這些研究大多采取不同的角度,但主要是爲了理解人工智能模型。 Anthropic 透露,它發現了可能與不同可解釋概念相關的特徵。研究顯示:“我們發現了數百萬個特徵,這些特徵似乎與可解釋的概念相對應,從人物、國家和著名建築等具體物體到情感、寫作風格和推理步驟等trac。” 在研究過程中,研究人員使用擴散模型(最流行的人工智能架構之一)進行了多項實驗。在實驗過程中,他們意識到這些模型有不同的方式來操縱基本概念。這些模式是一致的,因爲人工智能模型在不同階段顯示了新能力,並且在獲得新能力時發出了尖銳的轉變點信號。 在訓練過程中,模型顯示他們比標準測試檢測到的時間早了大約 2,000 步掌握了概念。tron概念出現在 6,000 步左右,較弱概念出現在 20,000 步左右。調整概念信號後,他們發現與學習速度直接相關。 研究人員使用替代提示方法來揭示隱藏的能力,然後再在標準測試中展示它們。隱性湧現的猖獗影響着人工智能的評估和安全。例如,傳統的基準測試可能會錯過人工智能模型的某些功能,從而錯過有益的和相關的功能。 在研究過程中,團隊找到了訪問人工智能模型隱藏功能的某些方法。該研究將這些方法稱爲線性潛在干預和過度提示,因爲研究人員使模型在標準測試中表現出複雜的行爲。研究人員還發現,人工智能模型在通過標準提示顯示某些複雜特徵之前就對其進行了操縱。 例如,可以提示模型成功生成“微笑的女性”或“戴帽子的男性”,然後再要求將它們組合起來。然而,研究表明他們很早就學會了如何將其結合起來,但無法通過傳統的提示來展示它。模型展示的能力可以說是令人驚歎,模型在經過長時間的訓練後表現出完美的測試性能。然而,研究人員表示,兩者之間存在關鍵差異。 雖然摸索是在幾次培訓課程之後發生的,並且涉及改進相同數據集的幾種分佈,但研究表明這些能力是在主動學習過程中出現的。研究人員指出,這些模型找到了通過階段變化來操縱概念的新方法,而不是逐步改進摸索中的表徵。 研究表明,人工智能模型知道這些概念,但無法展示它們。這類似於人們觀看和理解外國電影但不會說外國語言。這表明大多數模型所具有的能力比它們所顯示的要多,也表明了理解和控制其能力的難度。 從零到 Web3 Pro:您的 90 天職業啓動計劃研究表明人工智能模型內化概念
研究人員揭示了訪問隱藏功能的方法