OpenAI 通過新的安全訓練範式推進 o1 和 o3 人工智能模型

來源 Cryptopolitan

週五,OpenAI 宣佈發佈新的人工智能模型系列,稱爲 o3。該公司聲稱新產品比包括 o1 在內的之前型號更先進。據這家初創公司稱,這些進步源於擴展測試時計算的改進(這是近幾個月來探討的一個主題),以及引入用於訓練這些模型的新安全範例。

作爲其持續致力於提高人工智能安全性的一部分,OpenAI 分享了一項新研究,詳細介紹了“協商一致”的實施。新的安全方法旨在確保人工智能推理模型與其開發人員設定的值保持一致。

OpenAI 聲稱,這種方法用於引導 o1 和 o3 模型在推理階段考慮 OpenAI 的安全策略,從而改善它們的一致性。推理階段是用戶向模型提交提示之後、模型生成響應之前的時期。

OpenAI 在研究中指出,經過深思熟慮的調整可以降低模型產生公司認爲違反其安全政策的“不安全”答案或響應的速度,同時提高模型更有效地回答良性問題的能力。

協商一致如何運作

該過程的核心是讓模型在思維鏈階段重新提示自己。例如,在用戶向 ChatGPT 提交問題後,人工智能推理模型需要幾秒鐘到幾分鐘的時間才能將問題分解爲更小的步驟。

然後,模型根據他們的思維過程生成答案。在協商一致的情況下,模型將 OpenAI 的安全政策納入內部“協商”的一部分。

OpenAI 訓練了其模型(包括 o1 和 o3),以回憶公司安全政策的各個部分,作爲該思維鏈過程的一部分。這樣做是爲了確保當面對敏感或不安全的查詢時,模型能夠自我調節並拒絕提供可能造成傷害的答案。

然而,事實證明,實現這一安全功能具有挑戰性,因爲 OpenAI 研究人員必須確保增加的安全檢查不會對模型的速度和效率產生負面影響。

TechCrunch 引用的 OpenAI 研究中提供的一個示例演示了模型如何使用深思熟慮的調整來安全地響應潛在有害的請求。在示例中,用戶詢問如何創建逼真的殘疾人停車標語牌。

在模型的內部思維鏈中,模型會回憶起 OpenAI 的安全政策,認識到該請求涉及非法活動(僞造停車標牌),並拒絕提供協助,併爲其拒絕道歉。

這種類型的內部審議是 OpenAI 如何使其模型與安全協議保持一致的關鍵部分。例如,深思熟慮的對齊方式不會簡單地阻止與“炸彈”等敏感主題相關的任何提示,這會過度限制模型的響應,而是允許人工智能評估提示的具體上下文,並就是否要這樣做做出更細緻的決定。或不回答。

除了安全性方面的進步之外,OpenAI 還分享了基準測試的結果,這些結果顯示了故意調整在提高模型性能方面的有效性。一個被稱爲帕累託的基準測試衡量模型對常見越獄和繞過人工智能保護措施的抵抗力。

在這些測試中,OpenAI 的 o1-preview 模型在避免不安全輸出方面優於其他流行模型,例如 GPT-4o、Gemini 1.5 Flash 和 Claude 3.5 Sonnet。

意大利數據保護機構因侵犯隱私而對 OpenAI 處以罰款

在另一項單獨但相關的進展中,意大利數據保護機構 Garante 在對 OpenAI 處理個人數據的方式進行調查後,對該公司處以 1500 萬歐元(1558 萬美元)的罰款。

此次罰款源於該機構發現 OpenAI 在沒有法律依據的情況下處理用戶個人數據,違反了歐盟隱私法要求的透明度和用戶信息義務。

據路透社報道,這項於 2023 年開始的調查還顯示,OpenAI 沒有適當的年齡驗證系統,可能會讓 13 歲以下的兒童接觸到人工智能生成的不適當內容。

Garante 是歐盟最嚴格的人工智能監管機構之一,命令 OpenAI 在意大利發起爲期六個月的公衆活動,以提高人們對 ChatGPT 數據收集做法的認識,特別是其使用個人數據來訓練算法的認識。

作爲回應,OpenAI 稱罰款“不成比例”,並表示打算對該決定提出上訴。該公司進一步批評罰款相對其相關時期在意大利的收入而言過大。

Garante 還指出,罰款是根據 OpenAI 的“合作立場”計算的,這意味着如果該公司在調查期間不被視爲合作的話,罰款可能會更高。

此次最新罰款並不是 OpenAI 第一次在意大利麪臨審查。去年,由於涉嫌違反歐盟隱私規則,Garante 曾短暫禁止ChatGPT 在意大利使用。在 OpenAI 解決了一些問題後,該服務得以恢復,其中包括允許用戶拒絕同意使用其個人數據來訓練算法。

90 天內找到一份高薪 Web3 工作: 終極路線圖

免責聲明:僅供參考。 過去的表現並不預示未來的結果。
placeholder
【黃金週報】降息步伐放緩,黃金將開啟下跌行情?上週,受聯準會鷹派降息影響,黃金一度大跌超50美元,後隨著美國經濟成長意外加速及PCE指數全線下跌,黃金反彈一度站上2630美元關口。本週,降息預期回溫,中東地緣風險升溫,黃金下跌行情可望反轉?
作者  Penny Pan
2 小時前
上週,受聯準會鷹派降息影響,黃金一度大跌超50美元,後隨著美國經濟成長意外加速及PCE指數全線下跌,黃金反彈一度站上2630美元關口。本週,降息預期回溫,中東地緣風險升溫,黃金下跌行情可望反轉?
placeholder
微盤大跌,銀行新高,跨年行情如何佈局?12月23日,A股小票跌得「稀里嘩啦」,微盤股指數重挫7%,AI人氣概念股亦大面積下挫,跌停個股不在少數。然而大盤卻波瀾不驚,滬指僅跌0.5%,部分銀行股比如工商銀行(601398.SH)、建設銀行(601939.SH)盤中甚至刷新歷史新高。對此,很多股民表示「傻眼」。
作者  財華社
4 小時前
12月23日,A股小票跌得「稀里嘩啦」,微盤股指數重挫7%,AI人氣概念股亦大面積下挫,跌停個股不在少數。然而大盤卻波瀾不驚,滬指僅跌0.5%,部分銀行股比如工商銀行(601398.SH)、建設銀行(601939.SH)盤中甚至刷新歷史新高。對此,很多股民表示「傻眼」。
placeholder
英鎊兌美元下跌,因美聯儲支持 2025 年小幅降息週期週一倫敦交易時段,英鎊 (GBP) 兌美元 (USD) 下跌至關鍵支撐位 1.2550 附近。英鎊/美元小幅走低,因美元在週五大幅下行後週一強勁反彈。衡量美元兌六種主要貨幣價值的美元指數 (DXY) 回升至 108.10 附近。
作者  FXStreet
4 小時前
週一倫敦交易時段,英鎊 (GBP) 兌美元 (USD) 下跌至關鍵支撐位 1.2550 附近。英鎊/美元小幅走低,因美元在週五大幅下行後週一強勁反彈。衡量美元兌六種主要貨幣價值的美元指數 (DXY) 回升至 108.10 附近。
placeholder
抛6000萬港元回購方案,這家醫藥公司大漲逾14%!12月23日,騰盛博藥-B(02137.HK)大幅拉漲,盤中一度飙升23.5%,截至收盤,漲幅收窄至14.12%,報0.97港元/股。消息面上,12月20日,騰盛博藥發佈了一則回購公告,引起了投資者的關注。
作者  財華社
4 小時前
12月23日,騰盛博藥-B(02137.HK)大幅拉漲,盤中一度飙升23.5%,截至收盤,漲幅收窄至14.12%,報0.97港元/股。消息面上,12月20日,騰盛博藥發佈了一則回購公告,引起了投資者的關注。
placeholder
警惕黃金大行情突襲!美國重量級數據駕到 FXStreet高級分析師黃金交易分析金價週一有望延續自月低點的復甦勢頭,買家守在2600美元/盎司關口上方。黃金交易員可能會從更廣泛的市場情緒中獲得線索,然後再對黃金實施新的押注。
作者  FX168
4 小時前
金價週一有望延續自月低點的復甦勢頭,買家守在2600美元/盎司關口上方。黃金交易員可能會從更廣泛的市場情緒中獲得線索,然後再對黃金實施新的押注。
goTop
quote