国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

谷歌DeepMind強化思維鏈訓練,讓AI語言模型不再“紙上談兵”

業界
2025
05/20
14:35
IT之家
分享
評論

5 月 20 日消息,科技媒體 marktechpost 昨日(5 月 19 日)發布博文,報道稱谷歌 DeepMind 團隊聯合約翰?開普勒林茨大學 LIT AI 實驗室,通過強化學習微調(RLFT)技術,提升語言模型的決策能力。

IT之家援引博文介紹,基于海量互聯網數據訓練的語言模型已展現出超越文本處理的決策潛力,可以通過內部知識推理,在交互環境中做出行動選擇。

不過這些語言模型在決策過程存在顯著缺陷:模型能推導正確策略卻無法執行(knowing-doing gap,紙上談兵),過度偏好短期高回報選項(greediness,貪婪選擇),較小模型還會機械重復常見動作(frequency bias,頻次偏見)。

傳統強化學習方法如 UCB 算法雖能平衡探索與利用,但難以解決模型內在的推理-行動脫節問題。

DeepMind 團隊創新采用強化學習微調技術,以模型自生成的思維鏈作為訓練信號,系統會評估每個推理步驟對應的行動獎勵,促使模型優先選擇邏輯自洽且實際高效的行動方案。

具體實施時,模型根據輸入指令和行動-獎勵歷史生成包含推理過程與動作的序列,通過蒙特卡洛(Monte Carlo)基線評估和廣義優勢估計進行優化;無效動作會觸發懲罰機制,而獎勵塑造技術既保證輸出格式規范,又保留探索空間。

在 10 臂的多臂老虎機(multi-armed bandit,MAB,有擁有 N 根拉桿的老虎機,拉動每一根拉桿都對應一個關于獎勵的概率分布)測試中,2B 參數模型的動作覆蓋率提升 12 個百分點;面對 20 臂時改善幅度雖小但仍有意義,其頻次偏見率從 70% 驟降至 35%。

井字棋實驗中,模型對陣隨機對手的勝率提升 5 倍,與最優蒙特卡洛樹搜索代理的對戰平均回報從-0.95 歸零。值得注意的是,27B 大模型生成正確推理的概率達 87%,但未微調時僅 21% 會執行最優動作,該強化學習微調有效縮小了這一差距。

【來源:IT之家

THE END
廣告、內容合作請點擊這里 尋求合作
谷歌DeepMind
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

4 月 26 日消息,科技媒體 marktechpost 昨日(4 月 25 日)發布博文,報道稱谷歌 DeepMind 團隊推出 QuestBench 新基準,通過約束滿足問題(CSPs)框架,評估模型在推理任務中識別和獲取缺失信息的能力。
業界
4月15日消息,谷歌旗下的AI研究實驗室谷歌DeepMind今日宣布,成功開發出一款名為DolphinGemma的AI模型,旨在助力科學家深入研究海豚的“語言”,更好地理解海豚的溝通方式。
業界
3 月 12 日消息,北京時間今晚,谷歌 DeepMind 推出兩款新型 AI 模型,旨在幫助機器人完成更多現實世界中的任務。
業界
2 月 8 日消息,谷歌旗下人工智能研究實驗室 DeepMind 開發的人工智能系統 AlphaGeometry2 在解決國際數學奧林匹克競賽(IMO)幾何問題方面取得了突破性進展,其表現甚至超過了平均金牌得主。
業界
12 月 28 日消息,谷歌 DeepMind 團隊最新推出了“可微緩存增強”(Differentiable Cache Augmentation)的新方法,在不明顯額外增加計算負擔的情況下,可以顯著提升大語言模型的推理性能。
業界

相關推薦

1
3