国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

谷歌DeepMind推QuestBench基準,測試AI模型的“補漏”能力

業界
2025
04/26
16:26
IT之家
分享
評論

4 月 26 日消息,科技媒體 marktechpost 昨日(4 月 25 日)發布博文,報道稱谷歌 DeepMind 團隊推出 QuestBench 新基準,通過約束滿足問題(CSPs)框架,評估模型在推理任務中識別和獲取缺失信息的能力。

現實挑戰與信息獲取需求

大型語言模型(LLMs)在推理任務中廣受關注,涵蓋數學、邏輯、規劃和編碼等領域。然而,現實世界的應用場景常常充滿不確定性。

用戶在提出數學問題時常忽略重要細節,機器人等自主系統也必須在部分可觀測的環境中工作。這種理想化完整信息設定與現實不完備問題之間的矛盾,迫使 LLMs 發展主動信息獲取能力。

IT之家援引博文介紹,識別信息缺口并生成針對性地澄清問題,成為模型在模糊場景中提供準確解決方案的關鍵。

QuestBench:評估信息缺口的新框架

為應對信息獲取挑戰,研究者推出了 QuestBench 基準,專門評估 LLMs 在推理任務中識別缺失信息的能力。

該基準將問題形式化為約束滿足問題(CSPs),聚焦于“1-sufficient CSPs”,即只需知道一個未知變量值即可解決目標變量的問題。

QuestBench 覆蓋邏輯推理(Logic-Q)、規劃(Planning-Q)和小學數學(GSM-Q / GSME-Q)三個領域,按變量數量、約束數量、搜索深度和暴力搜索所需猜測次數四個難度軸分類,精準揭示模型的推理策略和性能瓶頸。

模型性能與未來改進空間

QuestBench 測試了包括 GPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Flash Thinking Experimental 等領先模型,覆蓋零樣本、思維鏈和四樣本設置。測試于 2024 年 6 月至 2025 年 3 月間進行,涉及 288 個 GSM-Q 和 151 個 GSME-Q 任務。

結果表明,思維鏈提示普遍提升了模型性能,而 Gemini 2.0 Flash Thinking Experimental 在規劃任務中表現最佳。開源模型在邏輯推理上具競爭力,但在復雜數學問題上表現不佳。

研究指出,當前模型在簡單代數問題上表現尚可,但隨著問題復雜性增加,性能顯著下降,凸顯了在信息缺口識別和澄清能力上的改進空間。

【來源:IT之家】

THE END
廣告、內容合作請點擊這里 尋求合作
谷歌DeepMind
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

4月15日消息,谷歌旗下的AI研究實驗室谷歌DeepMind今日宣布,成功開發出一款名為DolphinGemma的AI模型,旨在助力科學家深入研究海豚的“語言”,更好地理解海豚的溝通方式。
業界
3 月 12 日消息,北京時間今晚,谷歌 DeepMind 推出兩款新型 AI 模型,旨在幫助機器人完成更多現實世界中的任務。
業界
2 月 8 日消息,谷歌旗下人工智能研究實驗室 DeepMind 開發的人工智能系統 AlphaGeometry2 在解決國際數學奧林匹克競賽(IMO)幾何問題方面取得了突破性進展,其表現甚至超過了平均金牌得主。
業界
12 月 28 日消息,谷歌 DeepMind 團隊最新推出了“可微緩存增強”(Differentiable Cache Augmentation)的新方法,在不明顯額外增加計算負擔的情況下,可以顯著提升大語言模型的推理性能。
業界
12 月 4 日消息,據 Wired 報道,OpenAI 今日宣布,已從競爭對手谷歌 DeepMind 聘請三位高級計算機視覺與機器學習工程師:Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai。
業界

相關推薦

1
3