_{<tbody id="uobrc"></tbody>}

受DeepSeek-R1啟發(fā)，小米大模型團隊登頂音頻推理MMAU榜

業(yè)界

2025

03/17

12:57

IT之家

評論

3月17日消息，@小米技術官微今日發(fā)文稱，小米大模型團隊在音頻推理領域取得突破性進展。受DeepSeek-R1啟發(fā)，團隊率先將強化學習算法應用于多模態(tài)音頻理解任務，僅用一周時間便以64.5%的SOTA準確率登頂國際權威的MMAU音頻理解評測榜首，現(xiàn)同步開源。

受DeepSeek-R1啟發(fā)，小米大模型團隊登頂音頻推理MMAU榜

IT之家附官方全文如下：

強化學習展現(xiàn)“反直覺”優(yōu)勢 —— 小米大模型團隊登頂音頻推理MMAU榜

面對一段汽車行駛中的座艙錄音，AI能否判斷出汽車是否存在潛在的故障？在交響樂演出現(xiàn)場，AI能否推測出作曲家創(chuàng)造這首音樂時的心情？在早高峰地鐵站混亂的腳步聲潮中，AI能否預判閘機口可能發(fā)生的沖撞風險？在大模型時代，人們已經(jīng)不滿足于機器僅僅識別說話的內(nèi)容、聲音的種類，更期望機器具備復雜推理的能力。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）評測集（https://arxiv.org/abs/2410.19168）是這種音頻推理能力的量化標尺，它通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本，結合人類專家標注的問答對，測試模型在27種技能，如跨場景推理、專業(yè)知識等應用上的表現(xiàn)，期望模型達到接近人類專家的邏輯分析水平。

作為基準上限，人類專家在MMAU上的準確率為82.23%。這是一個很難的評測集，目前 MMAU 官網(wǎng)榜單上表現(xiàn)最好的模型是來自OpenAI的GPT-4o，準確率為57.3%。緊隨其后的是來自Google DeepMind的Gemini 2.0 Flash，準確率為55.6%。

MMAU 任務示例圖片來自MMAU論文

來自阿里的Qwen2-Audio-7B模型在此評測集上的準確率為49.2%。由于它的開源特性，我們嘗試使用一個較小的數(shù)據(jù)集，清華大學發(fā)布的AVQA數(shù)據(jù)集（https://mn.cs.tsinghua.edu.cn/ avqa/），對此模型做微調(diào)。AVQA數(shù)據(jù)集僅包含3.8 萬條訓練樣本，通過全量有監(jiān)督微調(diào)（SFT），模型在MMAU上的準確率提升到了51.8%。這并不是一個特別顯著的提升。

DeepSeek-R1的發(fā)布為我們在該項任務上的研究帶來了啟發(fā)。DeepSeek-R1的Group Relative Policy Optimization (GRPO) 方法，讓模型僅通過 "試錯-獎勵" 機制就能使自主進化，涌現(xiàn)出類似人類的反思、多步驗證等推理能力。在同一時間，卡內(nèi)基梅隆大學發(fā)布的論文預印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/ abs / 2503.01067) ”，通過精巧的實驗得出了一個有趣的論斷：當任務存在明顯的生成-驗證差距（Generation-Verification Gap），即任務生成結果的難度遠大于驗證結果正確性的難度時，強化學習比起有監(jiān)督微調(diào)具有獨特優(yōu)勢，而AQA任務恰好是完美的生成-驗證差距顯著的任務。

打個比方來說，離線微調(diào)方法，如 SFT，有點像背題庫，你只能根據(jù)已有的題目和答案訓練，但遇到新題可能不會做；而強化學習方法，如GRPO，像老師在要求你多想幾個答案，然后老師告訴你哪一個答案好，讓你主動思考，激發(fā)出自身的能力，而不是被“填鴨式”教學。當然，如果訓練量足夠，比如有學生愿意花很多年的時間來死記硬背題庫，也許最終也能達到不錯的效果，但效率太低，浪費太多時間。而主動思考，更容易快速地達到舉一反三的效果。強化學習的實時反饋可能會幫助模型更快鎖定高質(zhì)量答案的分布區(qū)域，而離線方法需要遍歷整個可能性空間，效率要低得多。

基于上述洞察，我們嘗試將DeepSeek-R1的GRPO算法遷移到Qwen2-Audio-7B模型上。令人驚喜的是，在僅使用AVQA的3.8萬條訓練樣本的情況下，強化學習微調(diào)后的模型在 MMAU 評測集上實現(xiàn)了64.5%的準確率，這一成績比目前榜單上第一名的商業(yè)閉源模型GPT-4o有近10個百分點的優(yōu)勢。

有趣的是，當我們在訓練中強制要求模型輸出 <thinking></thinking> 推理過程時（類似傳統(tǒng)思維鏈方法），準確率反而下降至61.1%。這說明顯式的思維鏈結果輸出可能并不利于模型的訓練。

我們的實驗揭示了幾個和傳統(tǒng)認知不同的結論：

關于微調(diào)方法：強化學習在3.8萬條數(shù)據(jù)集上的表現(xiàn)顯著超過監(jiān)督學習在57萬條數(shù)據(jù)集上的結果

關于參數(shù)規(guī)模：相比千億級模型，7B參數(shù)的模型通過強化學習也可展現(xiàn)強推理能力

關于隱式推理：顯式思維鏈輸出反而成為性能瓶頸

盡管當前準確率已突破64%，但距離人類專家82%的水平仍有差距。在我們當前的實驗中，強化學習策略還是比較粗糙，訓練過程對思維鏈的引導并不充分，我們會在后續(xù)做進一步探索。

此次實驗驗證了強化學習在音頻推理領域的獨特價值，也為后續(xù)研究打開了一扇新的大門。當機器不僅能“聽見”聲音，還能“聽懂”聲音背后的因果邏輯時，真正的智能聽覺時代將會來臨。

我們把訓練代碼、模型參數(shù)開源，并提供了技術報告，供學術界產(chǎn)業(yè)界參考交流。

訓練代碼：https://github.com/xiaomi-research/r1-aqa

模型參數(shù)：https://huggingface.co/mispeech/r1-aqa

技術報告：https://arxiv.org/abs/2503.11197

交互Demo：http://120.48.108.147:7860/

【來源：IT之家】

THE END

廣告、內(nèi)容合作請點擊這里尋求合作

小米 DeepSeek

免責聲明：本文系轉載，版權歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點和立場。

国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

受DeepSeek-R1啟發(fā)，小米大模型團隊登頂音頻推理MMAU榜

相關熱點

最新文章

相關推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產(chǎn) Apple Car 汽車電池

關注我們