阿里深夜重磅通義千問新一代端到端旗艦模型Qwen2.5-Omni發布

業界

2025

03/27

10:25

鳳凰網科技

評論

3月27日，北京時間周四凌晨，阿里巴巴發布通義千問系列的最新旗艦模型Qwen2.5-Omni。這款端到端多模態模型專為廣泛的多模態感知設計，能夠處理文本、圖像、音頻和視頻等多種輸入，同時能夠通過生成文本和合成語音提供實時流式響應。

據“通義千問Qwen”官方微信號介紹，這款模型的主要特點如下：

全能創新架構：Qwen團隊提出了一種全新的Thinker-Talker架構，這是一種端到端的多模態模型，旨在支持文本/圖像/音頻/視頻的跨模態理解，同時以流式方式生成文本和自然語音響應。Qwen提出了一種新的位置編碼技術，稱為TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實現視頻與音頻輸入的精準同步。

實時音視頻交互：架構旨在支持完全實時交互，支持分塊輸入和即時輸出。

自然流暢的語音生成：在語音生成的自然性和穩定性方面超越了許多現有的流式和非流式替代方案。

全模態性能優勢：在同等規模的單模態模型進行基準測試時，表現出卓越的性能。Qwen2.5-Omni在音頻能力上優于類似大小的Qwen2-Audio，并與Qwen2.5-VL-7B保持同等水平。

卓越的端到端語音指令跟隨能力：Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果，在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。

Qwen2.5-Omni采用Thinker-Talker雙核架構。Thinker模塊如同大腦，負責處理文本、音頻、視頻等多模態輸入，生成高層語義表征及對應文本內容；Talker 模塊則類似發聲器官，以流式方式接收 Thinker實時輸出的語義表征與文本，流暢合成離散語音單元。Thinker 基于 Transformer 解碼器架構，融合音頻/圖像編碼器進行特征提??；Talker則采用雙軌自回歸 Transformer 解碼器設計，在訓練和推理過程中直接接收來自 Thinker 的高維表征，并共享全部歷史上下文信息，形成端到端的統一模型架構。

模型架構圖

模型性能方面，Qwen2.5-Omni在包括圖像，音頻，音視頻等各種模態下的表現都優于類似大小的單模態模型以及封閉源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模態任務OmniBench，Qwen2.5-Omni達到了SOTA的表現。此外，在單模態任務中，Qwen2.5-Omni在多個領域中表現優異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感）。