国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

阿里深夜重磅 通義千問新一代端到端旗艦模型Qwen2.5-Omni發布

業界
2025
03/27
10:25
鳳凰網科技
分享
評論

3月27日,北京時間周四凌晨,阿里巴巴發布通義千問系列的最新旗艦模型Qwen2.5-Omni。這款端到端多模態模型專為廣泛的多模態感知設計,能夠處理文本、圖像、音頻和視頻等多種輸入,同時能夠通過生成文本和合成語音提供實時流式響應。

據“通義千問Qwen”官方微信號介紹,這款模型的主要特點如下:

全能創新架構:Qwen團隊提出了一種全新的Thinker-Talker架構,這是一種端到端的多模態模型,旨在支持文本/圖像/音頻/視頻的跨模態理解,同時以流式方式生成文本和自然語音響應。Qwen提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視頻與音頻輸入的精準同步。

實時音視頻交互:架構旨在支持完全實時交互,支持分塊輸入和即時輸出。

自然流暢的語音生成:在語音生成的自然性和穩定性方面超越了許多現有的流式和非流式替代方案。

全模態性能優勢:在同等規模的單模態模型進行基準測試時,表現出卓越的性能。Qwen2.5-Omni在音頻能力上優于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。

卓越的端到端語音指令跟隨能力:Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。

Qwen2.5-Omni采用Thinker-Talker雙核架構。Thinker模塊如同大腦,負責處理文本、音頻、視頻等多模態輸入,生成高層語義表征及對應文本內容;Talker 模塊則類似發聲器官,以流式方式接收 Thinker實時輸出的語義表征與文本,流暢合成離散語音單元。Thinker 基于 Transformer 解碼器架構,融合音頻/圖像編碼器進行特征提??;Talker則采用雙軌自回歸 Transformer 解碼器設計,在訓練和推理過程中直接接收來自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統一模型架構。

圖片

模型架構圖

模型性能方面,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態下的表現都優于類似大小的單模態模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模態任務OmniBench,Qwen2.5-Omni達到了SOTA的表現。此外,在單模態任務中,Qwen2.5-Omni在多個領域中表現優異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。

image

該模型現已在 Hugging Face、ModelScope、DashScope 和 GitHub上開源開放。

【來源:鳳凰網科技

THE END
廣告、內容合作請點擊這里 尋求合作
阿里
免責聲明:本文系轉載,版權歸原作者所有;旨在傳遞信息,不代表砍柴網的觀點和立場。

相關熱點

3月26日,寶馬集團與阿里巴巴集團今日宣布達成AI領域戰略合作,推動AI大語言模型“上車”。
業界
北京時間3月11日,據《華爾街日報》報道,DeepSeek創始人梁文峰已經拒絕了通過其大模型賺快錢的投資提議。
業界
3月6日消息,據日經中文網報道,3月5日,阿里巴巴集團旗下的阿里云(Alibaba Cloud)宣布,將面向日本企業推廣利用生成式AI(人工智能)基礎模型的商業提案,與日本的咨詢公司和系統開發公司開展合作。
業界
開源社區Hugging Face最新榜單顯示,開源僅6天的阿里萬相大模型已反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單,成為近期全球開源社區最受歡迎的大模型。
業界
2月17日消息,美國有科技7姐妹(英偉達、蘋果等),那么中國對飆的7巨頭也隨之而來。
業界

相關推薦

1
3