8月11日,昆侖萬維SkyWork AI技術發布周正式啟動。8月11日至8月15日,我們每天發布一款新模型,連續五天,覆蓋多模態AI核心場景的前沿模型。
DeepMind在一周前為社區帶來了交互式世界模型的重大更新Genie 3,實現了交互式實時長序列生成,讓世界模型備受關注,然而Genie 3并沒有開源,讓大家只能猜測這樣的世界模型該如何實現。
8月12日,昆侖萬維為大家帶來了自研世界模型Matrix系列中Matrix-Game交互世界模型的升級版本——「Matrix-Game 2.0」,同樣實現了通用場景下的交互式實時長序列生成的世界模型。并且為促進交互式世界模型領域的發展,「Matrix-Game 2.0」全面開源,是業內首個在通用場景上實現實時長序列交互式生成的世界模型開源方案。
「Matrix-Game 2.0」在實時生成和長序列能力上實現了質的飛躍。相較于上一版本,2.0版本更加側重低延遲、高幀率的長序列交互性能,能夠以25 FPS的速度,在多種復雜場景中穩定生成連續視頻內容,且生成時長可擴展至分鐘級,大幅提升了連貫性與實用性。
在推理速度顯著提升的同時,模型依然保持了對物理規律與場景語義的精準理解,支持用戶通過簡單指令,自由探索、操控并實時構建結構清晰、細節豐富、規則合理的虛擬環境。
這使得「Matrix-Game 2.0」不僅打破了內容生成與交互之間的壁壘,也為虛擬人、游戲引擎、具身智能等前沿應用打開了新的可能,為構建通用虛擬世界提供了強有力的技術基座。
01 模型架構
「Matrix-Game 2.0」提出了一種全新的視覺驅動交互世界建模方案,徹底擺脫了傳統依賴語言提示的生成模式,專注于通過視覺理解和物理規律學習來構建虛擬世界。
與主流依賴文本語義的模型不同,「Matrix-Game 2.0」避免了語言先驗可能帶來的語義偏置,轉而關注圖像中的空間結構和動態模式,從而更真實、更準確地理解和生成虛擬世界。
1. 基礎模型架構
「Matrix-Game 2.0」采用圖像為中心的感知與生成機制:
3D Causal VAE 壓縮結構:通過三維因果變分自編碼器實現空間和時間維度的高效壓縮,提升建模效率與生成能力。
多模態擴散 Transformer (DiT):結合視覺編碼器與用戶動作指令,逐幀生成物理合理的動態視覺序列,并通過 3D VAE 解碼成完整視頻。
用戶交互控制:借鑒 GameFactory 與 Genie系列的控制設計框架,引入“動作模塊”,實現用戶與生成世界之間的交互操作。
2. 實時自回歸視頻生成
「Matrix-Game 2.0」基于Self-Forcing訓練策略,通過創新的自回歸擴散生成機制克服了傳統雙向擴散模型的延遲和誤差累積問題:
1. 因果擴散模型訓練:將雙向擴散模型蒸餾為因果模型,使用基礎模型初始化生成器,并構建小規模數據集,通過近似ODE軌跡進行訓練,穩定自回歸擴散過程。通過歷史幀條件生成當前幀,減少因依賴未來幀而導致的時序延遲。
2. 分布匹配蒸餾(DMD):通過最小化與基礎模型之間的分布差異,引導學生模型學習生成高質量視頻幀,對齊訓練與推理階段的分布,顯著緩解誤差積累問題。
3. KV 緩存機制:引入鍵值緩存機制(KV-Cache),顯著提升長視頻生成的效率和一致性。該機制通過維護固定長度的注意力上下文,實現無縫滾動生成,支持無限時長的視頻輸出,解決了訓練與推理場景下上下文不一致的問題。基于此實現長時視頻的高效生成而無需重復計算,單 GPU 上可實現 25 FPS 實時生成。
「Matrix-Game 2.0」能夠生成跨場景的長時視頻,保持動作和視覺的時序一致性,并且支持用戶在交互過程中的連續指令輸入,使其成為游戲內容創作、虛擬現實和智能交互系統的理想解決方案。這一方案將可控性、靈活性與效率相結合,推動高質量視頻生成技術邁向更廣泛的實時應用場景。
例如在一些無約束、不可控的真實場景,「Matrix-Game 2.0」可根據用戶輸入的任意控制指令(如鍵盤的 W/A/S/D 方向鍵、鼠標用于視角移動),生成對應的交互世界視頻,支持角色的前后左右移動以及視角變換等動態行為。
在GTA游戲場景和Minecraft場景中,「Matrix-Game 2.0」也支持鍵盤與鼠標操作,并且能夠生成真實感更強、符合物理邏輯的可交互視頻。
02 三大核心創新突破了傳統模型的瓶頸
現有交互式世界模型普遍面臨數據瓶頸、實時性不足、生成序列較短等挑戰。「Matrix-Game 2.0」通過三大核心創新突破了傳統模型的三重瓶頸:
構建了基于Unreal Engine和GTA5的可擴展數據生產管線,生產約1350小時高質量交互式視頻數據,提供豐富動作覆蓋。
在1.3B小模型基礎上設計了動作條件控制模塊,支持幀級鍵盤與鼠標交互輸入;并采用少步長自回歸擴散模型實現實時長序列視頻生成,在單個GPU上可達25 FPS的生成速度。
基于領先的架構設計和大量不同領域的高質量數據訓練,實現了在多個任務上的領先模型:
1. Matrix-Game Uni:支持在各種風格的靜態真實場景下,進行自由的探索;
2. Matrix-Game TempleRun:提供在神廟逃亡世界中進行擬真游戲的能力,具有精確的游戲指令指令響應能力;
3. Matrix-Game GTA:支持在GTA場景中模擬車輛運作,和前兩者不同的點在于,GTA模型模擬的世界是一個動態場景,場景內的物體有自身的運動軌跡。
當前,「Matrix-Game 2.0」具備三大核心優勢:
1. 高幀率實時交互長序列生成:支持前后左右移動和視角轉動,用戶可通過指令操控角色在場景中自由行動,系統以 25 FPS 實時生成連續畫面,單次交互可生成分鐘級別長交互視頻,動作自然流暢,響應精準。
2. 多場景泛化能力:模型具備出色的跨域適應性,不僅適用于特定任務場景,還支持多種風格與環境的模擬,包括城市、野外等空間類型,以及真實、油畫等視覺風格。
3. 增強的物理一致性:對物理規則的理解進一步提升,角色在面對臺階、障礙物等復雜地形時,能夠展現出符合物理邏輯的運動行為,提升沉浸感與可控性。
03 開源世界模型,昆侖萬維領跑空間智能研究
以谷歌Genie 3等為代表的世界模型,已經為我們描繪了一個激動人心的未來藍圖。它向我們展示了AI不再僅僅是內容生成工具,而是可以構建和模擬世界的“造物主”。隨著AI技術的不斷進步,可以展望,世界模型將成為我們理解世界、創造未來、并最終實現通用人工智能的關鍵基礎設施。
昆侖萬維作為中國領先的人工智能科技公司,不僅打造出天工語言大模型、天工多模態大模型、SWE代碼大模型、Agent大模型、視頻大模型、音樂大模型、音頻大模型等模型底座矩陣,還推出了火爆全球的AIGC產品,如Skywork超級智能體、Mureka等。
世界模型是邁向具身智能與高級空間推理的下一前沿課題。如今,昆侖萬維Matrix系列世界模型的持續迭代與開源,代表了中國空間智能方向研究和應用的新里程碑。我們相信,「Matrix-Game 2.0」將為具身智能體訓練與數據生成、虛擬游戲世界快速搭建、影視與元宇宙內容生產等領域帶來變革行影響。