8月9日,以“智聯萬物 網聚未來”為主題的2025 AI網絡技術應用創新大會在京召開。浪潮信息旗下元脈網絡應邀參會,元脈網絡副總經理陳翔發表主題為“元脈高性能AI網絡,助力算力潛能釋放”的演講,詳細介紹了元脈網絡在AI網絡上的創新與實踐。
元脈網絡副總經理 陳翔
AI業務規模化發展 三大挑戰亟待解決
隨著人工智能技術的迅猛發展,智算中心的集群規模持續擴大,AI 網絡建設亟需攻克在“部署效率、系統穩定性、資源負載”三方面的挑戰。
● 部署緩慢,影響業務上線效率 當前 AI 應用正呈現與業務深度滲透融合的態勢,“如何提高部署效率、實現業務快速上線”已成為 AI 網絡建設面臨的首要問題。然而,集群規模的急速擴張,大幅提升了網絡部署與調優的難度。以傳統 RoCE 技術為例,其擁塞控制主要采用DCQCN技術,而該技術的參數需進行針對性調優,這直接導致擁塞控制部署流程復雜,進而影響業務上線效率。
● 通信時長、系統故障,制約算力釋放 集群建設涉及 GPU、網絡、光模塊等大量組件及復雜協議棧,當前訓練流量以大象流為主,這類流量具有同步突發特性,易因通信等待造成大量算力損耗;與此同時,卡間通信還陷入“訓練規模越大,平均無故障時間越高”的悖論。據業界公開數據顯示,在 AI 系統故障中,網絡因素占比超 10%,已成為制約 AI 技術發展的重要瓶頸。
● 大模型訓推混跑,網絡資源負載不均衡 隨著大模型框架的陸續開源,在業內激發出新一輪部署熱潮。但大模型的快速部署,也讓模型內部出現“訓練+推理”混跑的連鎖反應,在這樣多任務混跑條件下部署的網絡,會出現性能下降、流量相互干擾、及網絡資源負載不均衡等問題。
元脈網絡打造高性能、高可靠AI Fabric方案
為解決上述問題,元脈網絡憑借前瞻性的技術洞察和創新能力,推出高性能、高可靠的AI Fabric方案。該方案由元脈RoCE技術、AI Fabric交換機、及智能運管平臺三大核心組件構成,可以實現AI網絡的端網一鍵部署、流量精準可視、故障智能預測,為大模型訓推提供堅實的網絡基礎,保障模型訓推的高效、穩定和可靠運行。
在部署效率和穩定性上,元脈網絡智能運管平臺ICE支持端網一鍵部署,可以統一納管交換機、網卡、光模塊、GPU、服務器等設備,實現拓撲配置一鍵校驗、全網自動上線。同時,支持訓前一鍵NCCL壓力測試,將部署時間從數周縮短到數天,極大簡化用戶的運維部署成本。
此外,元脈網絡AI Fabric方案搭建了更先進的高精度遙測核心技術,可實現AI流量的精準可視。并具備靈活可編程特性,不僅支持數據的自定義監測與網絡性能的AI調優,還能有效提升算力資源利用率,確保業務流量零干擾運行。
三級“可靠”加固 AI網絡“安全感”拉滿
為提高智算中心集群網絡的可靠性,元脈網絡從“設備-鏈路-系統”三個維度進行可靠性加固,降低智算中心建設過程中的單點故障率,提升系統無故障訓練時間,激發算力潛能。
● 設備級可靠:元脈網絡AI Fabric方案內置獨創的 IGE 智能防護引擎,硬件層面采用RAS可靠性架構設計,對所有關鍵部件實施冗余備份,真正實現“單一設備失效,整個系統無感運行”;軟件層面采用模塊化架構,將業務模塊進行容器化隔離部署,確保各模塊獨立運行、互不干擾,同時為關鍵模塊配備熱重啟與熱升級功能,充分滿足AI網絡環境的高穩定性要求;此外,通過獨立的管理監控平臺OpenBMC,提供更高級別的安全防護與可靠性保障,全方位適配AI時代數據中心的管理需求。
● 鏈路級可靠:由于集群規模龐大,光模塊數量眾多,一旦光模塊發生故障,將極大影響大模型的訓練進程。對此,元脈網絡AI Fabric方案可實現對光模塊各項指標的精準監控,能夠實時掌握其健康狀態并提前預警,達到故障“主動預警、提前干預”的目的,有效減少訓練中斷的情況,降低故障帶來的影響。
● 系統級可靠:在系統級可靠性設計方面,元脈網絡AI Fabric方案具備多重技術優勢。一是采用智能負載均衡技術,當鏈路發生故障時,智能負載均衡可依據全局鏈路狀態,重新均衡AI流量,性能較傳統RoCE領先2.3 倍;針對單平面架構易出現單點故障的風險,方案采用多平面架構技術,為算力持續可用提供堅實保障,不僅可以實現 AI 通信零中斷,更使有效訓練時長占比高達 99%。
AI賦能未來 互聯構筑基石
元脈® 浪潮信息旗下網絡業務品牌,作為AI時代網絡創新引領者,可以為用戶提供面向AI時代的智算中心、數據中心、邊緣網絡等全棧網絡方案。并堅持智能、開放、可靠的發展理念,不斷深化自身在技術創新、場景創新、合作創新方面的能力,為AI時代算力、數據價值的釋放,打造堅實互聯基石。