国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

大模型推理成本居高不下,浪潮存儲(chǔ)幫你來突圍!

互聯(lián)網(wǎng)
2025
08/19
10:41
分享
評(píng)論

“模型推理是最直接跟AI應(yīng)用相關(guān)的環(huán)節(jié),更多的數(shù)據(jù)、更大的模型以及更長(zhǎng)的上下文窗口能夠帶來更高效的人工智能。但是有個(gè)問題,更高的智能要求的推理負(fù)載極重,模型參數(shù)以及推理過程中產(chǎn)生的KV Cache都需要很大的存儲(chǔ)空間。”

------清華大學(xué)教授、中國工程院院士  鄭緯民

如鄭緯民院士所說,模型推理是最直接跟AI應(yīng)用相關(guān)的環(huán)節(jié),也是連接模型訓(xùn)練和應(yīng)用落地的橋梁。當(dāng)前,大模型推理仍需要借助GPU算力來實(shí)現(xiàn),在大模型推理過程中會(huì)產(chǎn)生大量的KV Cache并存到GPU服務(wù)器的HBM顯存中。對(duì)于連續(xù)長(zhǎng)文本對(duì)話而言,拋棄已有的KV Cache無疑會(huì)讓GPU服務(wù)器陷入“重復(fù)計(jì)算”的陷阱,延長(zhǎng)回復(fù)時(shí)間,降低用戶體驗(yàn),而要存儲(chǔ)全部的KV Cache則需要更多的GPU服務(wù)器,這無疑會(huì)極大拉高AI infra的建設(shè)成本。在這種情況下,如何存儲(chǔ)推理過程中產(chǎn)生的KV Cache,避免重復(fù)計(jì)算,在保證響應(yīng)速度的同時(shí)降低大模型推理的成本,是當(dāng)前大模型應(yīng)用落地所面臨的最關(guān)鍵的問題。

如果把大模型推理比作連環(huán)漫畫創(chuàng)作,場(chǎng)景是這樣的:

長(zhǎng)篇漫畫作者小劉有個(gè)習(xí)慣:創(chuàng)作新話時(shí),總會(huì)先回顧前話的全部?jī)?nèi)容,再參考過往情節(jié)脈絡(luò)逐話推進(jìn)劇情。每一話完結(jié)后,他會(huì)把核心情節(jié)寫在便利貼上(K/V),貼在工作室的“漫畫故事墻”(KV Cache)上。后續(xù)創(chuàng)作時(shí),他只需掃一眼墻上的便利貼,就能快速銜接前情,不用再翻舊稿。

可讀者催更太頻繁,開的連載越來越多,一話接一話的內(nèi)容堆下來,“漫畫故事墻” 漸漸貼滿了,再也塞不下新的便利貼。沒辦法,他只能回頭翻完整的漫畫書,一點(diǎn)點(diǎn)回顧前情。擴(kuò)大“漫畫故事墻”固然可以,但是工作室砸墻擴(kuò)墻的成本實(shí)在太高了。最近編輯催得越來越緊,小劉急得直轉(zhuǎn)圈:怎樣才能在截稿日前提高效率,按時(shí)交稿呢?

專業(yè)漫畫家小李(Inspur Data)給出了以下幾點(diǎn)方案:

其一,超大檔案柜隨時(shí)補(bǔ)。小李為小劉提供了一個(gè)“劇情檔案柜”,并給它起了一個(gè)響當(dāng)當(dāng)?shù)拿?mdash;—AS3000G7!“漫畫故事墻”放不下的便利貼就放到劇情檔案柜,小劉回顧漫畫內(nèi)容時(shí),即便“漫畫故事墻”沒有,檔案柜也能夠及時(shí)補(bǔ)上,給“漫畫故事墻”擴(kuò)了容

其二,小張調(diào)度有一套。有了“檔案柜”還不夠,還得讓小劉能快速取用便利貼才行!為加快取用速度,小李為小劉配備了畫稿調(diào)度員小張(IO管理容器)。小張是個(gè)能人,小劉對(duì)劇情便利貼的需求大時(shí),他派多個(gè)助理同時(shí)去檔案柜取(智能多路徑優(yōu)化),“漫畫故事墻”便利貼快空時(shí),他立刻安排檔案柜補(bǔ)全,還趁小劉更新漫畫間隙,提前把熱門漫畫的歷史內(nèi)容搬過來(動(dòng)態(tài)緩存管理)。無論歷史內(nèi)容便利貼存放還是取用,小張都能安排得順暢高效。

其三,老趙管理有高招。為了提高檔案柜的使用效率,小李推薦了檔案管理員老趙(Turbo KV加速引擎),老趙更有訣竅。他把歷史劇情便利貼定向規(guī)整存放(KV Cache定向壓縮),同樣的空間能多存一半。他還把那些放了半年沒有翻過的歷史劇情稿及時(shí)清理(容量管理加速),讓檔案柜空間得到充分利用。

接下來,我們將一一介紹這三個(gè)推理效率提升手段背后的實(shí)現(xiàn)原理及主要價(jià)值。

01外置存儲(chǔ):用“劇情檔案柜”突破容量極限

大模型在推理過程中會(huì)產(chǎn)生大量的KV Cache,如DeepSeek-70B每10分鐘就會(huì)產(chǎn)生25TB的KV Cache,這些KV Cache需要存儲(chǔ)到GPU服務(wù)器的HBM顯存里,以加快連續(xù)長(zhǎng)文本對(duì)話的反響應(yīng)速度。而在當(dāng)前主流的GPU服務(wù)器中,HBM顯存容量普遍不超過128GB,相對(duì)動(dòng)輒幾十、上百TB的KV Cache來說,顯然有些不夠看了。

為了處理這類問題,外置存儲(chǔ)成為學(xué)研用界都在考慮的方案。基于此,浪潮存儲(chǔ)推出專為提升大模型推理效率的推理加速存儲(chǔ)----AS3000G7。

在硬件上,AS3000G7采用硬件池化技術(shù),對(duì)HBM顯存、DRAM、SSD存儲(chǔ)資源進(jìn)行統(tǒng)一整合,虛擬為統(tǒng)一資源池。同時(shí)采用Pagedattention技術(shù)來對(duì)接大模型,對(duì)KV緩存進(jìn)行“分塊-局部計(jì)算-跨頁關(guān)聯(lián)”,將長(zhǎng)序列分割成固定大小的Block,并通過虛擬頁分配技術(shù)實(shí)現(xiàn)非連續(xù)內(nèi)存分配,進(jìn)一步提升存儲(chǔ)資源池的利用率。通過AS3000G7,可以將HBM的空間“擴(kuò)展”300多倍,減少GPU重復(fù)計(jì)算帶來的資源消耗,TTFT降低90%。

02 智能調(diào)度:讓“畫稿調(diào)度員”盤活供需鏈路

僅用外置存儲(chǔ)來存儲(chǔ)KV Cache并無法完全實(shí)現(xiàn)連續(xù)長(zhǎng)文本對(duì)話的快速響應(yīng),原因顯而易見:DRAM和SSD的讀寫速度與HBM存在近百倍的差距(HBM:1-3TB/s,DRAM:40-50GB/s,SSD:10-15GB/s)。因此,加快外置存儲(chǔ)和HBM之間的通信是保證外置存儲(chǔ)方案落地的關(guān)鍵點(diǎn)。

針對(duì)這個(gè)問題,AS3000G7提出了IO管理容器的方案。在應(yīng)用過程中,AS3000G7和大模型結(jié)合進(jìn)行智能多路徑優(yōu)化,為每個(gè)LLM層分配獨(dú)立NVMe隊(duì)列,實(shí)現(xiàn)多GPU張量并行下的many-to-many連接,針對(duì)LLM高頻、隨機(jī)、小IO特征(10KB-160KB),動(dòng)態(tài)優(yōu)化數(shù)據(jù)傳輸路徑。同時(shí),AS3000G7基于動(dòng)態(tài)緩存管理技術(shù)對(duì)vLLM調(diào)度器算法進(jìn)行了優(yōu)化,實(shí)時(shí)監(jiān)控Block使用頻率,將高頻Block保留在HBM,低頻Block下沉至AS3000G7,KV Cache可以基于使用頻率在不同的介質(zhì)中自由流動(dòng)。通過動(dòng)態(tài)緩存管理和智能多路徑優(yōu)化,AS3000G7支持的GPU服務(wù)器吞吐量(Token/s)可達(dá)原方案5倍,單位GPU資源可承載更多推理請(qǐng)求。

03 精細(xì)管理:靠“檔案管理員”提升經(jīng)營效率

對(duì)于大模型的存儲(chǔ)集群而言,充分利用存儲(chǔ)空間同樣有助于降低大模型推理成本。AS3000G7采用KV Cache定向壓縮技術(shù),針對(duì)LLM重復(fù)KV進(jìn)行優(yōu)化,降低SSD寫放大,提升空間利用率。同時(shí),AS3000G7采用容量管理加速算法,基于TTL/LRU策略對(duì)無效KV Cache進(jìn)行卸載,并通過自定義的Block Container元數(shù)據(jù)結(jié)構(gòu),精準(zhǔn)追蹤跨層(KV緩存層、HBM層、SSD層)的關(guān)聯(lián)KV塊,實(shí)現(xiàn)“卸載一個(gè)對(duì)話路徑=凈化整個(gè)計(jì)算鏈路”。與原方案相比,AS3000G7存儲(chǔ)KV Cache數(shù)量可增加50%

小劉聽了專業(yè)漫畫家小李的建議,立刻照著方案動(dòng)了起來。有了 AS3000G7 “劇情檔案柜”當(dāng) “大儲(chǔ)備”,小張調(diào)度劇情便利貼又快又準(zhǔn),老趙把檔案柜打理得井井有條,小劉創(chuàng)作時(shí),不管是從 “漫畫故事墻” 直接取用還是從“劇情檔案柜”調(diào)取前情,速度都比以前快了大半。多話連載銜接時(shí),劇情隨用隨取,卡殼的時(shí)間少了,哪怕同時(shí)推進(jìn)好幾部連載也能穩(wěn)穩(wěn)應(yīng)對(duì)。更重要的是,不用再花冤枉錢砸墻擴(kuò) “漫畫故事墻”,成本降了,效率卻提了上來 —— 曾經(jīng)讓小劉頭疼的截稿壓力,這下全解決了!

THE END
廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里 尋求合作
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

相關(guān)熱點(diǎn)

相關(guān)推薦

1
3