谷歌DeepMind優(yōu)化AI模型新思路，計(jì)算效率與推理能力兼得

業(yè)界

2024

12/28

13:20

IT之家

評(píng)論

12 月 28 日消息，谷歌 DeepMind 團(tuán)隊(duì)最新推出了“可微緩存增強(qiáng)”（Differentiable Cache Augmentation）的新方法，在不明顯額外增加計(jì)算負(fù)擔(dān)的情況下，可以顯著提升大語言模型的推理性能。

項(xiàng)目背景

IT之家注：在語言處理、數(shù)學(xué)和推理領(lǐng)域，大型語言模型（LLMs）是解決復(fù)雜問題不可或缺的一部分。

計(jì)算技術(shù)的增強(qiáng)側(cè)重于使 LLMs 能夠更有效地處理數(shù)據(jù)，生成更準(zhǔn)確且與上下文相關(guān)的響應(yīng)，隨著這些模型變得復(fù)雜，研究人員努力開發(fā)在固定計(jì)算預(yù)算內(nèi)運(yùn)行而不犧牲性能的方法。

優(yōu)化 LLMs 的一大挑戰(zhàn)是它們無法有效地跨多個(gè)任務(wù)進(jìn)行推理或執(zhí)行超出預(yù)訓(xùn)練架構(gòu)的計(jì)算。

當(dāng)前提高模型性能的方法涉及在任務(wù)處理期間生成中間步驟，但代價(jià)是增加延遲和計(jì)算效率低下。這種限制阻礙了他們執(zhí)行復(fù)雜推理任務(wù)的能力，特別是那些需要更長的依賴關(guān)系或更高地預(yù)測準(zhǔn)確性的任務(wù)。

項(xiàng)目介紹

“可微緩存增強(qiáng)”（Differentiable Cache Augmentation）采用一個(gè)經(jīng)過訓(xùn)練的協(xié)處理器，通過潛在嵌入來增強(qiáng) LLM 的鍵值（kv）緩存，豐富模型的內(nèi)部記憶，關(guān)鍵在于保持基礎(chǔ) LLM 凍結(jié)，同時(shí)訓(xùn)練異步運(yùn)行的協(xié)處理器。

整個(gè)流程分為 3 個(gè)階段，凍結(jié)的 LLM 從輸入序列生成 kv 緩存；協(xié)處理器使用可訓(xùn)練軟令牌處理 kv 緩存，生成潛在嵌入；增強(qiáng)的 kv 緩存反饋到 LLM，生成更豐富的輸出。

在 Gemma-2 2B 模型上進(jìn)行測試，該方法在多個(gè)基準(zhǔn)測試中取得了顯著成果。例如，在 GSM8K 數(shù)據(jù)集上，準(zhǔn)確率提高了 10.05%；在 MMLU 上，性能提升了 4.70%。此外，該方法還降低了模型在多個(gè)標(biāo)記位置的困惑度。

谷歌 DeepMind 的這項(xiàng)研究為增強(qiáng) LLMs 的推理能力提供了新的思路。通過引入外部協(xié)處理器增強(qiáng) kv 緩存，研究人員在保持計(jì)算效率的同時(shí)顯著提高了模型性能，為 LLMs 處理更復(fù)雜的任務(wù)鋪平了道路。

【來源：IT之家】

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

谷歌DeepMind AI

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場。

国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

谷歌DeepMind優(yōu)化AI模型新思路，計(jì)算效率與推理能力兼得

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

国产乱了高清露脸对白-日韩高清在线一区-激情三级hd中文字幕,亚洲一区二区视频免费观看,亚洲精品色综合av网站,女性私密紧致按摩电影

谷歌DeepMind優(yōu)化AI模型新思路，計(jì)算效率與推理能力兼得

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國生產(chǎn) Apple Car 汽車電池

關(guān)注我們

谷歌DeepMind優(yōu)化AI模型新思路，計(jì)算效率與推理能力兼得

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！