DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！

2025-2-21 10:02:00

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！

Grok3發(fā)布引發(fā)熱議，DeepSeek與Kimi稀疏注意力技術(shù)成焦點(diǎn)

近日，xAI發(fā)布了全新一代大語言模型Grok3，被創(chuàng)始人埃隆·馬斯克稱為“地球上最聰明的AI”，引發(fā)全球關(guān)注。據(jù)悉，Grok3背后投入了20萬塊H100 GPU，算力規(guī)模是上一代Grok2的15倍以上，展現(xiàn)了xAI在AI研發(fā)上的巨大投入與野心。在多項(xiàng)基準(zhǔn)測試中，Grok3表現(xiàn)優(yōu)異，領(lǐng)先DeepSeek R1和o3 mini等競爭對手。然而，業(yè)內(nèi)對Grok3的評價卻不盡相同。

盡管Grok3的性能確實(shí)有所提升，但其算力投入與性能增長并未成正比。這一現(xiàn)象也讓業(yè)界開始重新審視大模型的Scaling Laws（擴(kuò)展規(guī)律），認(rèn)為算力的邊際效益遞減可能已逐漸顯現(xiàn)。與此同時，AI領(lǐng)域的另一趨勢也在悄然興起：通過創(chuàng)新技術(shù)提升算力利用效率，成為下一代大模型發(fā)展的重要方向。

就在Grok3發(fā)布的當(dāng)天，DeepSeek團(tuán)隊(duì)發(fā)布了一篇論文，介紹了全新的稀疏注意力機(jī)制——Natively Sparse Attention（NSA），旨在提升長文本處理的效率和硬件利用率。同日，Kimi團(tuán)隊(duì)也推出了類似的稀疏注意力技術(shù)MoBA，兩者均為大語言模型的長文本處理提供了新的解決方案。

DeepSeek的NSA：用更少的計(jì)算做更多的事

在大語言模型發(fā)展的初期，模型處理長文本的能力曾是重要的性能指標(biāo)之一。然而，傳統(tǒng)的全注意力機(jī)制在長文本處理上存在顯著瓶頸：計(jì)算成本隨文本長度呈指數(shù)級增長，導(dǎo)致高延遲、高能耗，甚至難以完成任務(wù)。例如，要處理一本十萬字的書，全注意力機(jī)制需要計(jì)算每個詞與其他所有詞之間的關(guān)系，計(jì)算量極大。

為了解決這一問題，稀疏注意力機(jī)制應(yīng)運(yùn)而生。其核心思想是**“只關(guān)注最重要的部分”**，通過減少計(jì)算量來提升效率。然而，現(xiàn)有稀疏注意力機(jī)制存在兩大問題：

理論上計(jì)算量減少，但推理速度提升有限；

在訓(xùn)練階段效果不佳，多數(shù)稀疏機(jī)制僅適用于推理。

DeepSeek的NSA針對上述問題提出了解決方案，主要從文本處理策略和硬件優(yōu)化兩個方面入手：

文本處理：分層稀疏策略

粗粒度壓縮：將長文本分成多個塊（如每32個詞為一塊），通過機(jī)器學(xué)習(xí)模型提取每個塊的摘要，減少計(jì)算量。

細(xì)粒度選擇：動態(tài)篩選最關(guān)鍵的塊（如通過注意力評分選出16個塊），僅計(jì)算這些塊的詳細(xì)信息。

局部上下文保留：保留最近的512個詞，確保模型捕捉到短期上下文關(guān)系。

這一過程可以類比為快速閱讀一本書：粗略翻閱全書（粗粒度壓縮），標(biāo)記重要章節(jié)（細(xì)粒度選擇），并結(jié)合關(guān)鍵段落的上下文來理解內(nèi)容（局部上下文保留）。

硬件優(yōu)化：充分利用GPU性能

分塊內(nèi)存訪問：將數(shù)據(jù)按連續(xù)塊加載到GPU內(nèi)存中，減少隨機(jī)訪問開銷。

共享鍵值緩存：在解碼階段，多個注意力頭共享同一鍵值緩存，降低內(nèi)存帶寬需求。

稀疏性訓(xùn)練：在訓(xùn)練階段直接引入稀疏性，確保模型學(xué)會有效利用稀疏結(jié)構(gòu)，實(shí)現(xiàn)端到端訓(xùn)練。

NSA的實(shí)際效果

DeepSeek團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了NSA的性能：

在64k長度的文本處理中，NSA的推理速度比傳統(tǒng)注意力快11.6倍，訓(xùn)練速度提升6-9倍（使用NVIDIA A100 GPU）。

在知識問答（MMLU）、代碼生成（HumanEval）、長文本理解（LongBench）等任務(wù)中，NSA的性能與全注意力模型相當(dāng)甚至更優(yōu)。

通過與GPU內(nèi)存架構(gòu)（HBM→SRAM）的優(yōu)化對齊，NSA首次實(shí)現(xiàn)了理論計(jì)算節(jié)省與實(shí)際加速的統(tǒng)一。它不僅顯著提升了推理效率，還解決了稀疏注意力機(jī)制在訓(xùn)練階段的應(yīng)用難題，為低功耗、高效率的大模型部署奠定了技術(shù)基礎(chǔ)。

Kimi的MoBA：結(jié)合專家混合的動態(tài)稀疏注意力

與DeepSeek的NSA類似，Kimi團(tuán)隊(duì)的MoBA（Mix of Blocks Attention）同樣致力于解決長文本處理中的計(jì)算成本問題。然而，MoBA采用了不同的技術(shù)思路，借鑒了“專家混合”（Mixture of Experts, MoE）的理念。

MoBA的核心創(chuàng)新：動態(tài)選擇機(jī)制

MoBA將文本分成多個塊，通過一種動態(tài)“門控機(jī)制”決定每個查詢需要關(guān)注哪些塊。這種方式讓模型可以根據(jù)任務(wù)需求靈活調(diào)整注意力范圍，而不是依賴固定規(guī)則。

硬件優(yōu)化與超長文本支持

MoBA結(jié)合了FlashAttention技術(shù)，進(jìn)一步提升了計(jì)算效率。通過分布式計(jì)算解決了GPU內(nèi)存限制問題，MoBA能夠擴(kuò)展至1000萬詞以上的超長序列處理，成為其顯著優(yōu)勢之一。

行業(yè)趨勢：從算力堆疊到效率優(yōu)化

隨著大模型規(guī)模的不斷擴(kuò)展，算力投入的邊際效益遞減已成趨勢。Grok3的發(fā)布雖然再次刷新了大模型能力上限，但其巨大的算力投入與性能提升不成比例，引發(fā)了業(yè)界對大模型未來發(fā)展的深思。

相比之下，DeepSeek和Kimi等團(tuán)隊(duì)的創(chuàng)新技術(shù)表明，通過提升算力利用效率，或許能更有效推動大模型的應(yīng)用普及。無論是NSA的分層稀疏策略，還是MoBA的動態(tài)選擇機(jī)制，這些技術(shù)都展現(xiàn)了稀疏注意力在提升效率方面的潛力。

未來，隨著AI應(yīng)用場景的不斷擴(kuò)展，算力需求仍將持續(xù)增長。但僅依靠硬件堆疊已難以帶來顯著提升，如何通過技術(shù)創(chuàng)新提高算力利用率，將成為AI領(lǐng)域的關(guān)鍵突破方向。

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！

企業(yè)新聞

行業(yè)新聞

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！

企業(yè)新聞

行業(yè)新聞

DeepSeek最新論文：訓(xùn)練速度提升9倍，推理速度快11倍！