首頁>商情資訊>行業(yè)新聞

DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

2025-2-21 10:02:00
  • DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

Grok3發(fā)布引發(fā)熱議,DeepSeek與Kimi稀疏注意力技術(shù)成焦點(diǎn)

近日,xAI發(fā)布了全新一代大語言模型Grok3,被創(chuàng)始人埃隆·馬斯克稱為“地球上最聰明的AI”,引發(fā)全球關(guān)注。據(jù)悉,Grok3背后投入了20萬塊H100 GPU,算力規(guī)模是上一代Grok2的15倍以上,展現(xiàn)了xAI在AI研發(fā)上的巨大投入與野心。在多項(xiàng)基準(zhǔn)測試中,Grok3表現(xiàn)優(yōu)異,領(lǐng)先DeepSeek R1和o3 mini等競爭對手。然而,業(yè)內(nèi)對Grok3的評價卻不盡相同。

盡管Grok3的性能確實(shí)有所提升,但其算力投入與性能增長并未成正比。這一現(xiàn)象也讓業(yè)界開始重新審視大模型的Scaling Laws(擴(kuò)展規(guī)律),認(rèn)為算力的邊際效益遞減可能已逐漸顯現(xiàn)。與此同時,AI領(lǐng)域的另一趨勢也在悄然興起:通過創(chuàng)新技術(shù)提升算力利用效率,成為下一代大模型發(fā)展的重要方向。

就在Grok3發(fā)布的當(dāng)天,DeepSeek團(tuán)隊(duì)發(fā)布了一篇論文,介紹了全新的稀疏注意力機(jī)制——Natively Sparse Attention(NSA),旨在提升長文本處理的效率和硬件利用率。同日,Kimi團(tuán)隊(duì)也推出了類似的稀疏注意力技術(shù)MoBA,兩者均為大語言模型的長文本處理提供了新的解決方案。

DeepSeek的NSA:用更少的計(jì)算做更多的事

在大語言模型發(fā)展的初期,模型處理長文本的能力曾是重要的性能指標(biāo)之一。然而,傳統(tǒng)的全注意力機(jī)制在長文本處理上存在顯著瓶頸:計(jì)算成本隨文本長度呈指數(shù)級增長,導(dǎo)致高延遲、高能耗,甚至難以完成任務(wù)。例如,要處理一本十萬字的書,全注意力機(jī)制需要計(jì)算每個詞與其他所有詞之間的關(guān)系,計(jì)算量極大。

為了解決這一問題,稀疏注意力機(jī)制應(yīng)運(yùn)而生。其核心思想是**“只關(guān)注最重要的部分”**,通過減少計(jì)算量來提升效率。然而,現(xiàn)有稀疏注意力機(jī)制存在兩大問題:

理論上計(jì)算量減少,但推理速度提升有限;

在訓(xùn)練階段效果不佳,多數(shù)稀疏機(jī)制僅適用于推理。

DeepSeek的NSA針對上述問題提出了解決方案,主要從文本處理策略和硬件優(yōu)化兩個方面入手:

文本處理:分層稀疏策略

粗粒度壓縮:將長文本分成多個塊(如每32個詞為一塊),通過機(jī)器學(xué)習(xí)模型提取每個塊的摘要,減少計(jì)算量。

細(xì)粒度選擇:動態(tài)篩選最關(guān)鍵的塊(如通過注意力評分選出16個塊),僅計(jì)算這些塊的詳細(xì)信息。

局部上下文保留:保留最近的512個詞,確保模型捕捉到短期上下文關(guān)系。

這一過程可以類比為快速閱讀一本書:粗略翻閱全書(粗粒度壓縮),標(biāo)記重要章節(jié)(細(xì)粒度選擇),并結(jié)合關(guān)鍵段落的上下文來理解內(nèi)容(局部上下文保留)。

硬件優(yōu)化:充分利用GPU性能

分塊內(nèi)存訪問:將數(shù)據(jù)按連續(xù)塊加載到GPU內(nèi)存中,減少隨機(jī)訪問開銷。

共享鍵值緩存:在解碼階段,多個注意力頭共享同一鍵值緩存,降低內(nèi)存帶寬需求。

稀疏性訓(xùn)練:在訓(xùn)練階段直接引入稀疏性,確保模型學(xué)會有效利用稀疏結(jié)構(gòu),實(shí)現(xiàn)端到端訓(xùn)練。

NSA的實(shí)際效果

DeepSeek團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了NSA的性能:

在64k長度的文本處理中,NSA的推理速度比傳統(tǒng)注意力快11.6倍,訓(xùn)練速度提升6-9倍(使用NVIDIA A100 GPU)。

在知識問答(MMLU)、代碼生成(HumanEval)、長文本理解(LongBench)等任務(wù)中,NSA的性能與全注意力模型相當(dāng)甚至更優(yōu)。

通過與GPU內(nèi)存架構(gòu)(HBM→SRAM)的優(yōu)化對齊,NSA首次實(shí)現(xiàn)了理論計(jì)算節(jié)省與實(shí)際加速的統(tǒng)一。它不僅顯著提升了推理效率,還解決了稀疏注意力機(jī)制在訓(xùn)練階段的應(yīng)用難題,為低功耗、高效率的大模型部署奠定了技術(shù)基礎(chǔ)。

Kimi的MoBA:結(jié)合專家混合的動態(tài)稀疏注意力

與DeepSeek的NSA類似,Kimi團(tuán)隊(duì)的MoBA(Mix of Blocks Attention)同樣致力于解決長文本處理中的計(jì)算成本問題。然而,MoBA采用了不同的技術(shù)思路,借鑒了“專家混合”(Mixture of Experts, MoE)的理念。

MoBA的核心創(chuàng)新:動態(tài)選擇機(jī)制

MoBA將文本分成多個塊,通過一種動態(tài)“門控機(jī)制”決定每個查詢需要關(guān)注哪些塊。這種方式讓模型可以根據(jù)任務(wù)需求靈活調(diào)整注意力范圍,而不是依賴固定規(guī)則。

硬件優(yōu)化與超長文本支持

MoBA結(jié)合了FlashAttention技術(shù),進(jìn)一步提升了計(jì)算效率。通過分布式計(jì)算解決了GPU內(nèi)存限制問題,MoBA能夠擴(kuò)展至1000萬詞以上的超長序列處理,成為其顯著優(yōu)勢之一。

行業(yè)趨勢:從算力堆疊到效率優(yōu)化

隨著大模型規(guī)模的不斷擴(kuò)展,算力投入的邊際效益遞減已成趨勢。Grok3的發(fā)布雖然再次刷新了大模型能力上限,但其巨大的算力投入與性能提升不成比例,引發(fā)了業(yè)界對大模型未來發(fā)展的深思。

相比之下,DeepSeek和Kimi等團(tuán)隊(duì)的創(chuàng)新技術(shù)表明,通過提升算力利用效率,或許能更有效推動大模型的應(yīng)用普及。無論是NSA的分層稀疏策略,還是MoBA的動態(tài)選擇機(jī)制,這些技術(shù)都展現(xiàn)了稀疏注意力在提升效率方面的潛力。

未來,隨著AI應(yīng)用場景的不斷擴(kuò)展,算力需求仍將持續(xù)增長。但僅依靠硬件堆疊已難以帶來顯著提升,如何通過技術(shù)創(chuàng)新提高算力利用率,將成為AI領(lǐng)域的關(guān)鍵突破方向。