雖然距離春節(jié)還有些時(shí)日,但國(guó)內(nèi)科技圈的節(jié)奏似乎已經(jīng)提前進(jìn)入了假期模式,唯獨(dú) DeepSeek 是個(gè)例外。
就在昨天,DeepSeek 毫無(wú)預(yù)兆地在 GitHub 上開(kāi)源了新模塊 Engram 的相關(guān)代碼,并發(fā)布了一篇題為《Conditional Memory via Scalable Lookup》的論文。更早一點(diǎn),在元旦當(dāng)天,他們還甩出了一篇關(guān)于模型架構(gòu)穩(wěn)定性的《mHC》。

這兩篇硬核論文的作者列表中,都赫然出現(xiàn)了 DeepSeek 創(chuàng)始人梁文鋒的名字。這種高密度的技術(shù)輸出,顯然不是為了湊年底的 KPI,而是在向外界傳遞一個(gè)明確的信號(hào):在沉默的這段時(shí)間里,DeepSeek 并沒(méi)有休息,他們?cè)跒橄乱淮P头e攢彈藥。
旺盛的招聘需求似乎印證了這個(gè)觀點(diǎn)。鳳凰網(wǎng)科技在檢索社交媒體信息后發(fā)現(xiàn),DeepSeek近期正在大量招人,放出了多個(gè)技術(shù)核心崗位招聘,包括深度學(xué)習(xí)研究員(負(fù)責(zé)LLM各個(gè)方向的前沿探索,如預(yù)訓(xùn)練、alignment、codemath、backbone、multimodal等)、深度學(xué)習(xí)研發(fā)工程師(LLM預(yù)訓(xùn)練數(shù)據(jù)/搜索策略相關(guān))、大模型全棧工程師(算法與工程并重,歸屬于各個(gè)前沿探索方向,除了實(shí)現(xiàn)還會(huì)參與一些環(huán)境的部署和搭建)、全棧開(kāi)發(fā)工程師、核心系統(tǒng)研發(fā)工程署。且據(jù)招聘者表述,校招、社招、實(shí)習(xí)均開(kāi)放,另有產(chǎn)品、設(shè)計(jì)、數(shù)據(jù)百曉生等崗位開(kāi)放。
值得一提的是,根據(jù)此前梁文鋒署名的論文作者名單,整個(gè)DeepSeek的人員穩(wěn)定性極高,證明此次招聘主要是擴(kuò)招需求。另?yè)?jù)表述,大部分崗位都可以駐扎在北京或杭州。和此前多數(shù)崗位需要去杭州已有不同。早在2025年11月,DeepSeek還開(kāi)放過(guò)行政招聘,據(jù)相關(guān)人士表述“是因?yàn)閳F(tuán)隊(duì)大了,需要更多的行政伙伴”。
現(xiàn)在,彈藥已備好,或許真的該梁文鋒上場(chǎng)了。

梁文鋒已提前開(kāi)啟“春節(jié)檔”
DeepSeek的這個(gè)“春節(jié)檔”已提前開(kāi)啟。就在全行業(yè)都在盤(pán)點(diǎn) 2025 年應(yīng)用層得失的時(shí)候,DeepSeek把目光鎖在了架構(gòu)層。
最新發(fā)布的Engram研究是與北京大學(xué)合作完成的。這項(xiàng)研究直指當(dāng)前Transformer 架構(gòu)的一個(gè)痛點(diǎn):大模型雖然通過(guò) MoE 實(shí)現(xiàn)了“條件計(jì)算”,但缺乏原生的“條件記憶”。現(xiàn)在的模型記東西太笨,只能靠計(jì)算來(lái)模擬檢索。DeepSeek提出的 Engram 模塊,要給大模型裝上一個(gè)外掛式的“硬盤(pán)”,讓它能像查字典一樣,以 O(1) 的時(shí)間復(fù)雜度調(diào)取知識(shí),而不是靠算力硬抗。
在元旦發(fā)布的《mHC:流形約束超連接》中,梁文鋒和他的團(tuán)隊(duì)解決的是另一個(gè)問(wèn)題——超大規(guī)模模型的訓(xùn)練穩(wěn)定性。隨著模型越來(lái)越大,傳統(tǒng)的殘差連接開(kāi)始失效,訓(xùn)練容易崩潰。DeepSeek 用一套數(shù)學(xué)方法,把神經(jīng)網(wǎng)絡(luò)的連接方式約束在特定的流形空間里,恢復(fù)了信息傳遞的穩(wěn)定性。
實(shí)驗(yàn)表明,在 27B 參數(shù)的混合專(zhuān)家模型上,mHC 展現(xiàn)出穩(wěn)定的訓(xùn)練曲線(xiàn),最終損失相比基線(xiàn)有降低。

DeepSeek 團(tuán)隊(duì)還為 mHC 架構(gòu)開(kāi)發(fā)了一系列基礎(chǔ)設(shè)施優(yōu)化。他們使用 TileLang 框架實(shí)現(xiàn)了多個(gè)融合內(nèi)核,將原本分散的操作合并執(zhí)行以減少內(nèi)存訪問(wèn)次數(shù)。針對(duì) Sinkhorn-Knopp 算法,他們?cè)O(shè)計(jì)了專(zhuān)門(mén)的前向和反向內(nèi)核,在芯片上重新計(jì)算中間結(jié)果以避免存儲(chǔ)開(kāi)銷(xiāo)。在流水線(xiàn)并行方面,團(tuán)隊(duì)擴(kuò)展了 DualPipe 調(diào)度策略,通過(guò)將 MLP 層的特定內(nèi)核放在高優(yōu)先級(jí)計(jì)算流上執(zhí)行,實(shí)現(xiàn)了計(jì)算與通信的重疊。這些優(yōu)化讓 mHC 在保持性能優(yōu)勢(shì)的同時(shí),減少了額外開(kāi)銷(xiāo)。
回看過(guò)去一年,DeepSeek 究竟在做什么?如果說(shuō) V2 和 V3 是證明了“團(tuán)隊(duì)能把 MoE 做得很好”,那么 DeepSeek 的這一年,則是在試圖回答“除了 MoE,大模型還需要什么”。
首先是記憶機(jī)制的重構(gòu)。在 Engram 的設(shè)計(jì)中,DeepSeek 發(fā)現(xiàn)了一個(gè)驚人的 U 型擴(kuò)展規(guī)律。他們通過(guò)實(shí)驗(yàn)證明,純粹的 MoE 并不是最優(yōu)解。在同等參數(shù)量和計(jì)算量(Iso-FLOPs)的限制下,如果把 20%-25% 的資源分給靜態(tài)記憶(Engram),剩下的分給神經(jīng)計(jì)算(MoE),模型的效果才是最好的。這是一個(gè)反直覺(jué)的發(fā)現(xiàn):有時(shí)候,少算一點(diǎn),多記一點(diǎn),反而更聰明。
數(shù)據(jù)支撐了這一理論。DeepSeek 將 Engram 擴(kuò)展到了 270 億參數(shù)規(guī)模。結(jié)果顯示,這個(gè)外掛記憶模塊不僅讓模型背書(shū)能力變強(qiáng)了(MMLU 提升 3.4),更意外的是,它讓模型變聰明了,BBH 推理能力提升 5.0,數(shù)學(xué)能力提升 2.4。甚至在“大海撈針”這種長(zhǎng)文本測(cè)試中,準(zhǔn)確率直接從 84.2% 飆升到了 97.0%。這說(shuō)明,當(dāng)模型不需要耗費(fèi)腦力去死記硬背時(shí),它就能騰出更多的注意力去處理復(fù)雜的邏輯推理。
其次是底層連接的修補(bǔ)。在 mHC 的研究中,DeepSeek 團(tuán)隊(duì)展現(xiàn)了極強(qiáng)的工程與數(shù)學(xué)結(jié)合能力。他們不只是提出了理論,還針對(duì)硬件做了一系列“變態(tài)”級(jí)的優(yōu)化:擴(kuò)展 DualPipe 調(diào)度策略,重新設(shè)計(jì) Sinkhorn-Knopp 算法的內(nèi)核,甚至為了減少顯存訪問(wèn),把分散的操作強(qiáng)行融合。這些優(yōu)化讓 mHC 架構(gòu)在 27B 規(guī)模的模型上,訓(xùn)練損失比基線(xiàn)降低了 0.021,推理能力提升 2.1%。
這一年,DeepSeek 并沒(méi)有在應(yīng)用層的紅海里戀戰(zhàn),而是退回到了那個(gè)最枯燥、最硬核的角落,試圖把 Transformer 這座大廈的地基再夯實(shí)一點(diǎn)。Engram 解決了“記不住”和“推理慢”的問(wèn)題,mHC 解決了“長(zhǎng)不大”和“練不穩(wěn)”的問(wèn)題。
這讓一年時(shí)間過(guò)去,DeepSeek還在神壇之上。用一位行業(yè)人士的話(huà)說(shuō),“DeepSeek這家公司始終在創(chuàng)新”。

V4真的要來(lái)了?
現(xiàn)在高潮或許快來(lái)了,所有的線(xiàn)索都指向了同一個(gè)方向:DeepSeek V4。
如果我們把這兩篇論文疊加在一起看,V4的輪廓已經(jīng)呼之欲出。它極大概率不會(huì)是一個(gè)單純堆砌參數(shù)的龐然大物,而是一個(gè)架構(gòu)極其精巧的“縫合怪”:它將擁有MoE帶來(lái)的極致計(jì)算效率,同時(shí)集成了Engram帶來(lái)的海量低成本記憶,底層則由 mHC架構(gòu)支撐其在超大規(guī)模下的訓(xùn)練穩(wěn)定性。
Engram的論文中提到了一個(gè)細(xì)節(jié):這種架構(gòu)支持“預(yù)取-重疊”策略,可以利用CPU內(nèi)存來(lái)存知識(shí),GPU專(zhuān)心算邏輯。這意味著,V4極有可能在保持推理成本低廉的同時(shí),擁有遠(yuǎn)超當(dāng)前一代模型的知識(shí)容量和長(zhǎng)上下文處理能力。這對(duì)于目前受困于顯存成本的行業(yè)來(lái)說(shuō),可能又是一次降維打擊。

此外,mHC的成功驗(yàn)證意味著DeepSeek已經(jīng)掌握了訓(xùn)練更大規(guī)模多模態(tài)模型、甚至萬(wàn)億參數(shù)模型的“穩(wěn)定器”。對(duì)于算力資源本就不富裕的國(guó)內(nèi) AI 圈,這種算法層面的效率提升,比單純購(gòu)買(mǎi)幾千張英偉達(dá)芯片更有戰(zhàn)略意義。
技術(shù)拼圖已經(jīng)湊齊,基礎(chǔ)設(shè)施的優(yōu)化代碼也已上傳GitHub。梁文鋒在這個(gè)時(shí)間點(diǎn)連續(xù)拋出硬核研究,顯然不僅僅是為了學(xué)術(shù)交流。這更像是一場(chǎng)發(fā)布會(huì)前的“技術(shù)路演”。
春節(jié)將至,萬(wàn)物閉藏,但這往往也是驚雷孕育的時(shí)刻。DeepSeek V4的發(fā)令槍?zhuān)蛟S已經(jīng)握在了梁文鋒的手中,只等那最后一聲槍響。