日韩av在线免费观看不卡,精品午夜久久,久久国产日韩欧美精品

雖然距離春節(jié)還有些時(shí)日，但國(guó)內(nèi)科技圈的節(jié)奏似乎已經(jīng)提前進(jìn)入了假期模式，唯獨(dú) DeepSeek 是個(gè)例外。

就在昨天，DeepSeek 毫無(wú)預(yù)兆地在 GitHub 上開(kāi)源了新模塊 Engram 的相關(guān)代碼，并發(fā)布了一篇題為《Conditional Memory via Scalable Lookup》的論文。更早一點(diǎn)，在元旦當(dāng)天，他們還甩出了一篇關(guān)于模型架構(gòu)穩(wěn)定性的《mHC》。

DeepSeek大量招人，該梁文鋒上場(chǎng)了

這兩篇硬核論文的作者列表中，都赫然出現(xiàn)了 DeepSeek 創(chuàng)始人梁文鋒的名字。這種高密度的技術(shù)輸出，顯然不是為了湊年底的 KPI，而是在向外界傳遞一個(gè)明確的信號(hào)：在沉默的這段時(shí)間里，DeepSeek 并沒(méi)有休息，他們?cè)跒橄乱淮Ｐ头e攢彈藥。

旺盛的招聘需求似乎印證了這個(gè)觀點(diǎn)。鳳凰網(wǎng)科技在檢索社交媒體信息后發(fā)現(xiàn)，DeepSeek近期正在大量招人，放出了多個(gè)技術(shù)核心崗位招聘，包括深度學(xué)習(xí)研究員（負(fù)責(zé)LLM各個(gè)方向的前沿探索，如預(yù)訓(xùn)練、alignment、codemath、backbone、multimodal等）、深度學(xué)習(xí)研發(fā)工程師（LLM預(yù)訓(xùn)練數(shù)據(jù)/搜索策略相關(guān)）、大模型全棧工程師（算法與工程并重，歸屬于各個(gè)前沿探索方向，除了實(shí)現(xiàn)還會(huì)參與一些環(huán)境的部署和搭建）、全棧開(kāi)發(fā)工程師、核心系統(tǒng)研發(fā)工程署。且據(jù)招聘者表述，校招、社招、實(shí)習(xí)均開(kāi)放，另有產(chǎn)品、設(shè)計(jì)、數(shù)據(jù)百曉生等崗位開(kāi)放。

值得一提的是，根據(jù)此前梁文鋒署名的論文作者名單，整個(gè)DeepSeek的人員穩(wěn)定性極高，證明此次招聘主要是擴(kuò)招需求。另?yè)?jù)表述，大部分崗位都可以駐扎在北京或杭州。和此前多數(shù)崗位需要去杭州已有不同。早在2025年11月，DeepSeek還開(kāi)放過(guò)行政招聘，據(jù)相關(guān)人士表述“是因?yàn)閳F(tuán)隊(duì)大了，需要更多的行政伙伴”。

現(xiàn)在，彈藥已備好，或許真的該梁文鋒上場(chǎng)了。

DeepSeek大量招人，該梁文鋒上場(chǎng)了

梁文鋒已提前開(kāi)啟“春節(jié)檔”

DeepSeek的這個(gè)“春節(jié)檔”已提前開(kāi)啟。就在全行業(yè)都在盤(pán)點(diǎn) 2025 年應(yīng)用層得失的時(shí)候，DeepSeek把目光鎖在了架構(gòu)層。

最新發(fā)布的Engram研究是與北京大學(xué)合作完成的。這項(xiàng)研究直指當(dāng)前Transformer 架構(gòu)的一個(gè)痛點(diǎn)：大模型雖然通過(guò) MoE 實(shí)現(xiàn)了“條件計(jì)算”，但缺乏原生的“條件記憶”。現(xiàn)在的模型記東西太笨，只能靠計(jì)算來(lái)模擬檢索。DeepSeek提出的 Engram 模塊，要給大模型裝上一個(gè)外掛式的“硬盤(pán)”，讓它能像查字典一樣，以 O(1) 的時(shí)間復(fù)雜度調(diào)取知識(shí)，而不是靠算力硬抗。

在元旦發(fā)布的《mHC：流形約束超連接》中，梁文鋒和他的團(tuán)隊(duì)解決的是另一個(gè)問(wèn)題——超大規(guī)模模型的訓(xùn)練穩(wěn)定性。隨著模型越來(lái)越大，傳統(tǒng)的殘差連接開(kāi)始失效，訓(xùn)練容易崩潰。DeepSeek 用一套數(shù)學(xué)方法，把神經(jīng)網(wǎng)絡(luò)的連接方式約束在特定的流形空間里，恢復(fù)了信息傳遞的穩(wěn)定性。

實(shí)驗(yàn)表明，在 27B 參數(shù)的混合專(zhuān)家模型上，mHC 展現(xiàn)出穩(wěn)定的訓(xùn)練曲線(xiàn)，最終損失相比基線(xiàn)有降低。

DeepSeek大量招人，該梁文鋒上場(chǎng)了

DeepSeek 團(tuán)隊(duì)還為 mHC 架構(gòu)開(kāi)發(fā)了一系列基礎(chǔ)設(shè)施優(yōu)化。他們使用 TileLang 框架實(shí)現(xiàn)了多個(gè)融合內(nèi)核，將原本分散的操作合并執(zhí)行以減少內(nèi)存訪問(wèn)次數(shù)。針對(duì) Sinkhorn-Knopp 算法，他們?cè)O(shè)計(jì)了專(zhuān)門(mén)的前向和反向內(nèi)核，在芯片上重新計(jì)算中間結(jié)果以避免存儲(chǔ)開(kāi)銷(xiāo)。在流水線(xiàn)并行方面，團(tuán)隊(duì)擴(kuò)展了 DualPipe 調(diào)度策略，通過(guò)將 MLP 層的特定內(nèi)核放在高優(yōu)先級(jí)計(jì)算流上執(zhí)行，實(shí)現(xiàn)了計(jì)算與通信的重疊。這些優(yōu)化讓 mHC 在保持性能優(yōu)勢(shì)的同時(shí)，減少了額外開(kāi)銷(xiāo)。

回看過(guò)去一年，DeepSeek 究竟在做什么？如果說(shuō) V2 和 V3 是證明了“團(tuán)隊(duì)能把 MoE 做得很好”，那么 DeepSeek 的這一年，則是在試圖回答“除了 MoE，大模型還需要什么”。

首先是記憶機(jī)制的重構(gòu)。在 Engram 的設(shè)計(jì)中，DeepSeek 發(fā)現(xiàn)了一個(gè)驚人的 U 型擴(kuò)展規(guī)律。他們通過(guò)實(shí)驗(yàn)證明，純粹的 MoE 并不是最優(yōu)解。在同等參數(shù)量和計(jì)算量（Iso-FLOPs）的限制下，如果把 20%-25% 的資源分給靜態(tài)記憶（Engram），剩下的分給神經(jīng)計(jì)算（MoE），模型的效果才是最好的。這是一個(gè)反直覺(jué)的發(fā)現(xiàn)：有時(shí)候，少算一點(diǎn)，多記一點(diǎn)，反而更聰明。

數(shù)據(jù)支撐了這一理論。DeepSeek 將 Engram 擴(kuò)展到了 270 億參數(shù)規(guī)模。結(jié)果顯示，這個(gè)外掛記憶模塊不僅讓模型背書(shū)能力變強(qiáng)了（MMLU 提升 3.4），更意外的是，它讓模型變聰明了，BBH 推理能力提升 5.0，數(shù)學(xué)能力提升 2.4。甚至在“大海撈針”這種長(zhǎng)文本測(cè)試中，準(zhǔn)確率直接從 84.2% 飆升到了 97.0%。這說(shuō)明，當(dāng)模型不需要耗費(fèi)腦力去死記硬背時(shí)，它就能騰出更多的注意力去處理復(fù)雜的邏輯推理。

其次是底層連接的修補(bǔ)。在 mHC 的研究中，DeepSeek 團(tuán)隊(duì)展現(xiàn)了極強(qiáng)的工程與數(shù)學(xué)結(jié)合能力。他們不只是提出了理論，還針對(duì)硬件做了一系列“變態(tài)”級(jí)的優(yōu)化：擴(kuò)展 DualPipe 調(diào)度策略，重新設(shè)計(jì) Sinkhorn-Knopp 算法的內(nèi)核，甚至為了減少顯存訪問(wèn)，把分散的操作強(qiáng)行融合。這些優(yōu)化讓 mHC 架構(gòu)在 27B 規(guī)模的模型上，訓(xùn)練損失比基線(xiàn)降低了 0.021，推理能力提升 2.1%。

這一年，DeepSeek 并沒(méi)有在應(yīng)用層的紅海里戀戰(zhàn)，而是退回到了那個(gè)最枯燥、最硬核的角落，試圖把 Transformer 這座大廈的地基再夯實(shí)一點(diǎn)。Engram 解決了“記不住”和“推理慢”的問(wèn)題，mHC 解決了“長(zhǎng)不大”和“練不穩(wěn)”的問(wèn)題。

這讓一年時(shí)間過(guò)去，DeepSeek還在神壇之上。用一位行業(yè)人士的話(huà)說(shuō)，“DeepSeek這家公司始終在創(chuàng)新”。

DeepSeek大量招人，該梁文鋒上場(chǎng)了

V4真的要來(lái)了？

現(xiàn)在高潮或許快來(lái)了，所有的線(xiàn)索都指向了同一個(gè)方向：DeepSeek V4。

如果我們把這兩篇論文疊加在一起看，V4的輪廓已經(jīng)呼之欲出。它極大概率不會(huì)是一個(gè)單純堆砌參數(shù)的龐然大物，而是一個(gè)架構(gòu)極其精巧的“縫合怪”：它將擁有MoE帶來(lái)的極致計(jì)算效率，同時(shí)集成了Engram帶來(lái)的海量低成本記憶，底層則由 mHC架構(gòu)支撐其在超大規(guī)模下的訓(xùn)練穩(wěn)定性。

Engram的論文中提到了一個(gè)細(xì)節(jié)：這種架構(gòu)支持“預(yù)取-重疊”策略，可以利用CPU內(nèi)存來(lái)存知識(shí)，GPU專(zhuān)心算邏輯。這意味著，V4極有可能在保持推理成本低廉的同時(shí)，擁有遠(yuǎn)超當(dāng)前一代模型的知識(shí)容量和長(zhǎng)上下文處理能力。這對(duì)于目前受困于顯存成本的行業(yè)來(lái)說(shuō)，可能又是一次降維打擊。

DeepSeek大量招人，該梁文鋒上場(chǎng)了

此外，mHC的成功驗(yàn)證意味著DeepSeek已經(jīng)掌握了訓(xùn)練更大規(guī)模多模態(tài)模型、甚至萬(wàn)億參數(shù)模型的“穩(wěn)定器”。對(duì)于算力資源本就不富裕的國(guó)內(nèi) AI 圈，這種算法層面的效率提升，比單純購(gòu)買(mǎi)幾千張英偉達(dá)芯片更有戰(zhàn)略意義。

技術(shù)拼圖已經(jīng)湊齊，基礎(chǔ)設(shè)施的優(yōu)化代碼也已上傳GitHub。梁文鋒在這個(gè)時(shí)間點(diǎn)連續(xù)拋出硬核研究，顯然不僅僅是為了學(xué)術(shù)交流。這更像是一場(chǎng)發(fā)布會(huì)前的“技術(shù)路演”。

春節(jié)將至，萬(wàn)物閉藏，但這往往也是驚雷孕育的時(shí)刻。DeepSeek V4的發(fā)令槍?zhuān)蛟S已經(jīng)握在了梁文鋒的手中，只等那最后一聲槍響。

久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看

DeepSeek大量招人，該梁文鋒上場(chǎng)了

科技視界更多>>