DeepSeek登《Nature》封面，梁文鋒帶隊(duì)，首次回應(yīng)“蒸餾”爭(zhēng)議

2025-09-18 來源：鳳凰網(wǎng)

322

關(guān)鍵詞： DeepSeek-R1 DeepSeek登《Nature》低成本AI訓(xùn)練梁文鋒 AI推理革命

2025年9月17日，屬于中國(guó)人工智能的又一個(gè)高光時(shí)刻來到了。DeepSeek-AI團(tuán)隊(duì)梁文鋒及其同事在《自然》雜志發(fā)表了關(guān)于開源模型 DeepSeek-R1 的研究成果，并登上當(dāng)期封面。

論文指出，大語言模型（LLM）的推理能力可以通過純強(qiáng)化學(xué)習(xí)顯著提升，從而減少對(duì)人工標(biāo)注的依賴。與傳統(tǒng)訓(xùn)練方式相比，這一方法培養(yǎng)出的模型在數(shù)學(xué)解題、編程競(jìng)賽以及涉及STEM領(lǐng)域研究生水平的問題上，均展現(xiàn)出更優(yōu)的表現(xiàn)。

在此，DeepSeek也首次回應(yīng)“蒸餾”爭(zhēng)議，在與審稿人的交流中，DeepSeek明確表示，R1并非通過復(fù)制OpenAI模型生成的推理示例來學(xué)習(xí)。只是和大多數(shù)其他大語言模型一樣，R1的基礎(chǔ)模型是在網(wǎng)絡(luò)上訓(xùn)練的，因此它會(huì)吸收互聯(lián)網(wǎng)上已有的AI生成的內(nèi)容。

“低成本奇跡”：從29萬美元到世界舞臺(tái)

在AI世界，有一個(gè)殘酷的共識(shí)：頂尖大模型的門檻，從來不是算法，而是成本。OpenAI訓(xùn)練GPT-4，外界估算其花費(fèi)在1億美元以上；谷歌、Anthropic、Meta也在數(shù)千萬美元級(jí)別的預(yù)算上展開競(jìng)賽。資金與算力，成了決定話語權(quán)的核心。

然而，DeepSeek打破了這一“潛規(guī)則”。根據(jù)研究團(tuán)隊(duì)在論文補(bǔ)充材料披露的細(xì)節(jié)，DeepSeek-R1的推理成本僅為29.4萬美元，低到驚人。即便加上約600萬美元的基礎(chǔ)模型訓(xùn)練開銷，整體成本依然遠(yuǎn)低于國(guó)外巨頭。

DeepSeek-R1的真正突破，不僅體現(xiàn)在成本，更在于方法論上的創(chuàng)新。

研究團(tuán)隊(duì)在《Nature》發(fā)表的論文中指出，他們采用了純強(qiáng)化學(xué)習(xí)（RL）框架，并引入組相對(duì)策略優(yōu)化（GRPO）算法，僅依據(jù)最終答案的正確與否給予獎(jiǎng)勵(lì)，而非讓模型模仿人類推理路徑。

令人意外的是，這種看似“粗放”的訓(xùn)練方式，卻讓模型在實(shí)踐中自然涌現(xiàn)出自我反思（reflection）、自我驗(yàn)證（self-verification）以及生成更長(zhǎng)推理鏈條（long chains of thought）等高級(jí)行為，有時(shí)甚至?xí)沙砂偕锨€(gè)token來反復(fù)推敲一個(gè)問題。

這一點(diǎn)在數(shù)學(xué)測(cè)試中尤為明顯。論文數(shù)據(jù)顯示，在美國(guó)數(shù)學(xué)邀請(qǐng)賽（AIME 2024）中，DeepSeek-R1-Zero的準(zhǔn)確率從15.6%躍升至77.9%，在使用自洽解碼（self-consistency decoding）后更達(dá)到86.7%，超過了人類平均水平。

《Nature》評(píng)論稱，這表明模型能夠在沒有人類推理示范的情況下，通過強(qiáng)化學(xué)習(xí)自主形成復(fù)雜的思維模式。

在后續(xù)的多階段優(yōu)化中（包括RL、拒絕采樣、監(jiān)督微調(diào)及二次RL），最終版本的DeepSeek-R1不僅在數(shù)學(xué)和編程等硬核任務(wù)上表現(xiàn)突出，還在寫作、問答等通用任務(wù)上展現(xiàn)了流暢性和一致性。這意味著，DeepSeek并不是在“教AI思考”，而是在“讓AI學(xué)會(huì)自己思考”。

梁文鋒的十年長(zhǎng)跑

除了技術(shù)層面的突破，DeepSeek-R1的成功背后，更有一段鮮為人知的奮斗故事。梁文鋒，1985年出生于廣東湛江一個(gè)普通家庭，父親是小學(xué)老師。他的成長(zhǎng)軌跡雖不為大眾熟知，卻在細(xì)節(jié)中顯露出早期的求知與堅(jiān)韌。

2002年，17歲的梁文鋒考入浙江大學(xué)電子信息工程專業(yè)；五年后，他繼續(xù)攻讀信息與通信工程碩士，師從項(xiàng)志宇，專注機(jī)器視覺研究。正是在碩士階段，他與同學(xué)嘗試將機(jī)器學(xué)習(xí)應(yīng)用于金融市場(chǎng)，探索全自動(dòng)量化交易——那一年，全球金融危機(jī)正在席卷世界。盡管機(jī)會(huì)很多，像大疆創(chuàng)始人汪滔曾邀請(qǐng)他共同創(chuàng)業(yè)，梁文鋒卻選擇了一條少有人走的路：堅(jiān)信人工智能將改變世界，他決定獨(dú)立創(chuàng)業(yè)。

碩士畢業(yè)后，梁文鋒先是將人工智能技術(shù)與量化交易結(jié)合，創(chuàng)辦雅克比投資及幻方科技，并在十余年間穩(wěn)步發(fā)展。直到2023年，他將目光轉(zhuǎn)向通用人工智能，創(chuàng)辦DeepSeek，開啟了AI大模型研發(fā)之路。憑借對(duì)算法和成本效率的雙重關(guān)注，DeepSeek在短短兩年內(nèi)連續(xù)發(fā)布V2、V3模型，不僅拉低了國(guó)產(chǎn)大模型的推理成本，更以驚人的性價(jià)比震撼了全球市場(chǎng)。

梁文鋒對(duì)團(tuán)隊(duì)建設(shè)的理念同樣非同尋常。他堅(jiān)持“能力為先”，核心崗位多由應(yīng)屆畢業(yè)生和經(jīng)驗(yàn)僅一兩年的年輕人組成，“我們或許不是在中國(guó)找到前50名頂尖人才，但我們可以自己培養(yǎng)。”這種信念，也正是DeepSeek能夠在低成本下實(shí)現(xiàn)高推理能力的關(guān)鍵。

現(xiàn)在來看，DeepSeek的這項(xiàng)研究，其價(jià)值遠(yuǎn)不止于一個(gè)性能強(qiáng)大的模型。它更像是一份“方法論宣言”，向世界展示了一條不依賴天量標(biāo)注數(shù)據(jù)、更具可持續(xù)性的AI進(jìn)化之路。它打破了“資金即壁壘”的魔咒，將AI發(fā)展的主動(dòng)權(quán)交還給了科學(xué)創(chuàng)新本身。

這不僅僅是中國(guó)AI的高光時(shí)刻，更是全球AI邁向“推理革命”的一個(gè)重要里程碑。Nature審稿人、Hugging Face機(jī)器學(xué)習(xí)工程師Lewis Tunstall認(rèn)為，“R1開啟了一場(chǎng)革命”。越來越多正在應(yīng)用R1的方法論改善現(xiàn)有的大語言模型。

未來的AI競(jìng)爭(zhēng)，很可能將從“數(shù)據(jù)與算力的軍備競(jìng)賽”，轉(zhuǎn)向“算法與智慧的創(chuàng)新競(jìng)賽”。而DeepSeek-R1，已經(jīng)為這場(chǎng)新競(jìng)賽吹響了號(hào)角。