DeepSeek R1論文更新了

Datawhale乾貨

最新:DeepSeek論文,來源:新智元

幾天前,DeepSeek悄無聲息地把R1的論文更新了,從原來22頁更新到86頁論文。全新的論文證明,只需要強化學習就能提升AI推理能力!

這一次的更新,直接將原始論文升級為:一份開源社羣完全可復現的技術報告論文

DeepSeek R1論文更新了

論文地址論文

論文中論文,DeepSeek-R1新增內容乾貨滿滿:

精確的資料配方:明確給出資料規模(2.6萬道數學題論文,1.7萬條程式碼),以及具體的建立流程

基礎設施說明論文:vLLM/DualPipe設定的示意圖

訓練成本拆解論文:總計約29.4萬美元(R1-Zero使用了198小時的H800GPU)

「失敗嘗試」覆盤論文:深入解釋PRM為什麼沒有成功

模型對比論文:與DS-V3、Claude、GPT-4o系統性比較(此前只包含o1)

10頁安全性報告論文:詳細說明安全評估與風險分析

精確的資料配方:明確給出資料規模(2.6萬道數學題論文,1.7萬條程式碼),以及具體的建立流程

基礎設施說明論文:vLLM/DualPipe設定的示意圖

訓練成本拆解論文:總計約29.4萬美元(R1-Zero使用了198小時的H800GPU)

展開全文

「失敗嘗試」覆盤論文:深入解釋PRM為什麼沒有成功

模型對比論文:與DS-V3、Claude、GPT-4o系統性比較(此前只包含o1)

10頁安全性報告論文:詳細說明安全評估與風險分析

結果顯示,DeepSeek R1多項實力與OpenAI o1相媲美,甚至趕超o1-mini、GPT-4o、Claude 3.5論文

DeepSeek R1論文更新了

不僅如此,這次論文末核心貢獻者名單,列出了各自的具體貢獻論文

DeepSeek R1論文更新了

接下來,一起拆解最新論文內容的核心亮點論文

DeepSeek R1更新論文,實力打平o1

首先來看,DeepSeek-R1具體的評測結果論文

最新評估,依舊覆蓋了數學推理、編碼、通用知識&理解、事實型&指令遵循等任務的全方位對比論文

在教育知識類基準上,包括MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1整體超越DS-V3論文

特別是,在STEM相關問題上,準確率顯著提高——這背後最大功勞要歸功於:RL論文

另外,在長上下文的問答任務(FRAMES)上,DeepSeek-R1表現亮眼,文件理解與分析能力出色論文

在數學、程式碼任務中,DeepSeek-R1與OpenAI-o1-1217基本持平,明顯領先其他模型論文

在更偏實踐程式設計任務中,OpenAI-o1-1217在Aider上表現優於DeepSeek-R1,但在SWE Verified上兩者水平相當論文

在DeepSeek看來,主要是工程類RL訓練資料還不夠多,所以DeepSeek-R1在這塊的能力還沒完全發揮出來論文

下一版本,可能會看到其在這一領域的明顯提升論文

DeepSeek R1論文更新了

下圖中,是DeepSeek-R1和DeepSeek-R1-Zero,在多項基準競賽中與人類專家的效能對比論文

AIME數學競賽:DeepSeek-R1得分已超越人類的平均水平論文

Codeforces程式設計競賽:DeepSeek-R1表現超過了93.6%的參賽者,解題能力超強論文

GPQA科學問答:人類整體實力更強,表現優於DeepSeek-R1論文

AIME數學競賽:DeepSeek-R1得分已超越人類的平均水平論文

Codeforces程式設計競賽:DeepSeek-R1表現超過了93.6%的參賽者,解題能力超強論文

GPQA科學問答:人類整體實力更強,表現優於DeepSeek-R1論文

DeepSeek認為,如果讓R1也能聯網的話,說不定就能追上,甚至趕超人類現在的水平了論文

DeepSeek R1論文更新了

人工評估階段,採用了ChatbotArena擂臺,透過ELO分數來體現DeepSeek-R1在人類偏好上的表現論文

顯然,R1取得了亮眼的成績論文。尤其是,在「風格控制」中,它與OpenAI-o1、Gemini-Exp-1206打成平手,並列第一。

「風格控制」這一設計直接回應了一個關鍵問題:模型是否可能透過更長、更精緻或更好看的回答來「取悅」人類評審,即使其內容本身並不一定更強論文

DeepSeek R1論文更新了

DeepSeek強調,一個基於MIT協議的開源模型,整體表現與多款閉源AI相媲美,這無疑是一個重要的里程碑論文

尤其是,DeepSeek-R1使用成本更低的情況下論文

下圖12,更近一步展示了不同評測維度下的排名結果,呈現了R1在數學、程式設計等多個領域的強勁實力論文

這表明,R1不光推理能力強,在各種實際應用場景中,整體表現相當文件論文

DeepSeek R1論文更新了

在資料方面,DeepSeek放出具體RL資料和微調資料的規模論文

在強化學習階段,資料比例是這樣分配的:數學(26k)、程式碼(17k)、STEM(22k)、邏輯(15k)、通用(66k)論文

在微調階段,資料規模約800k,覆蓋了推理、通用指令任務、格式/語言一致性樣本論文

蒸餾論文,讓推理能力一鍵遷移

在蒸餾部分論文,DeepSeek回答了這一問題——

DeepSeek-R1學到的「推理能力」論文,能不能有效、穩定地遷移到更小的模型上?

這裡,DeepSeek作為「教師」模型,生成高質量、顯式推理軌跡的資料,透過SFT把推理能力「蒸餾」給更小的「學生」模型,而不是讓小模型再跑一遍RL論文

透過蒸餾,小模型直接學習R1已經驗證有效的推理模式,不需要重新探索reward space論文

論文中,DeepSeek實驗蒸餾了多個規模的模型,包括1.5B、7B、8B、14B、32B、70B,系統性地驗證了「跨尺度有效性」論文

DeepSeek R1論文更新了

同尺寸模型相比較,蒸餾後的效能全面提升論文

可以看到一個重要的現象是,推理能力並沒有「鎖死」在大模型裡,而是能透過資料遷移到小模型論文

DeepSeek R1論文更新了

在訓練成本方面,DeepSeek-R1-Zero使用了64×8張H800 GPU,整體訓練耗時約198小時論文

在DeepSeek-R1訓練階段,沿用了相同的GPU配置,並在大約4天內完成訓練,約80小時論文

此外論文,在構建監督微調(SFT)資料集的過程中,共消耗了約5000 GPU小時,

一共花費29.4萬美元,詳情可參見表7論文

智慧湧現論文!DeepSeek-R1-Zero的確在自我進化

在MATH資料集上論文,DeepSeek-R1-Zero簡直就是人類的翻版!

對人類而言較為簡單的推理任務,DeepSeek-R1-Zero在訓練早期便被模型掌握,而在複雜推理問題(難度3–5)上的能力則會隨著訓練顯著提升論文

具體來說論文,下圖8揭示了不同的學習模式:

簡單問題(1-3級)迅速達到高準確率(0.90-0.95)並在整個訓練過程中保持穩定論文

困難問題則被逐步攻克——

4級問題的準確率從開始的約0.78提升到0.95論文

最難的5級問題,最明顯,從最開始的約0.55提升到0.90論文

DeepSeek R1論文更新了

在較難問題(3-4級)上的準確率,DeepSeek-R1-Zero偶爾會以微弱優勢超過其在較簡單問題(1級)上的表現論文

這種現象看似反直覺,可能由於資料集的特徵論文

在高階推理任務上論文,DeepSeek-R1-Zero也表現出類似的湧現現象,證明了兩大結論:

在生成長鏈中間token中,強化學習發揮了關鍵作用論文

在訓練的特定階段,AI模型學會了不同形式的反思論文

在生成長鏈中間token中,強化學習發揮了關鍵作用論文

在訓練的特定階段,AI模型學會了不同形式的反思論文

首先論文,如下圖9(a)所示,他們統計了一些具有代表性的反思性詞彙,包括

wait、mistake、however、but、retry、error、verify、wrong、evaluate和check論文

如下圖a所示論文,隨著訓練的進行,反思行為的頻率逐漸增加:反思性詞彙的數量相比訓練開始時增加了5到7倍,

其次,特定的反思行為可能在訓練過程中的特定時間點出現論文

總之,他們觀察到模型在訓練過程中的反思行為逐漸增加,而某些反思模式(如使用「wait」)則在訓練過程的特定時間點出現論文

DeepSeek R1論文更新了

安全問題論文,行業重點在越獄攻擊

DeepSeek-R1的安全風險評具體分析包括以下5個方面論文

1、DeepSeek-R1官方服務所採用的風險控制體系論文

2、與當前先進模型在六項公開安全基準測試中的對比安全評估論文

3、基於內部安全測試集的分類研究論文

4、對R1模型在多語言場景下的安全性評估論文

5、模型在應對越獄攻擊方面的穩健性評估論文

DeepSeek-R1的風險控制體系透過向DeepSeek-V3傳送「風險審查提示詞」(risk review prompt)來實現論文,具體包括以下兩個主要流程:

首先,過濾潛在風險對話論文。在每輪對話結束後,系統會自動將使用者的提問與一組預設關鍵詞列表進行匹配。

其次,基於模型審查風險論文。被標記為潛在風險的對話將與預設的「風險審查提示詞」(見示例8)拼接在一起,併傳送給DeepSeek-V3模型進行審查。系統會根據模型的判斷結果,決定是否撤回該輪對話內容。

DeepSeek R1論文更新了 DeepSeek R1論文更新了 DeepSeek R1論文更新了

實驗結果顯示,與其他前沿模型相比,DeepSeek-R1在整體安全性上與其他先進模型表現相當論文

然而,在HarmBench測試中,R1的表現明顯落後,主要源於R1在涉及「智慧財產權」的相關問題上表現欠佳論文。除此之外,在其他安全類別的評估中(如歧視與偏見、暴力與極端主義、隱私侵犯等),R1模型表現穩定,展現出較強的安全防護能力。

DeepSeek R1論文更新了

此外,他們特別構建了一個內部安全評估資料集,以系統監測模型的整體安全水平論文

他們將大語言模型可能面臨的內容安全挑戰劃分為4個一級類目和28個細分子類論文,具體分類如下:

DeepSeek R1論文更新了

最終,他們共構建了1,120道測試題,用於對模型的安全性進行系統性評估,具體結果見下表論文

在未啟用控制時,DeepSeek-R1與DeepSeek-V3的基礎模型拒答率較低,但不安全率較高論文。啟用風險控制後,不安全率明顯下降,但拒答率升高(約25%)。 DeepSeek-R1在處理違法犯罪類問題和倫理道德類問題時表現出色,而在應對歧視偏見類問題與有害行為類問題時則表現一般。

DeepSeek R1論文更新了

評估模型在不同語言之間的安全差異同樣至關重要論文。為此,他們將此前構建的中英雙語安全測試集擴充套件至50種常用語言。

最終,他們構建出一個包含9,330個問題的多語言安全測試集論文。引入風險控制後,DeepSeek-V3(86.5%)與DeepSeek-R1(85.9%)在50種語言中的整體安全得分接近Claude-3.7-Sonnet(88.3%)的表現。

圖14中展示了DeepSeek-V3、DeepSeek-R1(啟用與未啟用風險控制系統)以及Claude-3.7-Sonnet和GPT-4o(2024-05-13)在50種語言下的表現論文

DeepSeek R1論文更新了

在越獄攻擊測試中論文,他們得出三大結論:

越獄攻擊對所有模型均構成顯著威脅

推理型模型更依賴風險控制系統

開源模型越獄風險更高

DeepSeek R1論文更新了

總結基礎模型、驗證器很重要

基礎模型很重要論文

在開發的最初階段,他們曾嘗試使用較小規模的模型作為強化學習(RL)訓練的起點論文。然而,在以AIME基準作為主要驗證集的評測中,這些模型始終未能帶來實質性的效能提升。

為了解決這些問題,他們轉而採用更大規模、能力更強的模型論文

在這些架構上,他們首次清晰地觀察到純RL訓練所帶來的顯著效能收益論文

這一結果表明,從基礎模型出發進行強化學習,其效果在很大程度上取決於模型本身的容量與表達能力論文

驗證器很重要論文

DeepSeek-R1-Zero的訓練效果高度依賴於獎勵訊號本身的可靠性和準確性論文

根據目前的實驗結果論文,有兩種方式可以有效緩解獎勵作弊(即模型學會「鑽獎勵規則空子」)的問題:

一是基於規則的獎勵模型(Reward Models,RMs),二是利用大語言模型來判斷生成答案是否與預先定義的標準答案一致論文

迭代式訓練流水線中,RL、SFT缺一不可論文

他們提出了一套包含監督微調(SFT)和強化學習(RL)的多階段訓練流水線論文

RL與SFT在整個訓練流程中缺一不可論文。單獨依賴RL,容易在問題本身定義不清的任務中引發獎勵作弊和次優行為;而只依賴SFT,則可能限制模型透過探索進一步提升其推理能力。

他們同樣經歷了不少失敗與挫折,包括過程獎勵模型(Process Reward Model,PRM)和蒙特卡洛樹搜尋(Monte Carlo Tree Search,MCTS)論文

但這並不意味著這些方法本身無法用於構建有效的推理模型論文

參考資料論文

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://mip.sqhhba.com/post/3559.html

🌐 /