本書以通俗易懂、大量圖解的方式剖析了DeepSeek的底層技術。
全書分為3章和附錄,第1章詳細分析了推理大模型的范式轉(zhuǎn)變,即從訓練時計算到測試時計算;第2章解讀了DeepSeek-R1的架構混合專家(MoE);第3章展示了DeepSeek-R1詳細的訓練過程及核心技術,涵蓋基于GRPO的強化學習等;附錄分享了DeepSeek開源周活動。
本書適合大模型從業(yè)人員和對大模型底層技術感興趣的讀者。書中通過豐富的圖解將復雜的技術解釋得簡單、清晰、通透,是學習大模型技術難得一見的參考書。
1.【短小精悍】2小時搞懂DeepSeek底層技術
2.【通俗圖解】近120幅全彩插圖通俗解讀,不枯燥
3.【內(nèi)容系統(tǒng)】從推理模型原理到DeepSeek-R1訓練
4.【作者資深】大模型領域知名專家Jay & Maarten作品
5.【圖解系列】袋鼠書《圖解大模型》同系列,廣受歡迎
Jay Alammar(杰伊·阿拉馬爾) Cohere總監(jiān)兼工程研究員,知名大模型技術博客Language Models & Co作者,DeepLearning.AI和Udacity熱門機器學習和自然語言處理課程作者。 Maarten Grootendorst(馬爾滕·格魯滕多斯特) IKNL(荷蘭綜合癌癥中心)高級臨床數(shù)據(jù)科學家,知名大模型技術博客博主,BERTopic等開源大模型軟件包作者(下載量超過百萬次),DeepLearning.AI和Udacity課程作者。 Jay & Maarten撰寫的圖解系列文章廣受贊譽,累計吸引了數(shù)百萬專業(yè)讀者的目光。其中,Jay 的The Illustrated TransformerThe Illustrated DeepSeek-R1、Maarten的A Visual Guide to Reasoning LLMs在全網(wǎng)熱度極高。 Jay & Maarten的第一部作品《圖解大模型:生成式AI原理與實戰(zhàn)》(Hands-On Large Language Models)是業(yè)內(nèi)廣受贊譽的經(jīng)典。《圖解DeepSeek技術》是Jay & Maarten的第二部作品,人民郵電出版社圖靈全球獨家發(fā)布,是解讀DeepSeek原理與訓練的寶貴讀物。 李博杰 智能體初創(chuàng)公司PINE AI聯(lián)合創(chuàng)始人、首席科學家。曾任華為計算機網(wǎng)絡與協(xié)議實驗室副首席專家,入選華為首批天才少年項目。2019年獲中國科學技術大學與微軟亞洲研究院聯(lián)合培養(yǎng)博士學位,曾獲ACM中國優(yōu)秀博士學位論文獎和微軟學者獎學金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等頂級會議上發(fā)表多篇論文。 孟佳穎 中國科學技術大學博士,F(xiàn)任北京中關村實驗室助理研究員,主要從事網(wǎng)絡協(xié)議棧的漏洞挖掘與風險分析技術的研究工作。
譯者序
前言
第 1 章 測試時計算
1.1 什么是推理大模型 1
1.2 什么是訓練時計算 3
1.3 什么是測試時計算 7
1.3.1 縮放定律 10
1.3.2 測試時計算的分類 12
1.4 基于驗證器的搜索 16
1.4.1 多數(shù)投票法 17
1.4.2 Best-of-N 采樣 17
1.4.3 基于過程獎勵模型的束搜索 20
1.4.4 蒙特卡洛樹搜索 21
1.5 調(diào)整提議分布 24
1.5.1 提示工程 25
1.5.2 STaR 方法 26
1.6 小結(jié) 28
1.7 延伸閱讀 29
第 2 章 架構設計 31
2.1 稠密層 31
2.2 MoE 層 34
2.2.1 專家機制 35
2.2.2 路由機制 40
2.2.3 DeepSeekMoE 44
2.3 小結(jié) 50
第 3 章 DeepSeek-R1 訓練方案 51
3.1 回顧:大模型的訓練原理 51
3.2 DeepSeek-R1-Zero 的推理能力 55
3.2.1 示例:推理問題的自動驗證 57
3.2.2 DeepSeek-R1-Zero 的完整訓練過程 62
3.3 DeepSeek-V3 的效率優(yōu)化策略 64
3.3.1 多頭潛在注意力機制 64
3.3.2 混合精度訓練 66
3.3.3 多詞元預測 70
3.4 構建 DeepSeek-R1 72
3.5 通過 DeepSeek-R1 蒸餾推理能力 77
3.6 未成功的嘗試 78
3.7 基于 GRPO 的強化學習 78
3.7.1 獎勵值與優(yōu)勢值 79
3.7.2 KL 散度懲罰項 83
3.7.3 GRPO 目標函數(shù) 85
3.7.4 GRPO 算法 86
3.7.5 GRPO 參考實現(xiàn) 87
3.8 小結(jié) 87
附錄 DeepSeek 開源周 89