遷移學習是機器學習中一種新的學習范式,解決的是目標領(lǐng)域中只有少量標記樣本,甚至沒有樣本的富有挑戰(zhàn)性的學習問題。在過去的十幾年里,不管從算法、理論研究還是從實際場景應(yīng)用來說,遷移學習都得到越來越廣泛的關(guān)注與研究。
國內(nèi)外學者對遷移學習的研究已經(jīng)有十幾年,并且提出了大量的遷移學習算法,但還沒有相關(guān)圖書針對這些算法從所采用的技術(shù)的角度進行系統(tǒng)、深入的梳理和總結(jié)。本人從事遷移學習以及相關(guān)方面的研究將近十五年,一直想對遷移學習算法所采用的技術(shù)脈絡(luò)進行系統(tǒng)梳理,方便學術(shù)界和工業(yè)界能夠較快地掌握各類遷移學習算法;另外,我們還將對已有的遷移學習代碼進行梳理,方便遷移學習相關(guān)的研究學者以及應(yīng)用開發(fā)者進行研究和實踐。因此,本書試圖按照遷移學習采用的技術(shù)對遷移學習算法進行分類總結(jié),以我們十幾年來的研究工作為基礎(chǔ),擴展各類遷移學習算法的代表性工作進行介紹。具體來說,本書首先從遷移學習采用的技術(shù)出發(fā),系統(tǒng)介紹每一類遷移學習算法,包括基于非負矩陣分解、概率模型、傳統(tǒng)深度學習、對抗深度學習、模型融合以及圖神經(jīng)網(wǎng)絡(luò)等的遷移學習算法,針對每一類算法介紹代表性的幾種工作,并從算法動機、算法原理、算法流程等方面進行重點介紹;然后針對遷移學習的應(yīng)用場景,介紹典型的應(yīng)用案例;后,介紹遷移學習在百度飛槳平臺上的實踐。本書旨在讓遷移學習或者相關(guān)領(lǐng)域的研究人員系統(tǒng)地掌握遷移學習的各類算法,熟悉各類應(yīng)用場景,進而為落地實踐提供指導(dǎo)和幫助。
本書從2021年7月開始撰寫,之所以能夠順利完成,我的團隊、學生、朋友,還有百度團隊付出了巨大的努力。在這里我要特別感謝他們,包括孫瑩、秦川、朱勇椿、童逸琦、杜晨光、莊遠鑫、張釗、張嘯、姚開春、李爽、顧晶晶、祝恒書、畢然、張亞嫻、張翰迪、馬艷軍、于佃海、吳蕾等(排名不分先后),他們每一個人都為本書的撰寫付出了大量的時間和精力,再次感謝他們。我還要感謝香港科技大學的楊強教授,他為本書的撰寫給出了很多建設(shè)性意見。當然,本書的出版也離不開出版社編輯老師的辛勤付出,在這里一并表示感謝。由于作者水平有限,本書完成初稿以后,雖然經(jīng)歷過反復(fù)梳理和校對,書中難免還有一些問題和瑕疵。若有發(fā)現(xiàn),請及時反饋給我(Email:zhuangfuzhen@buaaeducn)或出版社進行修正,不勝感激。
莊福振 北京航空航天大學教授,博士生導(dǎo)師,入選人才計劃。在Nature Communications、 PIEEE、TKDE、KDD、IJCAI、AAAI、 WWW、ICDE等本領(lǐng)域、重要國際期刊和國際會議上發(fā)表錄用論文150多篇,其中CCF A類80多篇;Google學術(shù)引用9700余次。2013年獲得中國人工智能學會優(yōu)秀博士學位論文獎,2017入選中國科學院青年創(chuàng)新促進會。
朱勇椿 博士,長期致力于可靠人工智能研究及應(yīng)用,在KDD、WWW、SIGIR、TKDE等國際學術(shù)會議和期刊發(fā)表文章28篇,Google學術(shù)引用3300余次。公開或授權(quán)專利10余項。提出的方法應(yīng)用到多家公司,包括騰訊、螞蟻金服、美團、中科睿鑒等。參與三本遷移學習相關(guān)書籍的撰寫、翻譯工作。擔任KDD、WWW、AAAI、TKDE、TOIS等會議和期刊審稿人,獲得2022年百度獎學金。
祝恒書 博士,北京市高端領(lǐng)軍人才正高級工程師,BOSS直聘職業(yè)科學實驗室(CSL)主任。他長期致力于人工智能領(lǐng)域前沿科學研究及跨領(lǐng)域產(chǎn)業(yè)應(yīng)用,在國際學術(shù)期刊和會議上發(fā)表論文百余篇,授權(quán)國內(nèi)外專利近百項,多次榮獲年度論文獎。他曾獲得中國管理科學學會管理科學獎 、教育*自然科學獎一等獎、中國人工智能學會優(yōu)博、中國科學院優(yōu)博、中國科學院院長特別獎等榮譽和獎項。
熊輝 香港科學技術(shù)大學(廣州)講座教授、協(xié)理副校長。他獲得的部分榮譽包括AAAS Fellow、IEEE Fellow、ACM杰出科學家、中國教育*長江講座教授、中國國家基金委海外杰青B類(海外及港澳學者合作研究基金)、Harvard Business Review 2018年拉姆·查蘭管理實踐獎-全場大獎、2017 IEEE ICDM Outstanding Service Award、ICDM-2011研究論文獎和AAAI-2021論文獎。
目錄
序
前言
作者簡介
第1章緒論1
11遷移學習緣起1
12學習的遷移理論2
13遷移學習定義4
14遷移學習與已有學習范式的關(guān)系5
15遷移學習未來的研究方向8
第2章基于非負矩陣分解的遷移學習算法10
21問題定義10
22基于共享詞簇的知識遷移11
23基于相似概念(共享詞簇-文檔簇關(guān)聯(lián))的知識遷移12
24同時考慮相同和相似概念的知識遷移15
25綜合考慮相同、相似、差異概念的知識遷移17
26軟關(guān)聯(lián)的知識遷移21
27本章小結(jié)24
第3章基于概率模型的遷移學習算法26
31問題定義26
32基于EM算法的樸素貝葉斯遷移算法28
33基于概率潛在語義分析的主題共享領(lǐng)域遷移算法30
34基于協(xié)同對偶概率潛在語義分析的多域領(lǐng)域遷移33
35更普適的基于潛在語義分析的多域領(lǐng)域遷移36
36基于組對齊的跨領(lǐng)域標簽主題模型39
37基于粗粒度對齊主題模型的跨領(lǐng)域文本分類40
38本章小結(jié)42
第4章基于傳統(tǒng)深度學習的遷移學習方法43
41問題定義43
42基于深度自編碼器的遷移學習方法44
43深度領(lǐng)域自適應(yīng)網(wǎng)絡(luò)45
44深度子領(lǐng)域自適應(yīng)網(wǎng)絡(luò)48
45多表示自適應(yīng)網(wǎng)絡(luò)51
46同時對齊分布和分類器的多源自適應(yīng)方法54
47基于注意力特征圖的深度遷移學習方法57
48本章小結(jié)61
第5章基于對抗深度學習的遷移學習方法62
51問題定義64
52領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)64
53同時遷移領(lǐng)域和任務(wù)的遷移學習方法67
54基于生成對抗網(wǎng)絡(luò)的像素級領(lǐng)域自適應(yīng)方法70
55化分類器一致性的無監(jiān)督領(lǐng)域自適應(yīng)方法73
56循環(huán)一致對抗領(lǐng)域自適應(yīng)方法77
57本章小結(jié)79
第6章基于模型融合的遷移學習算法80
61問題定義82
62基于Boosting的模型融合82
63有監(jiān)督與無監(jiān)督的融合88
64基于優(yōu)化目標正則化的方法98
65基于錨點的集成學習101
66本章小結(jié)104
第7章基于圖神經(jīng)網(wǎng)絡(luò)的遷移學習算法105
71問題定義106
72同質(zhì)圖神經(jīng)網(wǎng)絡(luò)的遷移學習算法106
73異質(zhì)圖神經(jīng)網(wǎng)絡(luò)的遷移學習算法114
74本章小結(jié)120
第8章多任務(wù)學習121
81問題定義122
82傳統(tǒng)多任務(wù)學習122
83基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)學習134
84本章小結(jié)141
第9章多視圖學習算法143
91問題定義143
92基于概率潛在語義分析的多視圖學習144
93基于間隔原則的多視圖學習148
94基于子空間聚類方法的多視圖學習155
95基于完整空間方法的多視圖學習159
96多任務(wù)多視圖學習164
97推薦系統(tǒng)和人機對話領(lǐng)域的多視圖學習方法172
98本章小結(jié)180
第10章遷移學習應(yīng)用181
101自然語言處理中的應(yīng)用181
102計算機視覺中的應(yīng)用187
103推薦系統(tǒng)中的應(yīng)用205
104金融風控中的應(yīng)用215
105城市計算中的應(yīng)用217
106本章小結(jié)230
第11章百度飛槳遷移學習應(yīng)用實踐231
111深度學習框架介紹231
112遷移學習在視頻分類中的實踐案例233
113遷移學習在目標檢測中的實踐案例241
114本章小結(jié)249
參考文獻250