本書共分9章,主要內(nèi)容有:第1章總結(jié)機器學(xué)習(xí)項目的推進流程。第2章介紹機器學(xué)習(xí)的主要功能和各種算法。第3章以垃圾郵件判別為例,介紹對學(xué)習(xí)完成后的預(yù)測模型進行離線評價的方法。第4章梳理在計算機系統(tǒng)里集成機器學(xué)習(xí)功能的模式,同時介紹機器學(xué)習(xí)基礎(chǔ)的日志設(shè)計。第5章介紹機器學(xué)習(xí)分類任務(wù)里的正確答案數(shù)據(jù)的獲取方法。第6章介紹用于驗證實施方案是否真正有效的統(tǒng)計鑒定、因果推理,以及A/B試驗等方法。第3章是預(yù)測模型的離線驗證,本章則介紹實施過程中的實時驗證。第7章以電影推薦為例,學(xué)習(xí)推薦預(yù)測系統(tǒng)的開發(fā)實現(xiàn)案例。第8章闡述搜索式分析過程及分析報告,結(jié)合在第1章的機器學(xué)習(xí)流程中出現(xiàn)的不執(zhí)行機器學(xué)習(xí)的例子,介紹如何整理實際分析結(jié)果的相關(guān)心得。第9章采用所謂Uplift Modeling方法學(xué)習(xí)更有效的營銷方法。
Michiaki Ariga,東京工業(yè)大學(xué)計算機工程學(xué)博士畢業(yè),現(xiàn)為東京大學(xué)教授、日本國立信息學(xué)研究所客座教授。主要從事機器學(xué)習(xí)的理論研究和算法開發(fā),以及在信號和圖像處理等方面的應(yīng)用。2011年獲日本信息處理學(xué)會長尾真紀念特別獎。著有《統(tǒng)計機器學(xué)習(xí)》等。
前言 .. 1
第一部分
第1章
機器學(xué)習(xí)項目流程
.11
1.1 如何利用機器學(xué)習(xí) 11
1.2 機器學(xué)習(xí)項目的流程 13
1.3 實際系統(tǒng)中的機器學(xué)習(xí)問題的處理方法 27
1.4 機器學(xué)習(xí)系統(tǒng)的成功要素 32
1.5 小結(jié) 34
第2章
機器學(xué)習(xí)的用途 35
2.1 算法選擇 35
2.2 分類 37
2.3 回歸 69
2.4 聚類與降維 72
2.5 其他 74
2.6 小結(jié) 76
第3章
學(xué)習(xí)結(jié)果的評價 77
3.1 分類的評價矩陣 77
3.2 回歸的評價 86
3.3 機器學(xué)習(xí)系統(tǒng)的A/B測試 88
3.4 小結(jié) 89
第4章
機器學(xué)習(xí)系統(tǒng)的開發(fā)
91
4.1 機器學(xué)習(xí)系統(tǒng)的開發(fā)流程 91
4.2 系統(tǒng)設(shè)計 92
4.3 日志設(shè)計 105
4.4 小結(jié) 110
第5章
機器學(xué)習(xí)資源的收集
111
5.1 機器學(xué)習(xí)資源的獲取 111
5.2 利用公開的數(shù)據(jù)集或模型 113
5.3 開發(fā)者自己創(chuàng)建訓(xùn)練數(shù)據(jù) 114
5.4 他人幫忙輸入數(shù)據(jù) 116
5.5 數(shù)據(jù)創(chuàng)建眾包 117
5.6 基于服務(wù)的用戶輸入 119
5.7 小結(jié) 120
第6章
效果驗證 121
6.1 效果驗證概述 121
6.2 假設(shè)檢驗的框架 125
6.3 假設(shè)檢驗的注意事項 131
6.4 因果效應(yīng)的推斷 137
6.5 A/B測試 141
6.6 小結(jié) 144
第二部分
第7章
電影推薦系統(tǒng) 147
7.1 概述 147
7.2 推薦系統(tǒng)功能 149
7.3 MovieLens的數(shù)據(jù)趨勢 159
7.4 推薦系統(tǒng)的開發(fā) 165
7.5 小結(jié) . 176
第8章 Kickstarter的數(shù)據(jù)分析
177
8.1 Kickstarter的API 177
8.2 Kickstarter的網(wǎng)絡(luò)爬蟲 178
8.3 數(shù)據(jù)變換 . 180
8.4 瀏覽Excel數(shù)據(jù) . 181
8.5 數(shù)據(jù)透視表 185
8.6 達成目標卻被取消的項目 190
8.7 國別的項目分析 192
8.8 形成分析報告 194
8.9 進一步的工作 204
8.10 小結(jié) 204
第9章
基于Uplift Modeling的營銷資源效率分析207
9.1 Uplift Modeling的四象限分區(qū) 208
9.2 擴展A/B測試的Uplift
Modeling的概要
210
9.3 Uplift Modeling的數(shù)據(jù)集生成 211
9.4 利用兩個預(yù)測模型的Uplift
Modeling . 214
9.5 Uplift Modeling的評價方法 . 218
9.6 實際應(yīng)用 . 224
9.7 實際應(yīng)用Uplift Modeling的相關(guān)事項 . 231
9.8 小結(jié) . 233
參考文獻
235
后記
.239
致謝
.241