第1章 緒論 001
1.1 集成式機器學習的發(fā)展 002
1.1.1 相關理論 002
1.1.2 發(fā)展階段 003
1.2 本書主要內容 005
第2章 基礎知識與理論框架 007
2.1 大數(shù)據(jù)技術 008
2.1.1 大數(shù)據(jù)的概念與特征 008
2.1.2 大數(shù)據(jù)處理技術 008
2.1.3 大數(shù)據(jù)分析與挖掘 017
2.1.4 大數(shù)據(jù)的發(fā)展趨勢 017
2.2 人工智能 018
2.2.1 人工智能的定義與發(fā)展歷程 018
2.2.2 人工智能的基本原理 019
2.2.3 人工智能的應用領域 022
2.2.4 人工智能的工具與框架 022
2.3 機器學習 025
2.3.1 機器學習的定義與基本概念 025
2.3.2 機器學習算法分類 029
2.3.3 特征工程 032
2.4 理論框架 033
第3章 監(jiān)督學習算法 034
3.1 線性回歸 035
3.1.1 理解線性回歸 035
3.1.2 損失函數(shù) 035
3.1.3 線性回歸的代碼示例 036
3.1.4 線性回歸的應用領域及其優(yōu)缺點 036
3.2 邏輯回歸 037
3.2.1 理解邏輯回歸 037
3.2.2 邏輯回歸模型表達式 037
3.2.3 邏輯回歸應用領域及其優(yōu)缺點 038
3.2.4 邏輯回歸的代碼示例 039
3.2.5 邏輯回歸與線性回歸的對比 039
3.3 支持向量機 041
3.3.1 理解支持向量機 041
3.3.2 支持向量機的代碼實現(xiàn) 042
3.3.3 支持向量機應用領域及其優(yōu)缺點 043
3.3.4 支持向量回歸 045
3.4 決策樹 045
3.4.1 理解決策樹 045
3.4.2 決策樹的代碼實現(xiàn) 046
3.4.3 決策樹的優(yōu)缺點及應用領域 046
3.5 隨機森林 048
3.5.1 理解隨機森林 048
3.5.2 隨機性引入 048
3.5.3 隨機森林的代碼實現(xiàn) 049
3.5.4 隨機森林的優(yōu)缺點及應用領域 049
3.6 K 近鄰算法 050
3.6.1 理解K 近鄰 050
3.6.2 K 近鄰算法的代碼實現(xiàn) 051
3.6.3 K 近鄰的優(yōu)缺點及應用領域 052
第4章 無監(jiān)督學習算法 054
4.1 K 均值聚類 055
4.1.1 理論背景 056
4.1.2 算法原理 056
4.1.3 數(shù)學基礎 056
4.1.4 K 均值聚類的步驟 057
4.1.5 案例 057
4.1.6 K 均值聚類的優(yōu)點和缺點 058
4.1.7 優(yōu)化與改進 1 0 0 1 0 058
4.2 層次聚類 060
4.2.1 凝聚型層次聚類 060
4.2.2 分裂型層次聚類 061
4.3 主成分分析 062
4.3.1 理論背景 062
4.3.2 數(shù)學基礎 063
4.3.3 核心思想 063
4.3.4 PCA 步驟 063
4.3.5 優(yōu)點與缺點 064
4.3.6 應用場景 064
4.4 t 分布隨機鄰域嵌入 065
4.4.1 理論背景 066
4.4.2 數(shù)學基礎 066
4.4.3 核心思想 066
4.4.4 -t SNE 步驟 067
4.4.5 優(yōu)點與缺點 067
4.4.6 應用場景 067
4.5 關聯(lián)規(guī)則學習 070
4.5.1 理論背景 070
4.5.2 主要概念 070
4.5.3 關鍵指標 071
4.5.4 常用算法 071
4.5.5 應用場景 073
第5章 深度學習算法 078
5.1 神經(jīng)網(wǎng)絡基礎 079
5.1.1 神經(jīng)元模型 079
5.1.2 前向傳播與反向傳播 081
5.1.3 損失函數(shù)與優(yōu)化算法 082
5.1.4 正則化與參數(shù)初始化 084
5.1.5 深度神經(jīng)網(wǎng)絡的訓練技巧 086
5.2 深度神經(jīng)網(wǎng)絡 089
5.2.1 深度神經(jīng)網(wǎng)絡的結構 089
5.2.2 激活函數(shù)的選擇與作用 090
5.2.3 深度神經(jīng)網(wǎng)絡的訓練技巧與調優(yōu) 091
5.2.4 深度神經(jīng)網(wǎng)絡的應用 093
5.3 卷積神經(jīng)網(wǎng)絡 094
5.3.1 卷積層的基本原理 095
5.3.2 池化層的作用與類型 096
5.3.3 常見的CNN 架構 098
5.3.4 卷積神經(jīng)網(wǎng)絡的訓練技巧與調優(yōu) 100
5.3.5 卷積神經(jīng)網(wǎng)絡在計算機視覺中的應用案例 101
5.4 循環(huán)神經(jīng)網(wǎng)絡 102
5.4.1 循環(huán)神經(jīng)網(wǎng)絡的基本結構與工作原理 102
5.4.2 循環(huán)神經(jīng)網(wǎng)絡的訓練技巧 103
5.4.3 循環(huán)神經(jīng)網(wǎng)絡在自然語言處理中的應用 104
5.4.4 循環(huán)神經(jīng)網(wǎng)絡在時間序列預測中的應用 105
5.5 長短期記憶網(wǎng)絡 107
5.5.1 LSTM 單元的結構與功能 107
5.5.2 記憶單元與遺忘門 109
5.5.3 輸入門與輸出門 110
5.5.4 LSTM 在序列建模與預測中的應用 111
5.6 生成對抗網(wǎng)絡 112
5.6.1 生成器的結構與工作原理 112
5.6.2 判別器的結構與工作原理 113
5.6.3 GAN 的對抗訓練過程 115
5.6.4 GAN 的優(yōu)化方法 116
5.6.5 GAN 的應用 118
第6章 強化學習算法 121
6.1 馬爾可夫決策過程 122
6.1.1 核心概念 122
6.1.2 值函數(shù) 123
6.1.3 策略 124
6.1.4 解決MDP 的方法 125
6.1.5 MDP 的擴展 128
6.1.6 MDP 在強化學習中的應用 128
6.2 Q 學習 129
6.2.1 核心思想 129
6.2.2 算法步驟 129
6.2.3 貝爾曼最優(yōu)方程 129
6.2.4 Q 學習的收斂性和優(yōu)化 130
6.2.5 Q 學習的探索與利用 131
6.2.6 Q 學習的關鍵參數(shù)調優(yōu) 132
6.2.7 雙Q 學習 133
6.2.8 分布式Q 學習 134
6.2.9 Q 學習的應用領域 135
6.3 深度強化學習 136
6.4 策略梯度方法 138
6.4.1 策略梯度方法概述 138
6.4.2 策略表示 139
6.4.3 策略梯度算法 140
6.4.4 策略梯度方法的挑戰(zhàn)與局限性 142
6.4.5 策略梯度方法的應用 142
第7章 集成學習算法 144
7.1 單一與集成 145
7.1.1 理解單一模型與集成模型 145
7.1.2 集成學習算法 145
7.1.3 集成學習原理 146
7.1.4 集成學習中的特征選擇 147
7.1.5 集成學習中的超參數(shù)調優(yōu) 147
7.2 Bagging 算法 148
7.2.1 Bagging 的基本原理 148
7.2.2 Bagging 算法詳解 148
7.2.3 Bagging 算法的Python 代碼實現(xiàn) 149
7.2.4 Bagging 算法的優(yōu)缺點及應用領域 150
7.2.5 Bagging 算法的應用實例 151
7.3 Boosting 算法 153
7.3.1 Boosting 的基本原理 153
7.3.2 Boosting 算法詳解 154
7.3.3 Boosting 算法的Python 代碼實現(xiàn) 155
7.3.4 Boosting 算法的優(yōu)缺點及應用領域 157
7.3.5 Boosting 算法的應用實例 159
7.4 Stacking 算法 161
7.4.1 Stacking 的基本原理 161
7.4.2 Stacking 算法詳解 163
7.4.3 Stacking 算法的Python 代碼實現(xiàn) 164
7.4.4 Stacking 算法的優(yōu)缺點及應用領域 166
7.4.5 Stacking 算法的應用實例 170
7.5 元學習與學習器組合 172
7.5.1 元學習 172
7.5.2 元學習的應用 174
7.5.3 學習器組合 176
7.5.4 學習器組合的應用 176
7.5.5 元學習與學習器組合的關系 178
第8章 特征工程與模型評估 180
8.1 數(shù)據(jù)預處理 181
8.2 特征選擇 182
8.2.1 特征選擇的作用 182
8.2.2 特征選擇的方法 183
8.3 特征提取 185
8.3.1 統(tǒng)計學方法 185
8.3.2 模型基礎方法 186
8.3.3 模型降維方法 187
8.3.4 文本數(shù)據(jù)的特征提取 187
8.3.5 圖像數(shù)據(jù)的特征提取 188
8.3.6 時間序列數(shù)據(jù)的特征提取 188
8.3.7 數(shù)值型數(shù)據(jù)的特征提取 188
8.3.8 特征提取在實際問題中的調優(yōu)策略 189
8.4 特征轉換 189
8.5 特征構造 190
8.6 模型評估及指標 190
8.6.1 模型評估的重要性和目的 190
8.6.2 評估指標 191
8.7 交叉驗證 191
8.7.1 交叉驗證簡介 191
8.7.2 常見的交叉驗證技術 192
8.7.3 交叉驗證的實施步驟 192
8.7.4 高級交叉驗證技術 192
8.8 調整模型參數(shù) 194
8.8.1 理解超參數(shù)和調優(yōu)的重要性 194
8.8.2 調優(yōu)的目標 194
8.8.3 常見的超參數(shù)及其影響 195
8.8.4 調優(yōu)方法 195
第9章 集成式機器學習應用 199
9.1 自然語言處理 200
9.1.1 詞嵌入 200
9.1.2 文本分類 202
9.1.3 情感分析 203
9.1.4 機器翻譯 210
9.1.5 智能客服 214
9.2 圖像處理與計算機視覺 216
9.3 生物信息學與醫(yī)療 217
9.4 通信流量與信息安全 219
9.5 金融與電子商務 222
9.6 交通與物流 222
第10章 機器學習算法實現(xiàn) 225
10.1 Spark 機器學習算法實現(xiàn) 226
10.1.1 分類 226
10.1.2 回歸 229
10.1.3 協(xié)同過濾 232
10.1.4 聚類 233
10.1.5 降維 236
10.2 Flink 機器學習算法實現(xiàn) 237
10.2.1 環(huán)境準備 237
10.2.2 分類 238
10.2.3 聚類 243
10.2.4 評估 246
10.3 PyTorch 機器學習算法實現(xiàn) 247
10.3.1 線性回歸 247
10.3.2 邏輯回歸 248
10.3.3 多層感知器 249
10.3.4 卷積神經(jīng)網(wǎng)絡 250
10.3.5 循環(huán)神經(jīng)網(wǎng)絡 251
10.3.6 長短期記憶網(wǎng)絡 252
10.3.7 門控循環(huán)單元 253
10.3.8 Transformer 模型 253
10.3.9 BERT 255
10.3.10 生成對抗網(wǎng)絡 256
10.3.11 自編碼器 258
10.3.12 深度Q 網(wǎng)絡 259
10.3.13 圖神經(jīng)網(wǎng)絡 262
10.4 TensorFlow 機器學習算法實現(xiàn) 263
10.4.1 線性回歸 263
10.4.2 邏輯回歸 264
10.4.3 多層感知器 265
10.4.4 卷積神經(jīng)網(wǎng)絡 267
10.4.5 循環(huán)神經(jīng)網(wǎng)絡 268
10.4.6 長短期記憶網(wǎng)絡 269
10.4.7 門控循環(huán)單元 270
10.4.8 Transformer 模型 272
10.4.9 BERT 273
10.4.10 生成對抗網(wǎng)絡 275
10.4.11 自編碼器 278
第11章 未來發(fā)展趨勢與挑戰(zhàn) 280
11.1 自動機器學習 281
11.1.1 自動機器學習基礎理論 281
11.1.2 自動化特征工程與數(shù)據(jù)預處理 282
11.1.3 AutoML 的挑戰(zhàn)與未來發(fā)展 282
11.2 量子機器學習 283
11.2.1 量子機器學習基礎理論 283
11.2.2 量子機器學習基本原理 284
11.2.3 量子機器學習的挑戰(zhàn)與未來發(fā)展 284
11.3 新興領域與潛在應用 285
11.3.1 集成式機器學習的新興領域 285
11.3.2 集成式機器學習的潛在應用 285
11.4 技術發(fā)展對機器學習的影響 286
參考文獻 287