本書是新文科·新投資系列的一本。本教材將主要介紹機器學習的基本原理,以及它們在社會科學中的應用。本書的定位是面向熟悉計量經(jīng)濟學、因果識別理論,但不熟悉機器學習的社會科學研究者。因此本書將更加側(cè)重于以淺顯直白的語言介紹機器學習的基本原理,并以文獻綜述、案例詳解等方式,介紹機器學習各個算法在社會科學實證研究中的代表性應用。對于代碼實操,本書也盡量選取了貼近社會科學研究者的案例,進行詳細闡述。 本書還以二維碼的形式將相關的代碼和具體應用呈現(xiàn)出來,供廣大社會科學研究人員參考。
第一章 機器學習基本原理與啟示/ 1 第一節(jié) 為什么需要學習機器學習/ 1 第二節(jié) 機器學習的基本任務/ 5 第三節(jié) 機器學習基本原理/ 9 第四節(jié) 機器學習的應用與啟示/ 18 參考文獻/ 21 第二章 經(jīng)典回歸算法/ 24 第一節(jié) OLS回歸算法/ 24 第二節(jié) 嶺回歸算法/ 33 第三節(jié) Lasso回歸算法/ 41 第四節(jié) 算法調(diào)參/ 49 參考文獻/ 57 第三章 經(jīng)典分類算法/ 59 第一節(jié) 分類算法簡介/ 59 第二節(jié) K近鄰算法/ 61 第三節(jié) 樸素貝葉斯算法/ 70 第四節(jié) 決策樹算法/ 75 第五節(jié) 支持向量機算法/ 83 第六節(jié) 分類算法評估/ 92 參考文獻/ 95 第四章 自然語言處理入門/ 97 第一節(jié) 自然語言處理的基本任務/ 97 第二節(jié) 分詞/ 103 第三節(jié) TF-IDF/ 116 第四節(jié) 文本相似度/ 121 參考文獻/ 134 第五章 集成算法/ 136 第一節(jié) 集成算法基本原理/ 136 第二節(jié) 隨機森林算法/ 139 第三節(jié) 梯度提升樹算法/ 146 第四節(jié) XGBoost算法/ 152 參考文獻/ 158 第六章 無監(jiān)督學習算法/ 159 第一節(jié) 無監(jiān)督學習簡介/ 159 第二節(jié) 聚類算法/ 161 第三節(jié) 降維算法/ 168 第四節(jié) LDA主題模型/ 175 參考文獻/ 191 第七章 深度學習算法/ 193 第一節(jié) 神經(jīng)網(wǎng)絡基本原理與前饋神經(jīng)網(wǎng)絡/ 193 第二節(jié) 卷積神經(jīng)網(wǎng)絡/ 207 第三節(jié) 循環(huán)神經(jīng)網(wǎng)絡/ 217 第四節(jié) Word2Vec詞嵌入算法/ 223 第五節(jié) 大語言模型簡介/ 229 參考文獻/ 235 第八章 特征工程入門與實踐/ 237 第一節(jié) 特征工程簡介/ 237 第二節(jié) 特征理解:探索性分析/ 238 第三節(jié) 特征增強:清洗數(shù)據(jù)/ 244 第四節(jié) 特征構(gòu)造:生成新數(shù)據(jù)/ 261 第五節(jié) 特征選擇:篩選屬性/ 263 第六節(jié) 特征轉(zhuǎn)換:數(shù)據(jù)降維/ 270 參考文獻/ 272 第九章 機器學習與因果識別/ 273 第一節(jié) 機器學習助力因果識別的基本邏輯/ 273 第二節(jié) 更好識別和控制混淆因素/ 275 第三節(jié) 更好地構(gòu)建對照組/ 279 第四節(jié) 更好地識別異質(zhì)性因果效應/ 287 第五節(jié) 更好地檢驗因果關系的外部有效性/ 291 第六節(jié) 大數(shù)據(jù)和機器學習對因果識別的沖擊/ 292 第七節(jié) 未來展望/ 295 參考文獻/ 296 第十章 機器學習與異質(zhì)性政策效應分析/ 306 第一節(jié) 異質(zhì)性政策效應評估的價值和傳統(tǒng)方法/ 306 第二節(jié) 傳統(tǒng)異質(zhì)性政策評估方法的問題/ 311 第三節(jié) 機器學習在異質(zhì)性政策效應評估中的應用/ 315 第四節(jié) 機器學習的局限以及未來方向/ 324 參考文獻/ 330