![]() ![]() |
強化學(xué)習(xí)(微課版)
本書構(gòu)建了一個完整的強化學(xué)習(xí)入門路徑,深入淺出地介紹了強化學(xué)習(xí)算法的基本原理和實現(xiàn)方法。本書
首先回顧了相關(guān)預(yù)備知識,包括數(shù)學(xué)基礎(chǔ)和機器學(xué)習(xí)基礎(chǔ),然后先介紹強化學(xué)習(xí)的基本概念,給出強化學(xué)習(xí)的
數(shù)學(xué)框架(馬爾可夫決策過程),隨后介紹強化學(xué)習(xí)的求解算法,包括表格求解法(動態(tài)規(guī)劃法、蒙特卡洛法
和時序差分法),以及近似求解法(值函數(shù)近似法、策略梯度法和深度強化學(xué)習(xí))。本書后一部分為實踐與前
沿,實踐部分基于一個相同的例子實現(xiàn)了強化學(xué)習(xí)領(lǐng)域的主流基礎(chǔ)算法,前沿部分介紹了強化學(xué)習(xí)領(lǐng)域的**
研究進展。本書配有相當數(shù)量的習(xí)題供練習(xí),配套代碼基于 Python 實現(xiàn),源代碼均已開源,可開放獲取。
本書可作為理工科本科生、研究生的強化學(xué)習(xí)課程的教材,也可作為相關(guān)從業(yè)者掌握強化學(xué)習(xí)的入門
參考書。
你還可能感興趣
我要評論
|