![]() ![]() |
強(qiáng)化學(xué)習(xí)——從原理到實(shí)踐
"本書是對強(qiáng)化學(xué)習(xí)算法的綜合性講解書籍,內(nèi)容包括主要的強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)思路講解,以及主要的優(yōu)化方法的原理講解。本書介紹的每個算法都分為原理講解和代碼實(shí)現(xiàn)兩部分,代碼實(shí)現(xiàn)是為了通過實(shí)驗驗證原理部分的可行性。通過本書的學(xué)習(xí),讀者可以快速地了解強(qiáng)化學(xué)習(xí)算法的設(shè)計原理,掌握強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)過程,并能研發(fā)屬于自己的強(qiáng)化學(xué)習(xí)算法,了解各個算法的優(yōu)缺點(diǎn),以及各個算法適用的場景。
本書共18章,分為強(qiáng)化學(xué)習(xí)基礎(chǔ)篇(第1章和第2章)介紹了強(qiáng)化學(xué)習(xí)中的基本概念。強(qiáng)化學(xué)習(xí)基礎(chǔ)算法篇(第3~6章)介紹了QLearning算法、SARSA算法、DQN算法、Reniforce算法。強(qiáng)化學(xué)習(xí)高級算法篇(第7~12章)介紹了AC演員評委算法、A2C優(yōu)勢演員評委算法、PPO近端策略優(yōu)化算法、DDPG深度確定性策略梯度算法、TD3雙延遲深度確定性策略梯度算法、SAC柔性演員評委算法、模仿學(xué)習(xí)算法。多智能體篇(第13章和第14章),介紹了在一個系統(tǒng)中存在多智能體時,各個智能體之間的合作、對抗等關(guān)系,以及各個智能體之間的通信策略。擴(kuò)展算法篇(第15~17章)介紹了CQL離線學(xué)習(xí)算法、MPC環(huán)境學(xué)習(xí)算法、HER目標(biāo)導(dǎo)向算法。SB3強(qiáng)化學(xué)習(xí)框架篇(第18章),介紹了強(qiáng)化學(xué)習(xí)框架SB3的使用方法。 本書將使用最簡單淺顯的語言,帶領(lǐng)讀者快速地了解各個主要的強(qiáng)化學(xué)習(xí)算法的設(shè)計思路,以及實(shí)現(xiàn)過程。通過本書各個章節(jié)的學(xué)習(xí),讀者可以掌握主流的強(qiáng)化學(xué)習(xí)算法的原理和實(shí)現(xiàn)方法,能夠讓讀者知其然也知其所以然,做到融會貫通。 "
你還可能感興趣
我要評論
|