![]() ![]() |
Lessons from alphazero for optimal, model predictive, and adaptive control
本書構(gòu)建了近似動態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)的新的理論框架, 簡潔但雄心勃勃。這一框架以離線訓(xùn)練和在線學(xué)習(xí)這兩個算法為中心, 彼此獨(dú)立又通過牛頓法有機(jī)融合。當(dāng)今新一代人工智能技術(shù)發(fā)展絢麗多彩。在看似紛繁復(fù)雜的數(shù)據(jù)與算法表象之下, 其實(shí)蘊(yùn)藏著簡潔而美妙的規(guī)律。通過本書的學(xué)習(xí), 讀者將能體會經(jīng)典優(yōu)化控制理論在分析理解當(dāng)代強(qiáng)化學(xué)習(xí)算法性能中的強(qiáng)大威力, 更能領(lǐng)悟到以阿爾法零為代表的新一代算法浪潮對經(jīng)典理論提供的新的發(fā)展機(jī)遇。
你還可能感興趣
我要評論
|