多智能體強(qiáng)化學(xué)習(xí):基礎(chǔ)與現(xiàn)代方法 [德]斯特凡諾·V. 阿爾布萊希特 [希]菲利波斯·克里斯蒂安諾斯 [德]盧卡斯·舍費(fèi)
定 價(jià):109 元
當(dāng)前圖書(shū)已被 1 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:[德]斯特凡諾·V. 阿爾布萊希特(Stefano V. Albrecht)[希]菲利波斯·克里斯蒂安諾斯(Filippos Christianos)[德]盧卡斯·舍費(fèi)爾(Lukas Sch?fer)
- 出版時(shí)間:2025/5/1
- ISBN:9787111776871
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類(lèi):TP18
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning, MARL)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,研究多個(gè)智能體如何在共享環(huán)境中學(xué)習(xí)最優(yōu)的交互方式。這一領(lǐng)域在現(xiàn)代生活中有著廣泛的應(yīng)用,包括自動(dòng)駕駛、多機(jī)器人工廠(chǎng)、自動(dòng)化交易和能源網(wǎng)絡(luò)管理等。 本書(shū)是一部系統(tǒng)闡述多智能體強(qiáng)化學(xué)習(xí)理論與技術(shù)的權(quán)威著作,清晰而嚴(yán)謹(jǐn)?shù)亟榻B了MARL的模型、解決方案概念、算法思想、技術(shù)挑戰(zhàn)以及現(xiàn)代方法。書(shū)中首先介紹了該領(lǐng)域的基礎(chǔ)知識(shí),包括強(qiáng)化學(xué)習(xí)理論和算法的基礎(chǔ)、交互式博弈模型、博弈中的不同解決方案概念以及支撐MARL研究的算法思想。隨后,書(shū)中詳細(xì)介紹了利用深度學(xué)習(xí)技術(shù)的現(xiàn)代MARL算法,涵蓋集中訓(xùn)練與分散執(zhí)行、價(jià)值分解、參數(shù)共享和自博弈等思想。本書(shū)還附帶了一個(gè)用Python編寫(xiě)的MARL代碼庫(kù),其中包括自包含且易于閱讀的MARL算法實(shí)現(xiàn)。 本書(shū)技術(shù)內(nèi)容以易于理解的語(yǔ)言解釋?zhuān)⑼ㄟ^(guò)大量示例進(jìn)行說(shuō)明,既為初學(xué)者闡明了MARL的概念,也為專(zhuān)業(yè)的讀者提供了高層次的見(jiàn)解。
《多智能體強(qiáng)化學(xué)習(xí):基礎(chǔ)與現(xiàn)代方法》是多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的權(quán)威之作,作者巧妙地將強(qiáng)化學(xué)習(xí)與博弈論相結(jié)合,為該領(lǐng)域的研究和應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。本書(shū)不僅適合初學(xué)者入門(mén),更為成熟研究人員提供了深度洞察和真知灼見(jiàn),是多智能體強(qiáng)化學(xué)習(xí)不可或缺的參考書(shū)。
譯 者 序多智能體強(qiáng)化學(xué)習(xí)(MARL)作為人工智能的一個(gè)新興研究領(lǐng)域,已經(jīng)在國(guó)際上積累了較為豐富的研究成果和實(shí)踐經(jīng)驗(yàn)。本書(shū)系統(tǒng)性地總結(jié)了MARL的研究脈絡(luò),在領(lǐng)域內(nèi)有較強(qiáng)的影響力。本書(shū)由Stefano V.Albrecht、Filippos Christianos和Lukas Schfer三位在多智能體系統(tǒng)和強(qiáng)化學(xué)習(xí)領(lǐng)域享有盛譽(yù)的專(zhuān)家共同撰寫(xiě)。本書(shū)內(nèi)容主要分為兩部分:第一部分介紹MARL中的基本概念和基礎(chǔ)知識(shí);第二部分則介紹基于深度學(xué)習(xí)技術(shù)的前沿MARL研究。本書(shū)不僅涵蓋堅(jiān)實(shí)的理論基礎(chǔ),還在實(shí)踐層面展示了將復(fù)雜概念轉(zhuǎn)化為應(yīng)用方案的方法。通過(guò)具體的算法實(shí)踐,讀者可以加深對(duì)理論知識(shí)的理解。我們希望這本中文翻譯版可以給國(guó)內(nèi)讀者帶來(lái)閱讀的便利。得益于大語(yǔ)言模型的幫助,本書(shū)的翻譯效率得到了極大的提升。在翻譯過(guò)程中,我們也遇到了一些挑戰(zhàn),例如,某些術(shù)語(yǔ)尚無(wú)統(tǒng)一的中文翻譯,我們選擇了目前較為主流的翻譯,并在首次出現(xiàn)時(shí)標(biāo)注了其他可能的翻譯,以便讀者理解。此外,為了讓本書(shū)更加通俗易懂,我們?cè)诜g時(shí)特別注重語(yǔ)言的流暢性和表達(dá)的準(zhǔn)確性。我們力求將復(fù)雜的概念用簡(jiǎn)潔明了的語(yǔ)言進(jìn)行解釋?zhuān)瑫r(shí)保留原文的科學(xué)性和嚴(yán)謹(jǐn)性。在此,我們要特別感謝在本書(shū)翻譯過(guò)程中給予支持和幫助的所有老師和同學(xué)。他們的建議和指導(dǎo)使本書(shū)的翻譯更加準(zhǔn)確和完善。同時(shí),也要感謝機(jī)械工業(yè)出版社的支持,使得這本書(shū)的中文版得以順利出版。盡管我們?cè)诜g過(guò)程中力求準(zhǔn)確無(wú)誤,但由于時(shí)間和精力有限,書(shū)中難免存在疏漏之處。我們誠(chéng)摯地歡迎讀者提出寶貴的批評(píng)和建議,以便我們?cè)诤罄m(xù)版本中不斷改進(jìn)和完善。前 言多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)是一個(gè)多樣化且極為活躍的研究領(lǐng)域。隨著深度學(xué)習(xí)在2010年代中期被引入多智能體強(qiáng)化學(xué)習(xí),該領(lǐng)域的研究工作出現(xiàn)了爆炸式增長(zhǎng),F(xiàn)在,所有主要的人工智能和機(jī)器學(xué)習(xí)會(huì)議都會(huì)例行討論相關(guān)文章,比如開(kāi)發(fā)新的多智能體強(qiáng)化學(xué)習(xí)算法或以某種方式應(yīng)用多智能體強(qiáng)化學(xué)習(xí)。這種急劇增長(zhǎng)還體現(xiàn)在自那以后發(fā)表的越來(lái)越多的綜述論文中,我們?cè)跁?shū)末列出了許多這樣的論文。隨著這種增長(zhǎng),該領(lǐng)域顯然需要一本教科書(shū)來(lái)提供對(duì)多智能體強(qiáng)化學(xué)習(xí)的原則性介紹。本書(shū)部分基于并在很大程度上遵循了Stefano V.Albrecht和Peter Stone在2017年澳大利亞墨爾本舉行的國(guó)際人工智能聯(lián)合會(huì)議(International Joint Conference on Artificial Intelligence,IJCAI)上所做的“Multiagent Learning:Foundations and Recent Trends”報(bào)告的結(jié)構(gòu)。本書(shū)的寫(xiě)作目的是對(duì)多智能體強(qiáng)化學(xué)習(xí)中的模型、求解、算法思想和技術(shù)挑戰(zhàn)進(jìn)行基本介紹,并描述將深度學(xué)習(xí)技術(shù)整合進(jìn)多智能體強(qiáng)化學(xué)習(xí)以產(chǎn)生強(qiáng)大新算法的現(xiàn)代方法。從本質(zhì)上講,我們認(rèn)為本書(shū)所涵蓋的材料應(yīng)該為每一位從事多智能體強(qiáng)化學(xué)習(xí)的研究人員所了解。此外,本書(shū)還旨在為研究人員和從業(yè)人員使用MARL算法提供實(shí)用指導(dǎo)。為此,本書(shū)附帶了用Python編程語(yǔ)言編寫(xiě)的代碼庫(kù),其中包含本書(shū)討論的幾種多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)。代碼庫(kù)的主要目的是提供自成一體且易于閱讀的算法代碼,以幫助讀者理解。本書(shū)假定讀者具有本科水平的基礎(chǔ)數(shù)學(xué)背景,包括統(tǒng)計(jì)學(xué)、概率論、線(xiàn)性代數(shù)和微積分。此外,為了理解和使用代碼庫(kù),讀者需要熟悉基本的編程概念。通常,我們建議按順序閱讀本書(shū)的各個(gè)章節(jié)。對(duì)于不熟悉強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的讀者,我們將在第2章、第7章和第8章分別介紹相關(guān)基礎(chǔ)知識(shí)。對(duì)于已經(jīng)熟悉強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的讀者,如果想快速開(kāi)始學(xué)習(xí)基于深度學(xué)習(xí)的最新多智能體強(qiáng)化學(xué)習(xí)算法,那么可以先閱讀第3章,然后跳到第9章及以后的章節(jié)。為了幫助教師采用本書(shū),我們制作了講義幻燈片(可從本書(shū)網(wǎng)站獲。瑑(nèi)容可根據(jù)課程需要進(jìn)行修改。多智能體強(qiáng)化學(xué)習(xí)已成為一個(gè)龐大的研究領(lǐng)域,本書(shū)并未涵蓋其所有方面。例如,關(guān)于在多智能體強(qiáng)化學(xué)習(xí)中使用通信的研究日益增多,但本書(shū)并未涉及。這方面的研究問(wèn)題包括:當(dāng)通信信道嘈雜、不可靠時(shí),智能體如何學(xué)會(huì)穩(wěn)健地進(jìn)行通信;智能體如何利用多智能體強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)針對(duì)特定任務(wù)的專(zhuān)用通信協(xié)議或語(yǔ)言。雖然本書(shū)的重點(diǎn)不是多智能體強(qiáng)化學(xué)習(xí)中的通信,但本書(shū)介紹的模型具有足夠的通用性,也可以表示通信行為(如3.5節(jié)所述)。此外,還有關(guān)于將演化博弈論用于多智能體學(xué)習(xí)的研究,在本書(shū)中也沒(méi)有涉及(我們推薦Bloembergen等人于2015年發(fā)表的優(yōu)秀綜述)。最后,隨著近年來(lái)多智能體強(qiáng)化學(xué)習(xí)研究工作的急劇增加,試圖編寫(xiě)一本跟上新算法的書(shū)籍是徒勞的。因此,我們將重點(diǎn)放在多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念和思想上,并參考研究綜述論文(書(shū)末),以獲知更完整的算法發(fā)展歷程。致謝:我們非常感謝在本書(shū)撰寫(xiě)過(guò)程中許多與我們合作或提供反饋意見(jiàn)的人。在這里,特別感謝MIT出版社的Elizabeth Swayze和Matthew Valades,他們?cè)诔霭孢^(guò)程中給予了我們悉心的指導(dǎo)。許多同事也為我們提供了寶貴的反饋意見(jiàn)和建議,我們?cè)诖艘徊⒈硎靖兄x(按姓氏字母順序排列):Christopher Amato、Marina Aoyama、Ignacio Carlucho、Georgios Chalkiadakis、Sam Dauncey、Alex Davey、Bertrand Decoster、Mhairi Dunion、Kousha Etessami、Aris Filos-Ratsikas、Elliot Fosong、Amy Greenwald、Dongge Han、Josiah Hanna、Leonard Hinckeldey、Sarah Keren、Mykel Kochenderfer、Marc Lanctot、Stefanos Leonardos、Michael Littman、Luke Marris、Elle McFarlane、Trevor McInroe、Mahdi Kazemi Moghaddam、Frans Oliehoek、Georgios Papoudakis、Tabish Rashid、Michael Rovatsos、Rahat Santosh、Raul Steleac、Massimiliano Tamborski、Kale-ab Tessera、Callum Tilbury、Jeroen van Riel、Zhu Zheng。我們還要感謝為MIT出版社審閱本書(shū)的匿名審稿人。圖2.3中的火星探測(cè)車(chē)的馬爾可夫決策過(guò)程(Markov Decision Process,MDP)基于Elliot Fosong和Adam Jelley為愛(ài)丁堡大學(xué)強(qiáng)化學(xué)習(xí)課程創(chuàng)建的類(lèi)似的馬爾可夫決策過(guò)程。圖4.4和圖4.5b中的圖像是Mahdi Kazemi Moghaddam為本書(shū)制作的。我們非常感謝Karl Tuyls在2023年智能體及多智能體系統(tǒng)(Autonomous Agents and Multi-Agent Systems,AAMAS)國(guó)際會(huì)議上發(fā)表的主旨演講中宣布了本書(shū)的出版?闭`:盡管我們盡了最大努力,但仍可能有一些錯(cuò)字或不準(zhǔn)確之處未被注意到。如果發(fā)現(xiàn)任何錯(cuò)誤,請(qǐng)通過(guò)電子郵件issues@marl-book.com向我們告知,我們將不勝感激。本書(shū)網(wǎng)站、代碼庫(kù)和幻燈片:本書(shū)的完整PDF版本以及附帶資料(包括代碼庫(kù)和講義幻燈片)的鏈接可在本書(shū)網(wǎng)站上找到:www.marl-book.com。
斯特凡諾·V. 阿爾布萊希特(Stefano V. Albrecht)愛(ài)丁堡大學(xué)信息學(xué)院人工智能專(zhuān)業(yè)副教授,并擔(dān)任該校自主智能體研究組負(fù)責(zé)人,同時(shí)是英國(guó)皇家工程院工業(yè)研究員、阿蘭·圖靈研究所多智能體系統(tǒng)研究團(tuán)隊(duì)領(lǐng)軍學(xué)者。他的研究聚焦自主智能體、多智能體系統(tǒng)、強(qiáng)化學(xué)習(xí)和博弈論領(lǐng)域,核心方向是不確定情況下的序貫決策。菲利波斯·克里斯蒂安諾斯(Filippos Christianos)多智能體深度強(qiáng)化學(xué)習(xí)領(lǐng)域的研究科學(xué)家,主要研究如何高效地使用MARL算法。他編寫(xiě)了多個(gè)流行的MARL代碼庫(kù)。盧卡斯·舍費(fèi)爾(Lukas Sch?fer)多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域的一位資深研究人員,專(zhuān)注于利用深度強(qiáng)化學(xué)習(xí)完成更具通用性、魯棒性和樣本效率的決策制定。
目 錄譯者序前言符號(hào)總覽第1章 引言1 1.1 多智能體系統(tǒng)1 1.2 多智能體強(qiáng)化學(xué)習(xí)4 1.3 應(yīng)用示例61.3.1 多機(jī)器人倉(cāng)庫(kù)管理61.3.2 棋盤(pán)游戲和電子游戲中的競(jìng)爭(zhēng)性對(duì)戰(zhàn)71.3.3 自動(dòng)駕駛71.3.4 電子市場(chǎng)中的自動(dòng)化交易7 1.4 多智能體強(qiáng)化學(xué)習(xí)的挑戰(zhàn)8 1.5 多智能體強(qiáng)化學(xué)習(xí)的議題9 1.6 本書(shū)內(nèi)容和結(jié)構(gòu)10第一部分 多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)第2章 強(qiáng)化學(xué)習(xí)12 2.1 一般定義12 2.2 馬爾可夫決策過(guò)程14 2.3 期望折扣回報(bào)和最優(yōu)策略16 2.4 價(jià)值函數(shù)與貝爾曼方程17 2.5 動(dòng)態(tài)規(guī)劃18 2.6 時(shí)序差分學(xué)習(xí)21 2.7 學(xué)習(xí)曲線(xiàn)評(píng)估23 2.8 R(s,a,s′)和R(s,a)的等價(jià)性26 2.9 總結(jié)27第3章 博弈:多智能體交互模型28 3.1 標(biāo)準(zhǔn)式博弈29 3.2 重復(fù)標(biāo)準(zhǔn)式博弈30 3.3 隨機(jī)博弈31 3.4 部分可觀(guān)測(cè)隨機(jī)博弈33 3.5 建模通信35 3.6 博弈中的知識(shí)假設(shè)36 3.7 詞典:強(qiáng)化學(xué)習(xí)與博弈論37 3.8 總結(jié)38第4章 博弈的解概念40 4.1 聯(lián)合策略與期望回報(bào)41 4.2 最佳響應(yīng)42 4.3 極小極大算法43 4.4 納什均衡44 4.5 -納什均衡46 4.6。ù郑┫嚓P(guān)均衡47 4.7 均衡解的概念局限性49 4.8 帕雷托最優(yōu)50 4.9 社會(huì)福利和公平51 4.10 無(wú)悔53 4.11 均衡計(jì)算的復(fù)雜性544.11.1 PPAD復(fù)雜性類(lèi)554.11.2 計(jì)算-納什均衡是PPAD-完全問(wèn)題56 4.12 總結(jié)57第5章 博弈中的多智能體強(qiáng)化學(xué)習(xí):第一步與挑戰(zhàn)58 5.1 一般學(xué)習(xí)過(guò)程58 5.2 收斂類(lèi)型60 5.3 單智能體強(qiáng)化學(xué)習(xí)的簡(jiǎn)化625.3.1 中心學(xué)習(xí)625.3.2 獨(dú)立學(xué)習(xí)635.3.3 示例:基于等級(jí)的搜尋65 5.4 多智能體強(qiáng)化學(xué)習(xí)的挑戰(zhàn)665.4.1 非平穩(wěn)性675.4.2 均衡選擇685.4.3 多智能體信用分配695.4.4 擴(kuò)展到多個(gè)智能體71 5.5 智能體使用哪些算法715.5.1 自博弈725.5.2 混合博弈72 5.6 總結(jié)73第6章 多智能體強(qiáng)化學(xué)習(xí):基礎(chǔ)算法75 6.1 博弈的動(dòng)態(tài)規(guī)劃:價(jià)值迭代75 6.2 博弈中的時(shí)序差分:聯(lián)合動(dòng)作學(xué)習(xí)776.2.1 極小極大Q學(xué)習(xí)796.2.2 納什Q學(xué)習(xí)806.2.3 相關(guān)Q學(xué)習(xí)816.2.4 聯(lián)合動(dòng)作學(xué)習(xí)的局限性81 6.3 智能體建模826.3.1 虛擬博弈836.3.2 智能體建模的聯(lián)合動(dòng)作學(xué)習(xí)856.3.3 貝葉斯學(xué)習(xí)與信息價(jià)值87 6.4 基于策略的學(xué)習(xí)926.4.1 期望獎(jiǎng)勵(lì)中的梯度上升926.4.2 無(wú)窮小梯度上升的學(xué)習(xí)動(dòng)態(tài)936.4.3 贏或快速學(xué)習(xí)946.4.4 用策略爬山算法實(shí)現(xiàn)贏或快速學(xué)習(xí)966.4.5 廣義無(wú)窮小梯度上升98 6.5 無(wú)悔學(xué)習(xí)996.5.1 無(wú)條件與有條件的遺憾匹配996.5.2 遺憾匹配的收斂性100 6.6 總結(jié)103第二部分 多智能體深度強(qiáng)化學(xué)習(xí):算法與實(shí)踐第7章 深度學(xué)習(xí)106 7.1 強(qiáng)化學(xué)習(xí)的函數(shù)逼近106 7.2 線(xiàn)性函數(shù)逼近107 7.3 前饋神經(jīng)網(wǎng)絡(luò)1087.3.1 神經(jīng)元1097.3.2 激活函數(shù)1097.3.3 由層和單元構(gòu)成網(wǎng)絡(luò)110 7.4 基于梯度的優(yōu)化1117.4.1 損失函數(shù)1117.4.2 梯度下降1127.4.3 反向傳播114 7.5 卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)1147.5.1 從圖像中學(xué)習(xí)——利用數(shù)據(jù)中的空間關(guān)系1157.5.2 利用記憶從序列中學(xué)習(xí)116 7.6 總結(jié)117第8章 深度強(qiáng)化學(xué)習(xí)119 8.1 深度價(jià)值函數(shù)逼近1198.1.1 深度Q學(xué)習(xí)——可能出現(xiàn)什么問(wèn)題1208.1.2 目標(biāo)值變動(dòng)問(wèn)題1218.1.3 打破相關(guān)性1238.1.4 匯總:深度Q網(wǎng)絡(luò)1248.1.5 超越深度Q網(wǎng)絡(luò)126 8.2 策略梯度算法1268.2.1 學(xué)習(xí)策略的優(yōu)勢(shì)1278.2.2 策略梯度定理1288.2.3 REINFORCE:蒙特卡羅策略梯度1298.2.4 演員-評(píng)論家算法1318.2.5 A2C:優(yōu)勢(shì)演員-評(píng)論家1328.2.6 近端策略?xún)?yōu)化1348.2.7 策略梯度算法在實(shí)踐中的應(yīng)用1358.2.8 策略的并行訓(xùn)練136 8.3 實(shí)踐中的觀(guān)測(cè)、狀態(tài)和歷史記錄139 8.4 總結(jié)140第9章 多智能體深度強(qiáng)化學(xué)習(xí)142 9.1 訓(xùn)練和執(zhí)行模式1429.1.1 集中式訓(xùn)練和執(zhí)行1439.1.2 分散式訓(xùn)練和執(zhí)行1439.1.3 集中式訓(xùn)練與分散式執(zhí)行144 9.2 多智能體深度強(qiáng)化學(xué)習(xí)的符號(hào)表示144 9.3 獨(dú)立學(xué)習(xí)1459.3.1 基于獨(dú)立價(jià)值的學(xué)習(xí)1459.3.2 獨(dú)立策略梯度方法1469.3.3 示例:大型任務(wù)中的深度獨(dú)立學(xué)習(xí)149 9.4 多智能體策略梯度算法1509.4.1 多智能體策略梯度定理1509.4.2 集中式評(píng)論家1519.4.3 集中式動(dòng)作-價(jià)值評(píng)論家1539.4.4 反事實(shí)動(dòng)作-價(jià)值估計(jì)1549.4.5 使用集中式動(dòng)作-價(jià)值評(píng)論家的均衡選擇155 9.5 共享獎(jiǎng)勵(lì)博弈中的價(jià)值分解1579.5.1 個(gè)體-全局-最大化性質(zhì)1599.5.2 線(xiàn)性?xún)r(jià)值分解1599.5.3 單調(diào)價(jià)值分解1629.5.4 實(shí)踐中的價(jià)值分解1669.5.5 超越單調(diào)價(jià)值分解170 9.6 使用神經(jīng)網(wǎng)絡(luò)的智能體建模1739.6.1 用深度智能體模型進(jìn)行聯(lián)合動(dòng)作學(xué)習(xí)1739.6.2 學(xué)習(xí)智能體策略的表示176 9.7 具有同質(zhì)智能體的環(huán)境1789.7.1 參數(shù)共享1799.7.2 經(jīng)驗(yàn)共享180 9.8 零和博弈中的策略自博弈1829.8.1 蒙特卡羅樹(shù)搜索1839.8.2 自博弈蒙特卡羅樹(shù)搜索1869.8.3 帶有深度神經(jīng)網(wǎng)絡(luò)的自博弈MCTS:AlphaZero187 9.9 基于種群的訓(xùn)練1889.9.1 策略空間響應(yīng)預(yù)言家1899.9.2 PSRO的收斂性1929.9.3 《星際爭(zhēng)霸Ⅱ》中的宗師級(jí)別:AlphaStar194 9.10 總結(jié)196第10章 實(shí)踐中的多智能體深度強(qiáng)化學(xué)習(xí)198 10.1 智能體環(huán)境接口198 10.2 PyTorch中的多智能體強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)19910.2.1 無(wú)縫參數(shù)共享實(shí)現(xiàn)20110.2.2 定義模型:IDQN的一個(gè)示例201 10.3 集中式價(jià)值函數(shù)203 10.4 價(jià)值分解204 10.5 多智能體強(qiáng)化學(xué)習(xí)算法的實(shí)用技巧20510.5.1 堆疊時(shí)間步與循環(huán)網(wǎng)絡(luò)20510.5.2 標(biāo)準(zhǔn)化獎(jiǎng)勵(lì)20510.5.3 集中式優(yōu)化206 10.6 實(shí)驗(yàn)結(jié)果的展示20610.6.1 學(xué)習(xí)曲線(xiàn)20610.6.2 超參數(shù)搜索207第11章 多智能體環(huán)境209 11.1 選擇環(huán)境的標(biāo)準(zhǔn)209 11.2 結(jié)構(gòu)不同的2×2矩陣博弈21011.2.1 無(wú)沖突博弈21011.2.2 沖突博弈211 11.3 復(fù)雜環(huán)境21211.3.1 基于等級(jí)的搜尋21311.3.2 多智能體粒子環(huán)境21411.3.3 星際爭(zhēng)霸多智能體挑戰(zhàn)21511.3.4 多機(jī)器人倉(cāng)庫(kù)21611.3.5 谷歌足球21711.3.6 《花火》21711.3.7 《胡鬧廚房》218 11.4 環(huán)境集合21811.4.1 熔爐21911.4.2 OpenSpiel21911.4.3 Petting Zoo220多智能體強(qiáng)化學(xué)習(xí)研究綜述221參 考 文 獻(xiàn)224