大語言模型GUI智能體:人機(jī)交互新時(shí)代
定 價(jià):108 元
叢書名:大模型前沿技術(shù)與應(yīng)用叢書
- 作者:張朝運(yùn) 等
- 出版時(shí)間:2025/11/1
- ISBN:9787121514074
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP391;TP18
- 頁碼:212
- 紙張:
- 版次:01
- 開本:16開
隨著大語言模型(LLM)技術(shù)的突破,人工智能正從"語言專家”演變?yōu)榫邆湫袆?dòng)能力的 智能體。大語言模型驅(qū)動(dòng)的圖形用戶界面(GUI)智能體革新了傳統(tǒng) GUI 的自動(dòng)化方式,不 再依賴腳本或規(guī)則,而是通過自然語言理解、屏幕解析和自主決策,高效、靈活地執(zhí)行任務(wù)。 本書系統(tǒng)介紹這一新興領(lǐng)域的發(fā)展背景、核心技術(shù)與應(yīng)用場(chǎng)景,涵蓋 GUI 智能體的架構(gòu)設(shè)計(jì)、 數(shù)據(jù)采集,以及大行動(dòng)模型(LAM)構(gòu)建、關(guān)鍵評(píng)估指標(biāo)和應(yīng)用,幫助讀者掌握 GUI 智能體 的完整方法論,并深入探討 GUI 智能體當(dāng)前面臨的挑戰(zhàn)與未來發(fā)展趨勢(shì)。 全書配有豐富的圖示與實(shí)踐案例,涵蓋多種真實(shí)場(chǎng)景下的智能 GUI 自動(dòng)化方案,幫助讀 者輕松上手。針對(duì)研究人員與開發(fā)者,本書提供了示例代碼與實(shí)踐指南,從系統(tǒng)搭建到核心算 法調(diào)參,都配有注釋。對(duì)于希望提高企業(yè)自動(dòng)化能力的工程師,也可借鑒書中切實(shí)可行的落地 經(jīng)驗(yàn)。針對(duì)復(fù)雜的跨平臺(tái)操作或大規(guī)模界面測(cè)試,本書給出了行之有效的思路與實(shí)現(xiàn)路徑,使 GUI 智能體自動(dòng)化不再是遙不可及的概念。
張朝運(yùn)微軟首席研究員,專注于大語言模型驅(qū)動(dòng)的GUI智能體與人機(jī)交互前沿技術(shù)。作為Windows系統(tǒng)首個(gè)GUI智能體——UFO的核心開發(fā)者,帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)了多模態(tài)交互與高效自動(dòng)化,相關(guān)項(xiàng)目在GitHub獲得超過7000星,受到國內(nèi)外主流科技媒體廣泛報(bào)道。博士畢業(yè)于英國愛丁堡大學(xué)信息學(xué)院,獲深度學(xué)習(xí)與智能移動(dòng)網(wǎng)絡(luò)方向博士學(xué)位,其間榮獲愛丁堡全球研究獎(jiǎng)學(xué)金等多項(xiàng)榮譽(yù)。在國際頂級(jí)會(huì)議與期刊發(fā)表高水平論文40余篇,谷歌學(xué)術(shù)引用超5000次。作為主要發(fā)明人,擁有多項(xiàng)中、美發(fā)明專利。長期致力于大語言模型智能體、智能運(yùn)維等領(lǐng)域的創(chuàng)新研究,推動(dòng)GUI智能體技術(shù)在桌面操作系統(tǒng)、行業(yè)生產(chǎn)力工具等場(chǎng)景的應(yīng)用落地。秦思微軟首席研究經(jīng)理,IEEE高級(jí)會(huì)員。博士畢業(yè)于美國維拉諾瓦大學(xué),在國際會(huì)議與期刊上發(fā)表論文50余篇,并擁有10多項(xiàng)授權(quán)專利。曾多次獲得國際學(xué)術(shù)獎(jiǎng),包括IEEE國際微波與毫米波技術(shù)會(huì)議“最佳學(xué)生論文獎(jiǎng)”、IEEE信號(hào)處理學(xué)會(huì)“青年作者最佳論文獎(jiǎng)”,以及歐洲信號(hào)處理協(xié)會(huì)“最佳論文獎(jiǎng)”等,F(xiàn)專注于智能運(yùn)維和大語言模型技術(shù)研究,相關(guān)技術(shù)已成功應(yīng)用于多個(gè)微軟產(chǎn)品,曾獲“微軟亞洲研究院年度最佳技術(shù)轉(zhuǎn)化獎(jiǎng)”及“微軟亞太研發(fā)團(tuán)隊(duì)獎(jiǎng)”,微軟機(jī)器學(xué)習(xí)、人工智能與數(shù)據(jù)科學(xué)大會(huì)“杰出貢獻(xiàn)獎(jiǎng)”。李立群微軟首席研究員,專注于研發(fā)基于大語言模型的智能體應(yīng)用,同時(shí)是TaskWeaver智能體開源框架的主要貢獻(xiàn)者之一。于2012年獲得中國科學(xué)院軟件研究所博士學(xué)位,2006年獲得清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)士學(xué)位,曾于2009年訪問密歇根州立大學(xué)。研究興趣包括物聯(lián)網(wǎng)、移動(dòng)、大數(shù)據(jù)、機(jī)器學(xué)習(xí)和云計(jì)算等領(lǐng)域,在Mobisys、Mobicom、NSDI、ATC、ICSE、ESEC/FSE、ICDCS、RTSS、TPDS和TOSN等頂級(jí)會(huì)議和期刊上發(fā)表40余篇論文。2022年在ESEC/FSE會(huì)議上獲得SIGSOFT Distinguished Paper獎(jiǎng)項(xiàng)。何世林現(xiàn)就職于字節(jié)跳動(dòng),曾任微軟亞洲研究院高級(jí)研究員,博士畢業(yè)于香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系。主要研究方向包括大模型、智能體及軟件智能化等。已發(fā)表40余篇國際頂級(jí)會(huì)議和期刊文章,學(xué)術(shù)引用4000余次,曾獲得FSE杰出論文獎(jiǎng)和ISSRE 最有影響力論文獎(jiǎng)。任FSE、ISSTA等國際頂級(jí)會(huì)議的程序委員會(huì)委員。TaskWeaver、UFO、LogPAI等開源項(xiàng)目的核心開發(fā)人員。GitHub總星數(shù)過萬。
前言 III
第 1 部分:基礎(chǔ)理論與背景
第 1 章 大語言模型驅(qū)動(dòng)下
的人機(jī)交互革命 2
1.1 人機(jī)交互演進(jìn)簡(jiǎn)史 3
1.1.1 從 CLI 到 GUI:易用性與效率的折中 3
1.1.2 GUI 的優(yōu)勢(shì)與局限 4
1.2 大語言模型的發(fā)展與影響 5
1.2.1 大語言模型的關(guān)鍵特征 5
1.2.2 大語言模型驅(qū)動(dòng)智能體的誕生 7
1.3 大語言模型驅(qū)動(dòng)的 GUI 智能體的興起 8
1.3.1 GUI 智能體的定義和意義 8
1.3.2 關(guān)鍵技術(shù)和形成動(dòng)因 9
1.3.3 研究現(xiàn)狀和初步應(yīng)用概覽 11
1.4 與 API-Only 智能體的比較與互補(bǔ) 12
1.4.1 API-Only 智能體:成熟度與早期優(yōu)勢(shì) 12
1.4.2 GUI 智能體:多模態(tài)下的交互變革 13
1.4.3 關(guān)鍵差異與適用場(chǎng)景 13
1.4.4 融合趨勢(shì):混合式智能體的未來 14
1.5 本章小結(jié) 15
第 2 章 GUI 自動(dòng)化的發(fā)展之路 16
2.1 早期 GUI 自動(dòng)化 17
2.1.1 傳統(tǒng) GUI 自動(dòng)化方法概覽 17
2.1.2 典型工具與軟件 19
2.2 GUI 自動(dòng)化的智能之路 .20
2.2.1 機(jī)器學(xué)習(xí)在 GUI 自動(dòng)化中的作用 20
2.2.2 計(jì)算機(jī)視覺在 GUI 自動(dòng)化中的作用 21
2.2.3 自然語言處理在 GUI 自動(dòng)化中的作用 22
2.2.4 強(qiáng)化學(xué)習(xí)在 GUI 自動(dòng)化中的獨(dú)特優(yōu)勢(shì) 22
2.3 本章小結(jié) 23
第 3 章 大語言模型與通用智能體 24
3.1 大語言模型基礎(chǔ) 25
3.1.1 預(yù)訓(xùn)練 25
3.1.2 微調(diào) 25
3.1.3 后訓(xùn)練 26
3.1.4 視覺與文本的融合 26
3.2 通用智能體 27
3.2.1 推理分析 28
3.2.2 記憶存儲(chǔ) 30
3.2.3 工具調(diào)用 32
3.3 本章小結(jié) 34
第 2 部分:核心技術(shù)與方法
第 4 章 GUI 智能體的體系結(jié)構(gòu)與核心設(shè)計(jì) 36
4.1 基礎(chǔ)架構(gòu)與工作流程 37
4.1.1 總體架構(gòu)概覽 37
4.1.2 工作流程總覽 38
4.2 環(huán)境感知與平臺(tái)適配 39
4.2.1 平臺(tái)特性與適配挑戰(zhàn) 39
4.2.2 環(huán)境狀態(tài)捕獲 41
4.3 提示工程 44
4.4 推理策略 47
4.4.1 規(guī)劃 47
4.4.2 動(dòng)作推斷 48
4.4.3 補(bǔ)充輸出 48
4.5 動(dòng)作執(zhí)行 49
4.5.1 GUI 操作 49
4.5.2 原生 API 調(diào)用 50
4.5.3 AI 工具輔助 50
4.6 記憶管理 51
4.6.1 短期記憶:支撐運(yùn)行時(shí)上下文連貫 52
4.6.2 長期記憶:沉淀經(jīng)驗(yàn)與跨任務(wù)泛化 52
4.7 本章小結(jié) 54
第 5 章 GUI 智能體的高級(jí)增強(qiáng)與自我演進(jìn) 56
5.1 基于計(jì)算機(jī)視覺的 GUI 控件識(shí)別 57
5.1.1 OCR、目標(biāo)檢測(cè)與控件識(shí)別 .57
5.1.2 多模態(tài)在復(fù)雜 GUI 解析中的實(shí)踐:以 OmniParser 為例 58
5.2 多智能體協(xié)作 60
5.2.1 專業(yè)化分工 60
5.2.2 智能體間協(xié)作 61
5.3 強(qiáng)化學(xué)習(xí) 62
5.3.1 GUI 智能體在交互式環(huán)境下的建模 62
5.3.2 基于強(qiáng)化學(xué)習(xí)的 GUI 智能體訓(xùn)練 63
5.4 自我反思與自我進(jìn)化 64
5.4.1 自我反思 64
5.4.2 自我進(jìn)化 65
5.5 本章小結(jié) 67
第 3 部分:實(shí)踐案例與應(yīng)用
第 6 章 大語言模型驅(qū)動(dòng)的GUI 智能體框架與平臺(tái)實(shí)踐 69
6.1 網(wǎng)頁端 GUI 智能體 70
6.1.1 常見流程與關(guān)鍵技術(shù) 70
6.1.2 典型的網(wǎng)頁端 GUI 智能體示例 71
6.2 移動(dòng)端 GUI 智能體 74
6.2.1 常見流程與關(guān)鍵技術(shù) 74
6.2.2 典型的移動(dòng)端 GUI 智能體示例 75
6.3 桌面端 GUI 智能體 76
6.3.1 常見流程與關(guān)鍵技術(shù) 76
6.3.2 典型桌面端 GUI 智能體示例 77
6.4 跨平臺(tái) GUI 智能體 80
6.4.1 “一次開發(fā),多端適配”的挑戰(zhàn) 80
6.4.2 框架遷移與版本管理 80
6.4.3 典型跨平臺(tái) GUI 智能體示例 81
6.5 工業(yè)界案例 82
6.5.1 Anthropic Computer Use 82
6.5.2 OpenAI Computer-UsingAgent 和 Operator 83
6.6 本章小結(jié) 85
第 7 章 GUI 智能體數(shù)據(jù)集的采集與構(gòu)建 87
7.1 數(shù)據(jù)的類型與來源 88
7.2 數(shù)據(jù)采集管線 89
7.3 現(xiàn)有數(shù)據(jù)集案例 89
7.3.1 網(wǎng)頁端數(shù)據(jù)集 90
7.3.2 移動(dòng)端數(shù)據(jù)集 91
7.3.3 桌面端數(shù)據(jù)集 91
7.3.4 跨平臺(tái)數(shù)據(jù)集 92
7.4 本章小結(jié) 93
第 8 章 GUI 智能體的大行動(dòng)模型訓(xùn)練 95
8.1 從理解到執(zhí)行:大行動(dòng)模型的崛起 96
8.2 不同平臺(tái)的大行動(dòng)模型應(yīng)用 97
8.2.1 網(wǎng)頁端 GUI 場(chǎng)景:從指令到控件操作 98
8.2.2 移動(dòng)端與桌面端大行動(dòng)模型的對(duì)比與關(guān)鍵技術(shù)差異 99
8.2.3 跨平臺(tái)大行動(dòng)模型的融合與挑戰(zhàn) 101
8.3 模型訓(xùn)練與微調(diào) 103
8.3.1 數(shù)據(jù)收集與準(zhǔn)備 103
8.3.2 大行動(dòng)模型訓(xùn)練主流框架詳解 104
8.4 大行動(dòng)模型案例分析 108
8.4.1 設(shè)計(jì)思路與架構(gòu)概覽 108
8.4.2 模型訓(xùn)練方法 109
8.4.3 集成部署與在線效果評(píng)估 113
8.5 本章小結(jié) 116
第 9 章 GUI 智能體評(píng)測(cè)方法與展望 117
9.1 評(píng)測(cè)體系概覽 .118
9.2 測(cè)試用例設(shè)計(jì) .119
9.2.1 測(cè)試用例設(shè)計(jì)中的挑戰(zhàn) 119
9.2.2 設(shè)計(jì)原則 120
9.2.3 用例類型 121
9.3 評(píng)估指標(biāo) 122
9.3.1 成功率維度 122
9.3.2 效率維度 122
9.3.3 合規(guī)性與安全性維度 123
9.3.4 穩(wěn)健性維度 123
9.3.5 用戶滿意度維度 124
9.4 度量標(biāo)準(zhǔn) 124
9.4.1 文本匹配 124
9.4.2 圖像匹配 125
9.4.3 元素匹配 125
9.4.4 動(dòng)作匹配 126
9.4.5 狀態(tài)校驗(yàn) 126
9.5 常見評(píng)測(cè)平臺(tái)與基準(zhǔn)集 126
9.5.1 主流評(píng)測(cè)平臺(tái)介紹 126
9.5.2 GUI 智能體評(píng)測(cè)基準(zhǔn)示例 128
9.6 未來發(fā)展展望 .131
9.7 本章小結(jié) 132
第 10 章 詳解 WindowsGUI 智能體UFO 133
10.1 項(xiàng)目背景與時(shí)代意義 134
10.1.1 Windows 平臺(tái)的自動(dòng)化挑戰(zhàn) 134
10.1.2 UFO 項(xiàng)目的提出與定位 134
10.2 UFO 系統(tǒng)總體架構(gòu) 134
10.2.1 架構(gòu)設(shè)計(jì)理念 134
10.2.2 核心架構(gòu)流程總覽 134
10.2.3 虛擬化與安全隔離設(shè)計(jì) 135
10.2.4 多智能體協(xié)同模式 135
10.3 HostAgent:系統(tǒng)級(jí)編排與執(zhí)行控制 136
10.3.1 模塊定位與功能概述 136
10.3.2 體系結(jié)構(gòu)與主要流程 136
10.3.3 工程實(shí)現(xiàn)細(xì)節(jié) 137
10.3.4 有限狀態(tài)機(jī)與可靠性保障 138
10.3.5 內(nèi)存管理與狀態(tài)同步機(jī)制 139
10.4 AppAgent:應(yīng)用專屬智能體 139
10.4.1 模塊定位與功能概述 139
10.4.2 架構(gòu)原理與工作機(jī)制 139
10.4.3 本地有限狀態(tài)機(jī) 141
10.4.4 內(nèi)存管理與狀態(tài)協(xié)同 142
10.5 關(guān)鍵技術(shù)模塊詳解 142
10.5.1 混合控件檢測(cè)機(jī)制 142
10.5.2 統(tǒng)一 GUI-API 動(dòng)作編排引擎 143
10.5.3 知識(shí)基座與持續(xù)增強(qiáng)機(jī)制 145
10.5.4 推測(cè)性多步動(dòng)作執(zhí)行優(yōu)化 146
10.6 典型使用流程與案例分析 147
10.6.1 典型流程與案例解析 147
10.6.2 實(shí)踐建議與常見問題 149
10.7 本章小結(jié) 150
第 11 章 GUI 智能體的商業(yè)化落地與應(yīng)用 151
11.1 GUI 智能體應(yīng)用現(xiàn)狀概覽 152
11.2 GUI 智能體產(chǎn)品分析 152
11.2.1 基于網(wǎng)頁瀏覽器的GUI 智能體 152
11.2.2 跨平臺(tái) GUI 智能體 154
11.2.3 中國本土化 GUI 智能體產(chǎn)品 156
11.3 按應(yīng)用場(chǎng)景分類的實(shí)際落地案例 157
11.3.1 企業(yè)辦公自動(dòng)化 157
11.3.2 電子商務(wù)與客戶服務(wù) 158
11.3.3 軟件開發(fā)與測(cè)試 159
11.4 實(shí)施經(jīng)驗(yàn)與挑戰(zhàn)分析 160
11.4.1 成功實(shí)施的關(guān)鍵因素 160
11.4.2 常見挑戰(zhàn)與解決方案 161
11.5 新興技術(shù)與未來趨勢(shì) 161
11.5.1 多智能體協(xié)作技術(shù) 161
11.5.2 無代碼 GUI 自動(dòng)化平臺(tái) 162
11.5.3 行業(yè)特定解決方案 162
11.6 實(shí)施教訓(xùn)與最佳實(shí)踐 162
11.6.1 從失敗案例中汲取的經(jīng)驗(yàn) 162
11.6.2 最佳實(shí)踐建議 163
11.7 結(jié)論與建議 .163
11.7.1 總體評(píng)估 163
11.7.2 企業(yè)應(yīng)用建議 163
11.8 本章小結(jié) 164
第 4 部分:未來展望與挑戰(zhàn)
第 12 章 面向未來的挑戰(zhàn)與研究方向 166
12.1 隱私保護(hù):桌面端智能體的核心壁壘 167
12.1.1 背景與挑戰(zhàn) 167
12.1.2 研究與工程應(yīng)對(duì)策略 167
12.2 延遲、性能與交互流暢性 167
12.2.1 背景與挑戰(zhàn) 167
12.2.2 研究與工程應(yīng)對(duì)策略 168
12.3 安全性與可靠性:守住自動(dòng)化底線 168
12.3.1 背景與挑戰(zhàn) 168
12.3.2 研究與工程應(yīng)對(duì)策略 168
12.4 人機(jī)協(xié)作與交互智能 169
12.4.1 背景與挑戰(zhàn) 169
12.4.2 研究與工程應(yīng)對(duì)策略 169
12.5 個(gè)性化與用戶定制 170
12.5.1 背景與挑戰(zhàn) 170
12.5.2 研究與工程應(yīng)對(duì)策略 170
12.6 倫理與合規(guī)治理 171
12.6.1 背景與挑戰(zhàn) 171
12.6.2 研究與工程應(yīng)對(duì)策略 171
12.7 大規(guī)模泛化與可持續(xù)進(jìn)化 171
12.7.1 背景與挑戰(zhàn) 171
12.7.2 研究與工程應(yīng)對(duì)策略 171
12.8 本章小結(jié) 172
第 13 章 本書總結(jié) 173
13.1 內(nèi)容回顧與關(guān)鍵技術(shù)總結(jié) 174
13.2 實(shí)際應(yīng)用與案例啟示 174
13.3 面臨的挑戰(zhàn)與應(yīng)對(duì)策略 174
13.4 未來研究方向與發(fā)展趨勢(shì) 174
13.5 結(jié)語 175
參考文獻(xiàn) 176