本書系統(tǒng)闡述了視覺語言模型的理論體系與技術實踐。全書共15章,分為三大部分:基礎綜述(第1章)、關鍵技術(第2~14章)與未來展望(第15章)。
第一部分詳解視覺語言模型的網(wǎng)絡架構、預訓練目標、評估方法及數(shù)據(jù)集體系,對比分析對抗訓練、生成式預訓練等范式,并建立性能評估基準。第二部分:第2章通過多個案例展示技術多樣性;第3~5章深入探討少樣本學習、魯棒微調等關鍵問題,提出約束線性探測等原創(chuàng)方法;第6~10章聚焦模型擴展性,涵蓋InternVL億級參數(shù)訓練、VinVL視覺表征重構等前沿實踐;第11~14章探索提示工程、異常檢測等應用場景,包含MATCHER一次性分割等突破性方案。第三部分展望多模態(tài)生成、組合推理等未來方向。
本書系統(tǒng)性與前沿性并重,理論與實踐結合,非常適合AI算法工程師、大模型及多模態(tài)人工智能研究者學習,也可用作高等院校相關專業(yè)的教材及參考書。
第1章 視覺任務的視覺語言模型綜述 001~035
1.1 視覺語言模型摘要 001
1.2 視覺語言模型問題提出 001
1.3 視覺語言模型背景 003
1.3.1 視覺識別的訓練范式 003
1.3.2 用于視覺識別的VLM 的開發(fā) 004
1.3.3 相關調查 006
1.4 VLM 基礎 006
1.4.1 網(wǎng)絡架構 006
1.4.2 VLM 預訓練目標 007
1.4.3 VLM 預訓練框架 009
1.4.4 評估設置和下游任務 010
1.5 數(shù)據(jù)集 011
1.5.1 預訓練VLM 的數(shù)據(jù)集 012
1.5.2 VLM 評估數(shù)據(jù)集 013
1.6 視覺語言模型預訓練 013
1.6.1 具有對抗目標的VLM 預訓練 015
1.6.2 具有生成目標的VLM 預訓練 017
1.6.3 帶有對齊目標的VLM 預訓練 019
1.7 VLM 遷移學習 020
1.7.1 遷移學習的動機 020
1.7.2 遷移學習的常見設置 020
1.7.3 常見的遷移學習方法 020
1.8 視覺大模型語言知識提煉 024
1.8.1 從VLM 中提取知識的動機 025
1.8.2 常識提煉方法 025
1.9 性能比較 027
1.9.1 VLM 預訓練的表現(xiàn) 027
1.9.2 VLM 遷移學習的性能 030
1.9.3 VLM 知識提取的性能 032
1.10 未來發(fā)展方向 033
1.11 小結 035
第2章 視覺語言模型各種示例 036~065
2.1 通過模仿和自我監(jiān)督學習創(chuàng)建多模態(tài)交互代理 036
2.2 DEPT:用于參數(shù)高效微調的分解式快速調諧 037
2.3 基于聚類掩蔽的高效視覺語言預訓練 039
2.4 來自并行文本世界的LLM 訓練的體現(xiàn)多模態(tài)智能體 041
2.5 在豐富的監(jiān)督下加強視覺語言預訓練 043
2.6 FairCLIP:在視覺和語言學習中強調公平 043
2.7 用于開放式目標檢測的生成區(qū)域語言預訓練 044
2.8 FROSTER:凍結的CLIP 是開放詞匯動作識別的有力教師 048
2.9 Ins-DetCLIP:對齊檢測模型以遵循人類語言指令 049
2.10 MMICL:通過多模態(tài)語境學習增強視覺語言模型的能力 052
2.11 學習提示分割任何模型 055
2.12 NEMESIS:視覺語言模型軟性向量的歸一化 057
2.13 非自回歸序列到序列視覺語言模型 057
2.14 一個提示詞足以提高預訓練視覺語言模型的對抗魯棒性 059
2.15 連續(xù)學習的快速梯度投影 060
2.16 檢索增強對比視覺文本模型 062
2.17 TCP:基于文本的類感知可視化語言模型的提示調優(yōu) 064
2.18 聯(lián)合學習中視覺語言模型的文本驅動提示生成 065
第3章 大視覺語言模型的少數(shù)樣本任務適配 066~079
3.1 少數(shù)樣本任務適配概述 066
3.2 少數(shù)樣本任務適配相關知識 066
3.2.1 少數(shù)樣本任務適配歷史淵源 066
3.2.2 相關工作概述 069
3.3 少數(shù)樣本任務適配準備工作 069
3.3.1 對比視覺語言預訓練大規(guī)模VLM 069
3.3.2 可遷移性 070
3.3.3 使用適配器進行高效遷移學習 070
3.3.4 現(xiàn)有少樣本任務ETL 方法的陷阱 071
3.4 少樣本任務擬議辦法 071
3.4.1 重新審視線性探測 071
3.4.2 約束線性探測 072
3.4.3 線性探測的類自適應約束 073
3.5 少樣本任務實驗 075
3.5.1 安裝程序 075
3.5.2 少樣本任務測試結果 076
3.5.3 少樣本任務消融實驗 078
3.6 少樣本任務限制 079
第4章 基于錨點的視覺語言模型魯棒微調 080~091
4.1 錨點視覺語言模型魯棒微調概要 080
4.2 錨點視覺語言模型魯棒微調相關技術 080
4.2.1 錨點視覺語言模型魯棒微調問題提出 080
4.2.2 錨點視覺語言模型魯棒微調相關工作 082
4.3 錨點視覺語言模型魯棒微調準備工作 083
4.3.1 符號摘要 083
4.3.2 對比視覺語言模型 083
4.4 錨點視覺語言模型魯棒微調方法 084
4.4.1 問題設置 084
4.4.2 基于錨點的穩(wěn)健微調概述 085
4.5 錨點視覺語言模型魯棒微調實驗 087
4.5.1 域轉換下的評估 087
4.5.2 零樣本學習下的評價 089
4.5.3 消融研究 090
4.5.4 錨的定性示例 091
4.6 小結 091
第5章 視覺語言模型的一致性引導快速學習 092~104
5.1 一致性引導快速學習摘要 092
5.2 一致性引導快速學習問題提出及相關工作 092
5.2.1 一致性引導快速學習問題提出 092
5.2.2 一致性引導快速學習相關工作 094
5.3 一致性引導快速學習方法 095
5.3.1 準備工作 095
5.3.2 協(xié)同學習:以一致性為導向的快速學習 096
5.4 一致性引導快速學習4 個實驗 098
5.4.1 實驗設置 098
5.4.2 新概括的基礎 098
5.4.3 跨數(shù)據(jù)集評估 099
5.4.4 域泛化 100
5.4.5 消融研究 100
5.4.6 參數(shù)和計算復雜度 103
5.5 小結 104
第6章 InternVL:擴展視覺基礎模型并對齊通用視覺語言任務 105~133
6.1 InternVL 擴展視覺基礎模型并對齊摘要 105
6.2 擴展視覺基礎模型并對齊問題提出及相關工作 105
6.2.1 擴展視覺基礎模型并對齊問題提出 105
6.2.2 擴展視覺基礎模型并對齊相關工作 107
6.3 擴展視覺基礎模型并對齊擬議方法 108
6.3.1 總體架構 108
6.3.2 模型設計 109
6.3.3 對齊策略 111
6.4 擴展視覺基礎模型并對齊實驗 113
6.4.1 實施細節(jié) 113
6.4.2 視覺感知基準 113
6.4.3 視覺語言基準 114
6.4.4 多模式對話基準 118
6.4.5 消融研究 118
6.5 擴展視覺基礎模型并對齊結論 119
6.6 擴展視覺基礎模型并對齊補充材料 120
6.6.1 更多實驗 120
6.6.2 更多消融研究 123
6.6.3 詳細訓練設置 124
6.6.4 預訓練數(shù)據(jù)準備 127
6.6.5 SFT 的數(shù)據(jù)準備 131
第7章 提高大型視覺語言模型組合性的迭代學習 134~146
7.1 迭代學習摘要 134
7.2 迭代學習問題提出及相關工作 134
7.2.1 迭代學習問題提出 134
7.2.2 迭代學習相關工作 136
7.3 迭代學習方法 137
7.3.1 將視覺語言對抗學習重構為劉易斯信號博弈 137
7.3.2 用于規(guī)范表示的共享碼本 137
7.3.3 訓練中的迭代學習 138
7.4 迭代學習實驗 140
7.4.1 實驗設置 140
7.4.2 迭代學習提高了組合性 140
7.4.3 迭代學習不會損害識別 141
7.4.4 迭代學習分析 142
7.4.5 消融研究 145
7.5 小結 146
第8章 MATCHER:使用通用特征匹配一次性分割任何內(nèi)容 147~158
8.1 特征匹配一次性分割摘要 147
8.2 特征匹配一次性分割問題提出及相關工作 147
8.2.1 特征匹配一次性分割問題提出 147
8.2.2 特征匹配一次性分割相關工作 149
8.3 特征匹配一次性分割方法 150
8.3.1 對應矩陣提取 150
8.3.2 提示生成 151
8.3.3 可控掩模生成 152
8.4 特征匹配一次性分割實驗 153
8.4.1 實驗設置 153
8.4.2 少樣本點語義分割 153
8.4.3 單樣本任務物體部分分割 154
8.4.4 視頻對象分割 155
8.4.5 消融研究 156
8.4.6 定性結果 157
8.5 小結 158
第9章 視覺啟發(fā)語言模型 159~172
9.1 視覺啟發(fā)摘要 159
9.2 視覺啟發(fā)問題提出及相關工作 159
9.2.1 視覺啟發(fā)問題提出 159
9.2.2 視覺啟發(fā)相關工作 161
9.3 視覺啟發(fā)方法 162
9.3.1 準備工作 162
9.3.2 特征金字塔視覺提取器 163
9.3.3 深度視覺條件提示 165
9.4 視覺啟發(fā)實驗結果 166
9.4.1 實驗細節(jié) 166
9.4.2 方法的數(shù)據(jù)效率 167
9.4.3 科學QA 168
9.4.4 圖像字幕 169
9.4.5 視覺問答實驗與問答任務 170
9.4.6 消融研究 170
9.5 小結 172
第10章 VinVL:重新審視視覺語言模型中的視覺表示 173~185
10.1 審視視覺表示摘要 173
10.2 審視視覺表示問題提出與相關工作 173
10.2.1 審視視覺表示問題提出 173
10.2.2 提高視覺語言的視覺能力 175
10.2.3 VL 任務的高效區(qū)域特征提取器 177
10.3 OSCAR+ 預訓練 177
10.3.1 預訓練語料庫 178
10.3.2 預訓練目標 178
10.3.3 預訓練模型 179
10.3.4 適應VL 任務 179
10.4 審視視覺表示實驗與分析 179
10.4.1 主要成果 179
10.4.2 消融分析 182
10.5 小結 185
第11章 視覺語境提示 186~200
11.1 視覺語境提示摘要 186
11.2 視覺語境提示問題提出與相關工作 187
11.3 視覺語境提示方法 190
11.3.1 分段任務的統(tǒng)一公式 190
11.3.2 視覺提示公式 191
11.3.3 快速采樣 192
11.3.4 解碼器查詢公式 193
11.4 視覺語境提示實驗 194
11.4.1 安裝程序 194
11.4.2 通用分割和檢測 194
11.4.3 視頻對象分割 196
11.4.4 消融方法 197
11.5 視覺語境提示相關工程 199
11.5.1 通過文本提示進行視覺感知 199
11.5.2 通過圖像示例進行視覺感知 199
11.5.3 通過視覺提示進行視覺感知 200
11.6 小結 200
第12章 ViTamin:在視覺語言時代設計可擴展的視覺模型 201~214
12.1 設計可擴展摘要 201
12.2 設計可擴展導言 201
12.3 設計可擴展相關工作 204
12.4 設計可擴展方法 204
12.4.1 CLIP 和訓練協(xié)議 204
12.4.2 CLIP 環(huán)境中視覺模型的基準測試 205
12.4.3 ViTamin 的設計 207
12.5 設計可擴展實驗 209
12.5.1 實施細節(jié) 209
12.5.2 主要成果 210
12.5.3 新的下游任務套件 213
12.6 小結 214
第13章 AnomalyCLIP:用于零樣本異常檢測的對象診斷快速學習 215~228
13.1 零樣本異常檢測診斷摘要 215
13.2 零樣本異常檢測診斷簡介 215
13.3 零樣本異常檢測診斷的計算 217
13.4 AnomalyCLIP:對象- 語義提示學習 218
13.4.1 方法概述 218
13.4.2 對象- 語義文本提示設計 219
13.4.3 學習一般異常和正常提示 220
13.5 零樣本異常檢測診斷實驗 222
13.5.1 實驗設置 222
13.5.2 主要結果 222
13.5.3 消融研究 226
13.6 零樣本異常檢測診斷相關工作 228
13.7 小結 228
第14章 任何促使分布泛化的轉變 229~241
14.1 分布泛化摘要 229
14.2 分布泛化導言 229
14.3 分布泛化基礎知識 230
14.4 分布泛化任何移位提示 232
14.4.1 快速建模 232
14.4.2 訓練和推理 233
14.5 分布泛化相關工作 235
14.6 分布泛化實驗 236
14.6.1 各種分配變動的結果 237
14.6.2 消融研究 240
14.7 小結 241
第15章 探索視覺語言模型的前沿:當前方法和未來方向綜述 242~264
15.1 視覺語言模型前沿摘要 242
15.2 視覺語言模型前沿導言 242
15.3 視覺語言模型類型 243
15.3.1 視覺語言理解 245
15.3.2 使用多模式輸入生成文本 246
15.3.3 多模態(tài)輸出與多模態(tài)輸入 262
15.4 視覺語言模型未來發(fā)展方向 263
15.5 小結 264
參考文獻 265~267