隨著計算機網(wǎng)絡的快速發(fā)展和便攜式設備的普及,網(wǎng)絡上的文本、圖像、音頻和視頻等多種模態(tài)的數(shù)據(jù)呈現(xiàn)爆炸式增長的勢態(tài),在海量數(shù)據(jù)中進行跨媒體檢索成為新的挑戰(zhàn)。一方面,不同媒體數(shù)據(jù)的表示呈現(xiàn)異構(gòu)性,如何度量異構(gòu)數(shù)據(jù)的相似度成為跨媒體檢索的關鍵性問題。另一方面,互聯(lián)網(wǎng)上的數(shù)據(jù)數(shù)量大,數(shù)據(jù)表示維度高,如何實現(xiàn)準確而又高效的檢索成為跨媒體檢索亟待解決的問題。哈希算法把高維數(shù)據(jù)映射到低維的漢明空間,為大規(guī)模跨媒體快速檢索提供了一條有效途徑。因此,本書主要圍繞基于哈希算法的圖文跨媒體檢索問題展開研究,主要創(chuàng)新成果如下。
(1) 針對哈希碼的每位取值不表示任何含義的問題,本書提出一種基于映射字典學習的無監(jiān)督跨媒體哈希算法。首先,利用映射字典學習為圖像和文本模態(tài)學習一個共享語義空間。傳統(tǒng)的字典學習方法由于加入稀疏約束項,會導致較高的計算復雜度,本書利用線性映射代替非線性的稀疏編碼,降低了計算復雜度; 其次,提出一種迭代優(yōu)化算法,得到目標函數(shù)的局部最優(yōu)解; 最后,通過學習正交旋轉(zhuǎn)矩陣最小化量化誤差,提升算法的性能。
(2) 針對已有算法在共享子空間學習時忽視樣本模態(tài)內(nèi)一致性的問題,提出一種基于語義一致性的跨媒體哈希算法。首先,分別利用協(xié)同非負矩陣分解和近鄰保持算法保持樣本的模態(tài)間和模態(tài)內(nèi)的一致性,學習區(qū)分性能更好的共享語義子空間; 其次,提出一種高效的計算復雜度為O(N)的優(yōu)化算法,使算法具有良好的可擴展性; 最后,在兩個公開數(shù)據(jù)集上進行驗證,實驗結(jié)果表明了該算法的有效性。
(3) 當圖文數(shù)據(jù)有標簽時,針對大部分算法只利用基于標簽信息的樣本間相似性學習哈希函數(shù),忽視了樣本間相似的多樣性,本書提出一種基于CoarsetoFine語義的監(jiān)督跨媒體哈希算法。首先,利用標簽信息和樣本的底層特征構(gòu)造細粒度相似矩陣; 其次,利用細粒度相似矩陣學習區(qū)分性更好的哈希函數(shù); 最后,在兩個公開數(shù)據(jù)集上進行實驗,與參考算法比較,實驗結(jié)果驗證了該算法的有效性。
(4) 針對不同模態(tài)與高層語義存在語義鴻溝不平衡的問題,本書提出一種基于語義對齊的離散監(jiān)督跨媒體哈希算法。首先,利用協(xié)同濾波直接建立標簽與哈希碼的聯(lián)系,以減少計算量和內(nèi)存開銷; 其次,利用圖像的屬性對齊圖文模態(tài)的語義信息,學習性能更好的哈希函數(shù); 最后,提出一種離散優(yōu)化算法,直接得到問題的離散解。在兩個公開數(shù)據(jù)集進行驗證,實驗結(jié)果表明該算法的性能優(yōu)于對比算法。
(5) 對于異構(gòu)數(shù)據(jù)點,跨模態(tài)哈希算法旨在學習共享漢明空間,其模式是來自一種模態(tài)的查詢可以檢索另一種模態(tài)的相關項。盡管跨模態(tài)哈希算法取得了重大進展,但仍存在一些問題需要進一步解決。首先,為了利用哈希碼中的語義信息,大多數(shù)人直接從類標簽構(gòu)造的相似度矩陣中學習哈希碼,忽略了類標簽在現(xiàn)實世界中可能包含噪聲的事實。其次,大多數(shù)人忽略了哈希碼的離散約束性,這可能會引入較大的量化誤差而導致性能不佳。為了解決上述問題,提出了一種離散魯棒監(jiān)督哈希(discrete robust supervised hashing,DRSH)算法。具體來說,首先融合來自不同模態(tài)的類標簽和特征,通過低秩約束學習魯棒的相似性矩陣,該矩陣可以揭示其結(jié)構(gòu)并捕獲其中的噪聲; 其次,通過在共享漢明空間中保留基于魯棒相似度矩陣的相似度生成哈希碼; 最后,由于哈希碼的離散約束,優(yōu)化具有挑戰(zhàn)性,提出了一種離散優(yōu)化算法來解決這個問題。在三個真實數(shù)據(jù)集上評估DRSH算法,結(jié)果證明了DRSH相對于幾種現(xiàn)有哈希算法的優(yōu)越性。
(6) 盡管監(jiān)督跨模態(tài)哈希算法依賴成對相似性矩陣來指導哈希碼的學習過程,取得了良好的性能,但也存在以下一些問題。第一,成對相似性矩陣通常導致高時間復雜度和內(nèi)存成本,使得它們無法適應大規(guī)模數(shù)據(jù)集。第二,成對相似性矩陣可能導致語義信息的丟失,因而缺乏具有區(qū)分性的哈希碼。第三,大多數(shù)方法在優(yōu)化過程中放松了哈希碼的離散約束,這通常導致積累了較大的量化誤差,從而產(chǎn)生劣質(zhì)的哈希碼。第四,大多數(shù)離散哈希算法是逐位學習哈希碼, 在訓練階段產(chǎn)生了時間成本。為了解決上述問題,本書提出了一種名為快速離散跨模態(tài)哈希的算法。具體而言, 它首先利用類別標簽和成對相似性矩陣來學習一個共享的漢明空間,從而更好地保持語義一致性。其次,提出了一個非對稱哈希碼學習模型,以避免具有挑戰(zhàn)性的對稱矩陣分解問題。最后,設計了一種有效且高效的離散優(yōu)化方案,可以直接生成離散哈希碼,并將由成對相似性矩陣引起的計算復雜度和內(nèi)存成本從O(n2)降到O(n),其中n表示訓練集的大小。在三個公開的數(shù)據(jù)集上進行的廣泛實驗突出了FDCH相對于幾種跨模態(tài)哈希算法的優(yōu)越性,并證明了其有效性和高效性。
(7) 大多數(shù)現(xiàn)有的跨媒體哈希算法以基于批處理的模式學習哈希函數(shù)。然而,在實際應用中,數(shù)據(jù)點往往以流的方式出現(xiàn),這使得基于批量的哈希算法失去了效率。因此,本書利用在線潛在語義哈希算法來解決這個問題。它僅利用新到達的多媒體數(shù)據(jù)點來有效地重新訓練哈希函數(shù),同時保留舊數(shù)據(jù)點中的語義相關性。具體來說,為了學習判別性哈希碼,使離散標簽被映射到連續(xù)的潛在語義空間,在該空間中可以更準確地測量數(shù)據(jù)點中的相對語義距離。針對在流數(shù)據(jù)點上有效學習哈希函數(shù)的挑戰(zhàn)性任務提出了一種在線優(yōu)化方案,并且計算復雜度和內(nèi)存成本遠小于每輪訓練數(shù)據(jù)集的大小。在許多現(xiàn)實世界的數(shù)據(jù)集上進行廣泛的實驗,充分體現(xiàn)了所提出方法的有效性和效率。
(8) 近年來,在基于譜圖的哈希場景中,已經(jīng)取得了一些成就,包括單模態(tài)哈希算法和跨媒體哈希算法。但仍然有一些問題需要進一步研究,包括: ①圖嵌入的一個顯著缺點是由圖拉普拉斯矩陣引起的昂貴的內(nèi)存和計算成本; ②大多數(shù)先驅(qū)工作在訓練過程中未能充分利用可用的類標簽,這通常導致它們的檢索性能不盡如人意。為了克服這些缺點,提出了高效監(jiān)督圖嵌入哈希算法,它可以同時高效地學習哈希函數(shù)和離散二進制碼。具體而言就是: ESGEH利用基于類標簽的語義嵌入和圖嵌入來生成共享的語義子空間,并且還將類標簽納入其中,以最小化量化誤差,以更好地逼近生成的二進制碼。為了減少計算資源,提出了一種中間項分解方法,避免了顯式計算圖拉普拉斯矩陣。最后,推導出了一個迭代的離散優(yōu)化算法來解決上述問題,每個子問題都可以得到一個閉式解。在4個公共數(shù)據(jù)集進行的大量實驗結(jié)果表明,所提出的方法在準確性和效率方面優(yōu)于現(xiàn)有的幾種跨媒體哈希算法。
姚濤
2025年1月
第1章緒論
1.1研究背景與意義
1.2國內(nèi)外相關工作研究進展
1.2.1基于樹的索引方法
1.2.2哈希算法
1.3基于哈希的跨媒體檢索存在的關鍵問題
1.4跨媒體檢索常用數(shù)據(jù)集與檢索性能評價標準
1.4.1跨媒體檢索常用數(shù)據(jù)集
1.4.2跨媒體檢索常用評價標準
1.5本書安排
第2章相關工作
2.1字典學習
2.1.1綜合字典學習
2.1.2分析字典學習
2.1.3映射字典學習
2.2協(xié)同非負矩陣分解
2.3細粒度語義
2.4語義屬性
2.5本章小結(jié)
第3章基于映射字典學習的跨媒體哈希檢索
3.1引言
3.2基于映射字典學習的跨媒體哈希檢索算法
3.2.1符號說明與問題定義
3.2.2優(yōu)化算法
3.2.3正交旋轉(zhuǎn)矩陣
3.2.4算法的復雜度分析
3.3實驗結(jié)果及分析
3.3.1實驗設置
3.3.2在WiKi數(shù)據(jù)集上的實驗結(jié)果及分析
3.3.3在NUSWIDE數(shù)據(jù)集上的實驗結(jié)果及分析
3.4本章小結(jié)
第4章基于語義一致性的跨媒體哈希檢索
4.1引言
4.2基于語義一致性的跨媒體哈希檢索算法
4.2.1符號說明與問題定義
4.2.2優(yōu)化算法
4.2.3算法的復雜度分析
4.3實驗結(jié)果及分析
4.3.1實驗設置
4.3.2在WiKi數(shù)據(jù)集上的實驗結(jié)果及分析
4.3.3在NUSWIDE數(shù)據(jù)集上的實驗結(jié)果及分析
4.4本章小結(jié)
第5章基于CoarsetoFine語義的跨媒體監(jiān)督哈希檢索
5.1引言
5.2基于CoarsetoFine語義的監(jiān)督哈希檢索算法
5.2.1符號說明與問題定義
5.2.2優(yōu)化算法
5.2.3正交旋轉(zhuǎn)矩陣
5.2.4復雜度分析
5.3實驗結(jié)果及分析
5.3.1實驗設置
5.3.2在WiKi數(shù)據(jù)集上的實驗結(jié)果及分析
5.3.3在NUSWIDE數(shù)據(jù)集上的實驗結(jié)果及分析
5.4本章小結(jié)
第6章基于語義對齊的跨媒體哈希檢索
6.1引言
6.2基于語義對齊的跨媒體哈希檢索算法
6.2.1符號說明與問題定義
6.2.2優(yōu)化算法
6.2.3復雜度分析
6.3實驗結(jié)果及分析
6.3.1實驗設置
6.3.2在WiKi數(shù)據(jù)集上的實驗結(jié)果及分析
6.3.3在NUSWIDE數(shù)據(jù)集上的實驗結(jié)果及分析
6.4本章小結(jié)
第7章用于跨模態(tài)檢索的離散魯棒監(jiān)督哈希算法
7.1引言
7.2離散魯棒監(jiān)督哈希算法
7.2.1符號說明與問題定義
7.2.2公式
7.2.3優(yōu)化算法
7.3實驗結(jié)果及分析
7.3.1實驗數(shù)據(jù)集
7.3.2基準算法和實施細節(jié)
7.3.3實驗結(jié)果及分析
7.4本章小結(jié)
第8章具有語義一致性的快速離散跨模態(tài)哈希算法
8.1引言
8.2快速離散跨模態(tài)哈希
8.2.1符號說明與問題定義
8.2.2優(yōu)化算法
8.2.3復雜度分析
8.3實驗結(jié)果及分析
8.3.1實驗數(shù)據(jù)集
8.3.2基準算法和實施細節(jié)
8.3.3實驗結(jié)果及分析
8.4本章小結(jié)
第9章用于跨媒體檢索的在線潛在語義哈希算法
9.1引言
9.2有監(jiān)督的在線跨媒體哈希
9.2.1符號說明與問題定義
9.2.2公式
9.2.3優(yōu)化算法
9.3實驗結(jié)果及分析
9.3.1實驗數(shù)據(jù)集
9.3.2基準算法和實施細節(jié)
9.3.3實驗結(jié)果及分析
9.4本章小結(jié)
第10章用于大規(guī)模跨媒體檢索的高效監(jiān)督圖嵌入哈希算法
10.1引言
10.2高效監(jiān)督圖嵌入哈希算法
10.2.1符號說明與問題定義
10.2.2公式
10.2.3優(yōu)化算法
10.2.4復雜度分析
10.3實驗結(jié)果及分析
10.3.1實驗數(shù)據(jù)集
10.3.2基準算法和實施細節(jié)
10.3.3實驗結(jié)果及分析
10.4本章小結(jié)
參考文獻