開放鑒定是檔案開放利用的重要前置工作,決定了檔案開放水平。本書結合近年來人工智能技術與檔案開放鑒定的實踐進展,對檔案開放鑒定的前沿進展、模型構建、關鍵環(huán)節(jié)、可解釋性問題以及大語言模型在檔案開放鑒定中的應用展開討論,嘗試拓展檔案開放鑒定的相關理論知識,豐富檔案開放鑒定的實踐方向,以期為檔案開放鑒定現(xiàn)代化發(fā)展提供參考與借鑒。
隨著人工智能技術的發(fā)展,人工智能的應用場景越來越廣泛,著者結合檔案領域的開放鑒定工作實踐,從理論和實踐兩方面,詳細介紹人工智能在檔案領域的應用場景構建,本書的亮點在于適用檔案開放鑒定的語言大模型構建、關鍵環(huán)節(jié)的智能化流程設計探索。
楊建梁,中國人民大學信息資源管理學院講師,中國人民大學“杰出學者“青年學者,中國人民大學與麻省理工學院聯(lián)合培養(yǎng)博士。在數(shù)字化與數(shù)據(jù)化、數(shù)字人文、自然語言處理、電子文件管理等領域發(fā)表國內外高水平期刊及會議論文20余篇。主持國家社科基金項目、中國博士后科學基金一等面上項目,參與多項國家社科基金重大、重點項目,國家自科基金重點項目及各類橫向委托課題。兼任中國人民大學數(shù)字人文研究中心研究員,中國人民大學電子文件管理研究中心研究員,中國人民大學檔案事業(yè)發(fā)展中心研究員,擔任多個期刊和會議論文審稿人。
第1章人工智能技術與檔案管理的交叉融合
1.1人工智能的起源與發(fā)展
1.1.1早期概念與理論
1.1.2中期瓶頸與遇冷
1.1.3現(xiàn)代發(fā)展與突破
1.1.4前沿領域與未來
1.2人工智能的場景與應用
1.2.1金融領域:摩根大通集團的COiN平臺
1.2.2醫(yī)療領域:IBM公司的Watson for Oncology系統(tǒng)
1.2.3交通領域:Apollo平臺的自動駕駛汽車
1.2.4科學研究:MindSpore在蛋白質結構預測中的應用
1.2.5政務領域:北京市政務服務智能個性化系統(tǒng)
1.2.6教育領域:奧克蘭大學的人工智能聊天機器人系統(tǒng)
1.2.7未來趨勢
1.3國內外人工智能發(fā)展政策
1.3.1中國
1.3.2美國
1.3.3英國
1.3.4歐盟
1.3.5加拿大
1.4檔案管理的智能化演進
1.4.1萌芽起步階段
1.4.2漸進發(fā)展階段
1.4.3全面探索階段
1.5檔案智能技術創(chuàng)新態(tài)勢
1.5.1檔案智能技術專利分析
1.5.2國家檔案局科技立項分析
1.6檔案業(yè)務的主要智能技術
1.6.1光學字符識別
1.6.2自然語言處理
1.6.3機器學習
1.6.4知識圖譜
1.6.5圖像識別
1.6.6語音識別
第2章檔案開放鑒定的前沿進展
2.1檔案開放鑒定的機制
2.1.1理論基礎與國際經驗借鑒
2.1.2檔案開放審核協(xié)同機制
2.1.3自由裁量權與盡職免責制度
2.1.4研究啟示
2.2檔案開放鑒定的流程
2.2.1融合人工智能技術的鑒定流程
2.2.2審核結果分類與標準化體系構建
2.2.3解密與開放鑒定實施策略
2.2.4研究啟示
2.3智能開放鑒定的技術
2.3.1人工智能技術的應用模式
2.3.2語義分析與自然語言處理
2.3.3有監(jiān)督的機器學習
2.3.4研究啟示
2.4智能開放鑒定的實踐進展
2.4.1福建省檔案館
2.4.2江蘇省檔案館
2.4.3江西省檔案館
2.4.4廣東省珠海市檔案館
2.4.5案例啟示
第3章智能開放鑒定的模型構建
3.1基于文本分類的開放鑒定模型
3.1.1文本分類算法
3.1.2文本特征表示
3.1.3開放鑒定的文本分類建模
3.2基于敏感實體的開放鑒定模型
3.2.1敏感實體識別
3.2.2開放鑒定的敏感實體識別建模
3.3基于檔案關聯(lián)的開放鑒定模型
3.3.1檔案關聯(lián)網(wǎng)絡
3.3.2網(wǎng)絡的學習與表示
3.3.3開放鑒定的檔案關聯(lián)建模
3.4背景知識增強
3.4.1檔案背景知識圖譜
3.4.2檔案背景知識表示
3.5開放鑒定模型效果的評價
3.5.1分類模型效果評估
3.5.2開放鑒定模型評估
3.6智能開放鑒定模型的實證研究
3.6.1基于文本分類的實證研究
3.6.2敏感實體識別的實證研究
3.6.3基于檔案關聯(lián)的實證研究
3.6.4背景知識增強的實證研究
第4章智能開放鑒定的關鍵環(huán)節(jié)/
4.1檔案數(shù)據(jù)化環(huán)節(jié)/
4.1.1檔案數(shù)據(jù)化任務框架/
4.1.2檔案數(shù)據(jù)化方法體系/
4.2規(guī)則設計環(huán)節(jié)/
4.2.1自底向上的規(guī)則設計/
4.2.2自頂向下的規(guī)則設計/
4.2.3鑒定規(guī)則的算法化/
4.3模型設計環(huán)節(jié)/
4.3.1訓練數(shù)據(jù)集構建/
4.3.2模型訓練環(huán)節(jié)/
4.3.3模型測試環(huán)節(jié)/
4.4系統(tǒng)建設環(huán)節(jié)/
4.4.1檔案檢索查詢/
4.4.2檔案開放二次鑒定/
4.4.3開放鑒定規(guī)則管理/
4.4.4鑒定結果分析及可視化/
4.4.5用戶界面與交互/
4.5持續(xù)優(yōu)化環(huán)節(jié)/
4.5.1非學習型模型的持續(xù)優(yōu)化/
4.5.2學習型模型的持續(xù)優(yōu)化/
第5章大語言模型與檔案開放鑒定/
5.1現(xiàn)有技術路線的問題/
5.1.1智能開放鑒定規(guī)則構建的依據(jù)不清/
5.1.2智能開放鑒定訓練數(shù)據(jù)的可獲取性不強/
5.1.3智能開放鑒定結論的可解釋性不足/
5.2大語言模型的特點與優(yōu)勢/
5.2.1大模型具備理解復雜開放鑒定規(guī)則的能力/
5.2.2大模型具備低資源場景下的問題解決能力/
5.2.3大模型具備檔案開放鑒定結果的解釋能力/
5.3基于大語言模型的檔案開放鑒定任務框架/
5.3.1制度建設層/
5.3.2檔案資源層/
5.3.3大模型技術層/
5.3.4信息系統(tǒng)層/
5.3.5人機交互層/
5.4基于大語言模型提示工程的檔案開放鑒定技術路徑/
5.4.1開放鑒定規(guī)則構建/
5.4.2檔案數(shù)據(jù)化/
5.4.3面向開放鑒定的提示設計/
5.4.4檔案大模型應用/
5.4.5形成審核結果/
5.5基于大語言模型的開放鑒定實驗/
5.5.1測試數(shù)據(jù)集說明/
5.5.2評估指標說明/
5.5.3實驗環(huán)境設置/
5.5.4實驗結果/
5.6大語言模型在智能檔案開放鑒定的應用實踐/
5.6.1大語言模型檢測個人敏感信息的效果/
5.6.2智能檔案開放鑒定系統(tǒng)的構建/
5.7大語言模型存在的問題/
5.7.1泛化能力有待突破/
5.7.2AI幻覺有待消除/
5.7.3運行成本居高不下/
5.7.4社會爭議亟待解決/
第6章智能開放鑒定的可解釋性/
6.1檔案智能開放鑒定的可解釋性困境/
6.1.1人工智能效能與可解釋性的固有斥力/
6.1.2檔案智能開放鑒定可解釋性挑戰(zhàn)凸顯/
6.2檔案智能開放鑒定的可解釋性要求/
6.2.1可解釋性的法律要求/
6.2.2可解釋性的實踐要求/
6.2.3可解釋智能鑒定的技術可行性/
6.3檔案智能開放鑒定的可解釋性框架/
6.3.1總體邏輯/
6.3.2算據(jù)可解釋/
6.3.3算法可解釋/
6.3.4置信可解釋/
6.3.5決策可解釋/
6.4面向可解釋的檔案智能開放鑒定的啟示與建議/
6.4.1優(yōu)化檔案智能開放鑒定的體制機制/
6.4.2健全檔案開放鑒定可解釋性的法規(guī)/
6.4.3優(yōu)化開放業(yè)務流程以提高可解釋性/
第7章智能開放鑒定的挑戰(zhàn)與對策/
7.1智能開放鑒定面臨的挑戰(zhàn)/
7.1.1體制機制方面的挑戰(zhàn)/
7.1.2智能技術方面的挑戰(zhàn)/
7.1.3資源層面的挑戰(zhàn)/
7.1.4人才層面的挑戰(zhàn)/
7.1.5設備層面的挑戰(zhàn):智能技術需要算力/
7.1.6目標定位層面的挑戰(zhàn):目標定位不清晰/
7.2推進智能開放鑒定的對策/
7.2.1優(yōu)化體制機制/
7.2.2研發(fā)智能技術/
7.2.3提高資源可用性/
7.2.4強化人才建設/
7.2.5提升算力水平/
7.2.6明確開放鑒定目標/
整體而言,檔案智能化的思想實則由來已久,并在演變中不斷擴充其智能的內涵;其應用場景也從發(fā)端并聚焦于檢索環(huán)節(jié)到逐漸延伸至檔案管理全流程。在檔案智能化的發(fā)展歷程中,整體的研究涵蓋理論、方法和實踐多個方面,顯示出一定的認知與行動基礎,并呈現(xiàn)出國外先于國內的特點。其中,面向檔案智能化的管理及應用凸顯為實踐的重要組成部分,本書通過綜合梳理我國相關實踐內容,以觀照檔案智能化管理及應用的整體圖景,以期為實際工作以及未來檔案智能化的發(fā)展提供參考。