本書是中國科協(xié)新一代信息技術系列叢書之一。
本書重點闡述大數據的基本原理、技術、平臺和不同領域的應用案例。全書共分14章,第1章為緒論;第2~7章為技術篇,介紹了數據采集與治理、數據管理、數據分析、數據可視化、數據安全與隱私保護和大數據處理平臺;第8~12章為應用篇,介紹了大數據在不同領域的應用案例,包括社會網絡大數據、城市大數據、工業(yè)大數據、教育大數據和農業(yè)大數據;第13、14章為數據管理篇,包括數據開放與共享和大數據的法律政策規(guī)范。
本書主要面向大學非計算機類的工科專業(yè)的高年級學生與研究生,亦可作為大數據愛好者的科普讀物。
本書配有免費的電子課件,歡迎選用本書作教材的老師登錄www.cmpedu.com注冊下載。
前言
當前,新一代信息技術正在全球孕育興起,科技創(chuàng)新、產業(yè)形態(tài)和應用格局正發(fā)生著重大變革。
隨著數據獲取和計算技術的進步,大數據已成為一種新的國家戰(zhàn)略資源,引起了學術界、產業(yè)界、政府及行業(yè)用戶等的高度關注。世界主要發(fā)達國家已經相繼制定了促進大數據產業(yè)發(fā)展的政策法規(guī),積極構建大數據生態(tài),實施大數據國家戰(zhàn)略。
我國充分認識到大數據時代帶來的重大機遇,部署落實了一系列與大數據密切相關的規(guī)劃。2015年,國務院印發(fā)《促進大數據發(fā)展行動綱要》,系統(tǒng)部署大數據發(fā)展工作。目前,多個省市已經出臺大數據相關政策,一些地方政府專門設置大數據管理部門,為大數據基礎設施、技術創(chuàng)新、產業(yè)發(fā)展營造了良好環(huán)境。黨的十九大報告在深化供給側結構性改革中指出:“加快建設制造強國,加快發(fā)展先進制造業(yè),推動互聯網、大數據、人工智能和實體經濟深度融合,在中高端消費、創(chuàng)新引領、綠色低碳、共享經濟、現代供應鏈、人力資本服務等領域培育新增長點、形成新動能!备用鞔_大數據應與各個行業(yè)深度融合。
為落實國家戰(zhàn)略,加速新一代信息技術人才培養(yǎng),滿足數字經濟發(fā)展的人才需求,為實現經濟高質量發(fā)展提供人才支撐,中國科協(xié)策劃并組織編寫以云計算、大數據、人工智能等為代表的新一代信息技術系列叢書,成立了中國科協(xié)新一代信息技術系列叢書編寫委員會,聘請梅宏院士為編委會主任,
李培根院士、李德毅院士、李伯虎院士、張堯學院士、李駿院士、譚鐵牛院士、趙春江院士
為編委會委員,統(tǒng)籌叢書編寫工作。本書是該系列叢書之一。
本書主要面向大學非計算機類的工科專業(yè)的高年級學生與研究生,目的是幫助學生掌握大數據的基本原理和基本知識,熟悉大數據技術在多個行業(yè)應用中“能與不能”的邊界,培養(yǎng)學生在本專業(yè)應用大數據的能力。同時,對于計算機相關專業(yè)的學生,本書也可作為大數據專業(yè)課程的導論課教材。本書注重知識結構的基礎性與完整性,確保技術內容的通用性、普適性與先進性,遵循教育規(guī)律,加強能力培養(yǎng),同時,精選行業(yè)真實案例,開闊學生視野,啟發(fā)創(chuàng)新思維。本書期望為跨學科研究者提供學科方法論和技術概述,滿足新一代信息技術人才的要求。
本書可分為四部分。基礎篇(第1章)介紹大數據的發(fā)展歷程、內涵和外延、價值與意義;技術篇(第2~7章)以數據采集與治理、數據管理、數據分析與可視化的典型大數據應用生命周期作為主線,對大數據關鍵技術進行講解,進而闡述數據安全與大數據平臺的關鍵技術
,努力呈現技術的邏輯性和嚴密的科學思維;應用篇(第8~12章)使學生熟悉大數據的典型應用領域,從社會網絡大數據、城市大數據、工業(yè)大數據、教育大數據和農業(yè)大數據方面進行案例剖析,滿足多個學科的教學需求;數據管理篇(第13、14章)則讓學生了解數據開放與共享和法律政策規(guī)范等方面的現狀。本書的具體結構如下圖所示:
本書采用模塊化教學思維進行編寫,授課教師和學生可以根據專業(yè)和現有知識結構,選取不同的教學方案。本書教學建議為32~48學時,基礎篇和技術篇建議16~20學時,應用篇
建議14~24學時,數據管理篇建議2~4個學時或由學生自學。根據不同專業(yè)的實際情況,教師可以根據學時安排選擇1~2個不同行業(yè)應用進行重點講解,滿足教學需求。
本書的編寫匯集了多位專家學者的智慧。本書主編張堯學院士、胡春明副教授帶領編寫組全體成員,從教學理論和學術研究等多角度系統(tǒng)地進行頂層設計和撰寫工作。本書第1章由胡春明編寫,第2章由王宏志編寫,第3章由王建民編寫,第4章和第8章由唐杰編寫,第5章由袁曉如編寫,第6章由朱躍生編寫,第7章由吳中海編寫,第9章由呂金虎編寫,第10章由王晨編寫,第11章由陳恩紅編寫,第12章由吳華瑞編寫,第13章由
劉闖、王德慶編寫,第14章由馬民虎編寫。全書由胡春明統(tǒng)稿。
本書邀請了李德毅院士、梅宏院士和百度公司王海峰博士
前言
基礎篇
第1章緒論
1.1概述
1.1.1數據
1.1.2數據中蘊含的價值
1.1.3獲取數據中蘊含的價值
1.2大數據的內涵和外延
1.2.1大數據時代的驅動力
1.2.2大數據的概念和特征
1.2.3大數據帶來的思維模式改變
1.2.4大數據的作用和意義
1.3大數據的技術挑戰(zhàn)和科學意義
1.3.1數據處理的一般過程
1.3.2大數據計算面臨的挑戰(zhàn)
1.3.3大數據計算的特點
1.3.4大數據計算平臺
1.3.5大數據與云計算、人工智能的關系
1.4數據科學
1.4.1數據科學的提出
1.4.2數據科學的范疇
1.4.3數據科學對學科發(fā)展的影響
習題
參考文獻及擴展閱讀資料
技術篇
第2章數據采集與治理
2.1概述
2.2大數據的來源與多源數據的采集方式
2.2.1大數據的來源
2.2.2多源數據的采集
2.2.3數據離散化
2.3大數據治理
2.3.1大數據治理的框架
2.3.2數據集成和跨界應用的數據集成方法
2.3.3數據變換
2.3.4數據質量的檢驗與提升
習題
參考文獻及擴展閱讀資料
第3章數據管理
3.1概述
3.2分布式文件系統(tǒng)
3.2.1Hadoop
3.2.2Ceph
3.2.3GlusterFS
3.2.4分布式文件系統(tǒng)對比
3.3關系數據庫
3.3.1關系數據模型
3.3.2結構化查詢語言
3.3.3數據庫事務
3.3.4關系數據庫管理系統(tǒng)
3.3.5SQL on Hadoop系統(tǒng)
3.4NoSQL數據庫
3.4.1鍵值對數據庫
3.4.2文檔數據庫
3.4.3列族數據庫
3.4.4圖數據庫
3.4.5時序數據庫
3.5多模態(tài)數據管理
習題
參考文獻及擴展閱讀資料
第4章數據分析
4.1概述
4.2統(tǒng)計數據分析
4.2.1數據描述性分析
4.2.2回歸分析
4.3基于機器學習的數據分析
4.3.1非監(jiān)督學習方法
4.3.2監(jiān)督學習方法
4.4圖的數據分析
4.4.1圖的基本概念
4.4.2中心性和相似性分析
4.4.3社交網絡上的算法
4.5自然語言中的數據分析
4.5.1詞表示分析
4.5.2語言模型
4.5.3話題模型
習題
參考文獻及擴展閱讀資料
第5章數據可視化
5.1概述
5.2數據可視化主要技術
5.2.1高維數據可視化
5.2.2網絡數據可視化
5.2.3層次結構數據可視化
5.2.4時空數據可視化
5.2.5文本數據可視化
5.3高可擴展可視化技術
5.3.1科學可視化中的高可擴展性
5.3.2支持數據高效的存儲和檢索的可視化
5.3.3支持可擴展可視化的交互手段
5.4大數據可視化與可視分析案例
5.4.1VAST Challenge 2017的可視分析案例
5.4.2車輛軌跡數據的可視分析案例
5.5可視化工具和軟件
5.5.1高維數據可視化工具
5.5.2文本可視化工具
5.5.3網絡可視化工具
5.5.4可視化編程工具
習題
參考文獻及擴展閱讀資料
第6章數據安全與隱私保護
6.1概述
6.1.1數據安全與傳統(tǒng)信息安全的共異點
6.1.2數據采集及傳輸中的安全與隱私
6.1.3數據存儲的安全與隱私
6.1.4數據分析挖掘及處理的安全與隱私
6.1.5數據交互、共享與服務的安全與隱私
6.2數據安全及隱私保護支撐技術
6.2.1密碼學基礎及關鍵技術
6.2.2公鑰基礎設施
6.2.3授權管理基礎設施
6.2.4PKI與PMI協(xié)同工作原理
6.2.5秘密分割與共享管理技術
6.3數據脫敏技術與實踐
6.3.1數據交互安全與脫敏技術
6.3.2靜態(tài)數據脫敏技術
6.3.3動態(tài)數據脫敏技術
6.3.4數據脫敏實例
6.4數據生命周期安全的防護及管理體系
6.4.1數據安全防護體系
6.4.2數據安全標準
6.4.3數據生命周期安全實施方案與數據安全管理
習題
參考文獻及擴展閱讀資料
第7章大數據處理平臺
7.1概述
7.2大數據處理平臺架構
7.2.1技術架構
7.2.2開源平臺
7.3批量大數據計算
7.3.1基本概念
7.3.2典型批量計算系統(tǒng)
7.3.3實例:微博用戶群體年度熱詞統(tǒng)計
7.4流式大數據計算
7.4.1基本概念
7.4.2典型流式計算系統(tǒng)
7.4.3實例:微博用戶群體實時熱門話題分析
7.5大規(guī)模圖數據計算
7.5.1基本概念
7.5.2典型圖計算系統(tǒng)
7.5.3實例:微博用戶影響力排名
7.6內存大數據計算
7.6.1基本概念
7.6.2典型內存計算系統(tǒng)
7.6.3Spark Streaming和GraphX
習題
參考文獻及擴展閱讀資料
應用篇
第8章社會網絡大數據
8.1概述
8.2社會網絡大數據面臨的挑戰(zhàn)
8.3社會網絡中的用戶影響力
8.3.1影響力檢測實驗
8.3.2影響力傳播模型
8.3.3影響力度量算法
8.3.4社會影響力應用
8.4在線社會媒體中信息傳播的建模與預測
8.4.1網絡信息傳播模型
8.4.2傳播網絡推斷
8.4.3影響力最大化
8.4.4信息傳播預測
習題
參考文獻及擴展閱讀資料
第9章城市大數據
9.1概述
9.1.1城市數據的分類
9.1.2城市數據的特點
9.2智慧城市
9.2.1智慧城市的概念
9.2.2智慧城市的發(fā)展現狀
9.2.3智慧城市的未來趨勢
9.3智慧城市的技術體系框架
9.3.1智慧城市的技術框架
9.3.2以數據為中心的智慧城市特點
9.3.3智慧城市中的典型應用與服務
9.4城市大數據應用案例
9.4.1交通大數據的來源與種類
9.4.2交通大數據的分析與處理
9.4.3交通大數據的應用成果
9.5城市大數據未來展望
習題
參考文獻及擴展閱讀資料
第10章工業(yè)大數據
10.1概述
10.1.1工業(yè)大數據的內涵
10.1.2工業(yè)大數據的特點
10.2工業(yè)大數據典型應用場景
10.2.1現有業(yè)務優(yōu)化
10.2.2促進企業(yè)升級轉型
10.3工業(yè)大數據關鍵技術
10.4工業(yè)大數據分析技術
10.4.1工業(yè)大數據分析工作準備
10.4.2工業(yè)大數據分析工作實施
10.5工業(yè)大數據分析案例
10.5.1大唐集團工業(yè)大數據應用實踐
10.5.2中聯重科工業(yè)大數據應用實踐
習題
參考文獻及擴展閱讀資料
第11章教育大數據
11.1概述
11.2教育大數據的采集與應用場景
11.2.1信息化校園
11.2.2智能輔導系統(tǒng)和在線題庫
11.2.3大規(guī)模開放式網絡課程
11.3認知診斷分析
11.3.1認知診斷任務描述
11.3.2經典認知診斷方法
11.3.3基于大數據的深度認知診斷
11.4知識跟蹤分析
11.4.1知識跟蹤任務描述
11.4.2經典知識跟蹤方法
11.4.3聯合知識跟蹤
11.5習題資源分析與挖掘
11.5.1相似習題判定任務描述
11.5.2相似習題判定技術
11.5.3其他習題分析與挖掘應用
11.6MOOC平臺活躍度預測
11.6.1活躍度預測任務描述
11.6.2活躍度預測分析方法
11.7教育大數據應用案例
11.7.1基于大數據分析的學生“隱形補助”體系
11.7.2基于大數據技術的個性化學習
習題
參考文獻及擴展閱讀資料
第12章農業(yè)大數據
12.1概述
12.1.1智慧農業(yè)
12.1.2農業(yè)大數據分類
12.1.3農業(yè)大數據的特點與技術挑戰(zhàn)
12.2農業(yè)大數據應用
12.2.1農業(yè)大數據應用價值
12.2.2農業(yè)大數據典型應用場景
12.3農業(yè)大數據關鍵技術
12.3.1農業(yè)大數據平臺架構
12.3.2農業(yè)大數據標準化與共享技術
12.3.3農業(yè)大數據分析技術
12.4農業(yè)大數據應用案例
12.4.1農保姆全產業(yè)鏈智能服務大數據應用案例
12.4.2農技推廣大數據應用案例
習題
參考文獻及擴展閱讀資料
數據管理篇
第13章數據開放與共享
13.1概述
13.1.1數據開放與共享的概念
13.1.2數據開放與共享的發(fā)展歷程
13.2數據開放與共享的原則與政策
13.2.1數據開放與共享原則
13.2.2國外數據開放與共享政策
13.2.3中國數據開放與共享政策
13.2.4數據開放與共享實施指南
13.3數據開放與共享分類
13.3.1政府數據開放與共享
13.3.2公共財政資助產生的科學數據開放與共享
13.3.3企業(yè)數據開放與共享
13.3.4個人數據開放與共享
13.4數據開放與共享平臺
13.4.1數據開放與共享綜合平臺
13.4.2數據開放與共享領域平臺
13.4.3數據開放與共享平臺的基本功能
13.4.4數據開放與共享平臺的產權保護
習題
參考文獻及擴展閱讀資料
第14章大數據的法律政策規(guī)范
14.1中國大數據政策法規(guī)指引
14.1.1中國大數據政策法規(guī)發(fā)展過程
14.1.2中國的數據保護監(jiān)管機構
14.2數據主權與數據權利
14.2.1數據主權
14.2.2數據權利
14.2.3數據權利主體和其他利益相關主體
14.3個人數據立法保護
14.3.1國外個人數據保護制度
14.3.2中國個人數據保護制度
14.4數據跨境流動監(jiān)管法律機制
14.4.1國外數據跨境及數據本地化立法
14.4.2中國數據跨境流動法律制度
14.4.3數據跨境流動法律制度設計
14.5科技倫理
14.5.1科技倫理問題的影響和特征
14.5.2科技倫理研究
習題
參考文獻及擴展閱讀資料