大數(shù)據(jù)分析技術(shù)基礎(chǔ)
 
		
	
		
					 定  價:39 元 
					
								  叢書名:普通高等教育人工智能與大數(shù)據(jù)系列教材
					
				 
				 
				  
				
				   
				 
				  
				
						
								
									當(dāng)前圖書已被 21 所學(xué)校薦購過!
								
								
									查看明細(xì)
								 
							 
							
							
								
							
				 
	
				
					
						- 作者:榮垂田
 - 出版時間:2021/8/1
 
						- ISBN:9787111685586
 
						- 出 版 社:機(jī)械工業(yè)出版社
 
					
				  
  
		
				- 中圖法分類:TP274 
  - 頁碼:
 - 紙張:膠版紙
 - 版次:
 - 開本:16開
 
				
					 
					
			
				
  
   
 
	 
	 
	 
	
	
	
		
		大數(shù)據(jù)已發(fā)展成為一個學(xué)科。本書作為該領(lǐng)域的入門教材,在內(nèi)容上盡可能覆蓋大數(shù)據(jù)分析的基本理論和基本技術(shù)。全書共9章:第1章介紹大數(shù)據(jù)發(fā)展的背景和相關(guān)的理論知識;第2章介紹大數(shù)據(jù)的采集方法,以及數(shù)據(jù)采集案例;第3章介紹大數(shù)據(jù)處理平臺Hadoop,以及Hadoop在不同系統(tǒng)平臺上的安裝和部署方法;第4章介紹MapReduce編程方法和開發(fā)工具,以及MapReduce編程實(shí)例;第5章介紹HDFS及其相關(guān)的操作方法;第6章介紹HBase及其相關(guān)的操作方法;第7章介紹Hive及其在不同平臺上的安裝和部署方法、應(yīng)用案例;第8章介紹大數(shù)據(jù)處理平臺Spark,以及Spark編程實(shí)例;第9章介紹NoSQL數(shù)據(jù)庫,以及典型的NoSQL數(shù)據(jù)庫系統(tǒng)。
    本書可作為高等學(xué)校計算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)及人工智能或相關(guān)專業(yè)的本科生或研究生教材,也可供對大數(shù)據(jù)分析感興趣的工程技術(shù)人員閱讀參考。
		
	
本書以大數(shù)據(jù)的基本概念以及大數(shù)據(jù)分析過程中常用的技術(shù)和平臺為主線進(jìn)行組織和編寫,以期讓學(xué)生掌握大數(shù)據(jù)分析的基本理論,培養(yǎng)學(xué)生的大數(shù)據(jù)分析技能。
     大數(shù)據(jù)分析是一門綜合性的技術(shù),涉及數(shù)據(jù)的收集、整理、組織、存儲、分析、挖掘以及可視化等方面,需要學(xué)生具備相關(guān)的基礎(chǔ)理論知識和技能,包括操作系統(tǒng)、編程語言、數(shù)據(jù)庫、計算機(jī)網(wǎng)絡(luò)等。因此,本書適合大學(xué)三年級以上的計算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)以及人工智能或相關(guān)專業(yè)的本科生和研究生,以及具有相關(guān)知識背景的希望從事大數(shù)據(jù)分析工作的讀者閱讀。
     本書共9章:第1章介紹大數(shù)據(jù)發(fā)展的背景和相關(guān)的理論知識;第2章介紹大數(shù)據(jù)的采集,包括大數(shù)據(jù)的來源、采集工具、預(yù)處理方法,以及數(shù)據(jù)采集的實(shí)際案例;第3章介紹大數(shù)據(jù)處理平臺Hadoop,包括Hadoop的發(fā)展、特點(diǎn)、體系結(jié)構(gòu),以及Hadoop在不同系統(tǒng)平臺上的安裝和部署方法;第4章介紹MapReduce編程方法,包括MapReduce概述,開發(fā)工具的安裝和環(huán)境配置,MapReduce編程實(shí)例,以及MapReduce應(yīng)用程序的調(diào)試和運(yùn)行方法;第5章介紹分布式文件系統(tǒng)HDFS,包括HDFS概述和特點(diǎn)、架構(gòu),HDFS支持的文件類型,以及HDFS的Shell操作和應(yīng)用程序的訪問方式;第6章介紹HBase,包括HBase概述、架構(gòu)和特點(diǎn),以及HBase Shell操作和應(yīng)用程序的訪問方法;第7章介紹Hive,包括Hive概述、體系結(jié)構(gòu)、運(yùn)行模式,Hive在不同系統(tǒng)平臺上的安裝和部署,以及應(yīng)用案例;第8章介紹大數(shù)據(jù)處理平臺Spark,包括Spark概述、Spark的安裝和部署、Spark開發(fā)環(huán)境,以及編程實(shí)例。第9章介紹NoSQL數(shù)據(jù)庫,包括NoSQL數(shù)據(jù)庫概述,MongoDB、Redis和Memcached概述、應(yīng)用場景、數(shù)據(jù)類型及操作、安裝方法和使用實(shí)例。
     本書通過大量的實(shí)踐操作,培養(yǎng)學(xué)生分析問題和解決問題的能力。第1章是概述,其余各章節(jié)除了基礎(chǔ)理論知識還包括實(shí)踐操作。在每章后,都給出了相關(guān)的習(xí)題,以幫助學(xué)生鞏固和理解本章的內(nèi)容。
     大數(shù)據(jù)是一門綜合性的技術(shù),現(xiàn)在已經(jīng)發(fā)展成一個獨(dú)立的學(xué)科數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)。本書作為大數(shù)據(jù)分析的入門讀物和基礎(chǔ)教材,不可能覆蓋大數(shù)據(jù)分析涉及的全部知識,有一些重要、前沿的材料未能引入。希望讀者在閱讀本書的基礎(chǔ)上自主學(xué)習(xí)更新的、更高級的、更加專業(yè)的知識。
     本書的主要內(nèi)容是筆者在工作和教學(xué)的過程中逐漸積累而成的,書中存在謬誤在所難免,敬請讀者見諒。
     編 者
前  言
第1章 大數(shù)據(jù)概述 1
11  大數(shù)據(jù)時代 1
111  大數(shù)據(jù)的發(fā)展歷程 1
112  大數(shù)據(jù)發(fā)展的內(nèi)在驅(qū)動力 2
12  大數(shù)據(jù)的相關(guān)概念 6
121   大數(shù)據(jù)的5V特征 6
122   大數(shù)據(jù)的相關(guān)定義 6
13  大數(shù)據(jù)的影響 8
14  大數(shù)據(jù)分析 9
141  大數(shù)據(jù)分析的特點(diǎn) 9
142  大數(shù)據(jù)分析的流程 9
143  大數(shù)據(jù)分析的核心技術(shù) 10
144  大數(shù)據(jù)分析的計算模式 11
15  大數(shù)據(jù)的行業(yè)應(yīng)用 12
151  社交大數(shù)據(jù) 12
152  醫(yī)療大數(shù)據(jù) 13
153  房地產(chǎn)大數(shù)據(jù) 13
16  大數(shù)據(jù)與其他領(lǐng)域的關(guān)系 14
161   云計算、大數(shù)據(jù)和物聯(lián)網(wǎng) 14
162  大數(shù)據(jù)與人工智能 16
習(xí)題 16
第2章  大數(shù)據(jù)的采集 18
21  大數(shù)據(jù)的來源 18
22  大數(shù)據(jù)采集工具 19
23  大數(shù)據(jù)預(yù)處理 19
24  Nutch應(yīng)用案例 20
241  Nutch的安裝和配置 21
242  Nutch爬取與內(nèi)容解析 23
25  Scrapy應(yīng)用案例 25
251  Scrapy框架概述 25
252  Scrapy的安裝和配置 27
253  Scrapy爬取實(shí)例 27
254  總結(jié) 35
習(xí)題 36
第3章  大數(shù)據(jù)處理平臺
Hadoop 37
31  Hadoop概述 37
311  Hadoop的發(fā)展歷程 37
312  Hadoop的體系結(jié)構(gòu) 38
313  Hadoop的特點(diǎn) 39
32  Hadoop的安裝和配置 40
321  準(zhǔn)備工作 40
322  Hadoop軟件的安裝和配置 42
習(xí)題 64
第4章  MapReduce編程 66
41  MapReduce概述 66
42  開發(fā)工具IntelliJ IDEA 67
43  編程實(shí)例 71
431  MapReduce經(jīng)典入門程序
字?jǐn)?shù)統(tǒng)計(WordCount) 71
432  MapReduce經(jīng)典進(jìn)階程序 81
433  在集群上運(yùn)行MapReduce
程序 87
習(xí)題 93
第5章  HDFS 94
51  HDFS概述 94
52  HDFS的架構(gòu)及特點(diǎn) 95
53  文件格式及其訪問方法 96
531  TextFile 97
532  SequenceFile 99
533  MapFile 102
534  RCFile 106
54  分布式緩存 109
55  HDFS Shell命令 112
56  HDFS的其他訪問方式 116
習(xí)題 122
第6章  HBase 123
61  HBase概述 123
62  HBase的數(shù)據(jù)模型 124
63  HBase的邏輯結(jié)構(gòu) 125
64  HBase的架構(gòu)及特點(diǎn) 126
65  HBase的安裝與配置 129
66  HBase Shell命令 135
67  使用Java API訪問 HBase 140
習(xí)題 145
第7章  Hive 146
71  Hive概述 146
72  在本地安裝運(yùn)行Hive 147
721  下載源文件 147
722  修改配置文件 148
723  啟動Hive 150
724  創(chuàng)建數(shù)據(jù)庫和文件夾 152
725  建表及加載數(shù)據(jù) 152
726  測試Hive 153
73  在Linux中安裝Hive 155
731  機(jī)器準(zhǔn)備 155
732  Hive安裝包準(zhǔn)備 155
733  修改Hive配置文件 156
734  修改Linux環(huán)境變量 157
735  啟動Hive和相關(guān)測試 158
習(xí)題 159
第8章  大數(shù)據(jù)處理平臺Spark 160
81  Spark概述 160
811  Spark的概念 160
812  學(xué)習(xí)Spark的原因 160
813  Spark組件 161
814  Spark任務(wù)執(zhí)行過程 162
82  Spark本地(Windows)
安裝 163
821  安裝Scala 163
822  安裝Hadoop 164
823  安裝Spark 165
83  Spark集群安裝 166
84  Spark運(yùn)行實(shí)例 169
841  蒙特·卡羅算法求 169
842  WordCount程序 169
習(xí)題 170
第9章  NoSQL數(shù)據(jù)庫 171
91  NoSQL數(shù)據(jù)庫概述 171
911  NoSQL的產(chǎn)生 171
912  互聯(lián)網(wǎng)對關(guān)系數(shù)據(jù)庫提出的
新要求 172
913  NoSQL數(shù)據(jù)庫的分類 172
92  MongoDB 173
921  MongoDB概述 173
922  MongoDB的優(yōu)勢 173
923  MongoDB的安裝 174
924  MongoDB使用實(shí)例 178
93  Redis 180
931  Redis概述 180
932  Redis的應(yīng)用場景 181
933  Redis的數(shù)據(jù)類型及操作 181
934  Redis的安裝 182
935  Redis使用實(shí)例 184
94  Memcached 185
941  Memcached概述 185
942  Memcached的應(yīng)用場景 186
943  Memcached的數(shù)據(jù)類型
及操作 186
944  Memcached的安裝 187
945  Memcached使用實(shí)例 188
習(xí)題 189
參考文獻(xiàn) 190