本書介紹了Hadoop生態(tài)系統(tǒng)架構(gòu)功能與原理;分布式文件系統(tǒng)HDF-SHDFS;MapReduce編程模型及應用開發(fā);YARN原理及配置;Hadoop偽分布式環(huán)境的搭建與配置測試;Hadoop完整分布式的集群配置搭建;Zookeeper分布式協(xié)作框架;HDFSHA原理功能與配置測試;ResourceManagerHA原理與配置;通過實際案例介紹了網(wǎng)站用戶行為分析、網(wǎng)站后臺日志分析和二次排序;介紹數(shù)據(jù)倉庫Hive的原理及安裝部署、Hive的基本操作及實戰(zhàn)操作;大數(shù)據(jù)協(xié)作框架Sqoop、Flume、Oozie及Hue的原理、配置、使用及其在企業(yè)項目中使用的架構(gòu);HBase的概念、HBase內(nèi)部管理(region分裂、分配、合并)、HBase架構(gòu)設計及表的存儲設計;HBaseshell基本使用;HBaseJavaAPI使用及HBase應用案例。
更多科學出版社服務,請掃碼獲取。
省級"統(tǒng)計信息與經(jīng)濟數(shù)據(jù)處理綜合學科訓練中心"主任,是省高校軟件服務外包類專業(yè)嵌入式人才培養(yǎng)項目--信息與計算科學(嵌入式培養(yǎng))項目負責人,省級"信息與計算科學"、校級"統(tǒng)計學"重點學科的專業(yè)學科帶頭人
目錄
第1章 Hadoop概述 1
1.1 大數(shù)據(jù)應用發(fā)展前景 1
1.2 Hadoop簡介 4
1.3 Hadoop架構(gòu) 8
1.4 Hadoop生態(tài)系統(tǒng) 11
1.5 Hadoop 3.x新特性 12
第2章 Hadoop環(huán)境部署 15
2.1 環(huán)境部署準備工作 15
2.2 Hadoop部署方式概述 20
2.3 本地運行模式 20
2.4 基于完全分布式模式部署 21
2.5 MapReduce日志 32
2.6 集群時間同步 35
第3章 Hadoop分布式文件存儲 37
3.1 HDFS 文件系統(tǒng)架構(gòu)剖析 37
3.2 HDFS的概念詳解 39
3.3 SecondaryNameNode 配置 42
3.4 HDFS 中本地存儲目錄的配置分析 44
3.5 環(huán)境安裝和HDFS API 47
第4章 Hadoop 3.x之YARN和MapReduce 52
4.1 YARN的架構(gòu)與應用監(jiān)控 52
4.2 MapReduce編程模型 58
4.3 MapReduce Shuffle過程詳解剖析 70
第5章 MapReduce案例分析 77
5.1 電商網(wǎng)站用戶行為日志統(tǒng)計分析 77
5.2 旅行網(wǎng)站訂單類型統(tǒng)計項目 84
5.3 倒排索引 88
第6章 Zookeeper 92
6.1 分布式協(xié)作框架Zookeeper 92
6.2 Zookeeper單機模式安裝及zkCli基本命令使用 95
6.3 Zookeeper分布式集群安裝部署 98
第7章 Hadoop 3.x之高可用性及聯(lián)邦架構(gòu) 101
7.1 HDFS HA 架構(gòu)原理設計 101
7.2 配置HDFS HA部署、啟動和測試 104
7.3 配置HDFS HA自動故障轉(zhuǎn)移及測試 112
7.4 ResourceManager HA架構(gòu)原理 117
7.5 ResourceManager HA配置、部署、啟動及測試 119
7.6 NameNode Federation架構(gòu)原理 124
7.7 NameNode Federation配置與測試 127
7.8 Hadoop 3.x自帶工具DistCp使用 130
第8章 MapReduce高級編程之案例篇 133
8.1 MapReduce高級編程之二次排序 133
8.2 MapReduce高級編程之Join編程 143
8.3 網(wǎng)站用戶行為日志分析 149
第9章 大數(shù)據(jù)倉庫Hive之基礎篇 153
9.1 Hive簡介 153
9.2 Hive安裝部署 155
9.3 MySQL保存元數(shù)據(jù) 159
9.4 HiveServer2訪問方式 164
9.5 Hive基本shell交互式命令 165
9.6 Hive常用屬性配置 166
第10章 大數(shù)據(jù)倉庫Hive之深入篇 169
10.1 Hive數(shù)據(jù)類型 169
10.2 Hive數(shù)據(jù)庫的基本操作 170
10.3 Hive數(shù)據(jù)表的基本操作 172
10.4 Hive數(shù)據(jù)表類型 176
10.5 Hive數(shù)據(jù)操縱 177
10.6 Hive數(shù)據(jù)查詢 180
10.7 Hive分區(qū)表與分桶表 191
10.8 自定義函數(shù) 194
10.9 常見Hive調(diào)優(yōu)策略 198
第11章 大數(shù)據(jù)倉庫Hive之案例篇 205
11.1 Hive壓縮與配置 205
11.2 Hive文件存儲格式 210
11.3 Hive實戰(zhàn)案例:網(wǎng)站訪問日志分析 217
11.4 Hive實戰(zhàn)案例:MovieLens數(shù)據(jù)分析 222
第12章 分布式數(shù)據(jù)庫HBase225
12.1 HBase概述 225
12.2 HBase的體系架構(gòu) 226
12.3 HBase數(shù)據(jù)模型與存儲結(jié)構(gòu) 227
12.4 HBase部署 232
12.5 HBaseshell 操作 236
12.6 HBaseJava API使用 247
第13章 HBase進階篇 257
13.1 HBase架構(gòu)深入剖析 257
13.2 HBase創(chuàng)建表時的預分區(qū) 260
13.3 HBase表設計 263
13.4 HBase表屬性 269
13.5 HBase管理工具 273
13.6 HBase與Hive集成 278
第14章 數(shù)據(jù)同步框架DataX 283
14.1 DataX概述 283
14.2 DataX架構(gòu) 285
14.3 DataX安裝部署 287
14.4 同步MySQL數(shù)據(jù)到HDFS案例 289
14.5 DataX參數(shù)傳遞 295
14.6 同步HDFS數(shù)據(jù)到MySQL案例 297
第15章 大數(shù)據(jù)協(xié)作框架之Flume 300
15.1 Flume設計架構(gòu) 300
15.2 Flume環(huán)境搭建 303
15.3 Flume常用組件的詳細介紹 306
15.4 案例分析:收集數(shù)據(jù)至HDFS 311
15.5 Flume企業(yè)實戰(zhàn)案例 313
主要參考文獻 317