第1章 大數(shù)據(jù)概論
1.1 大數(shù)據(jù)技術簡介
1.1.1 信息技術的發(fā)展簡史
1.1.2 大數(shù)據(jù)概述
1.2 大數(shù)據(jù)時代
1.2.1 大數(shù)據(jù)的產生和作用
1.2.2 大數(shù)據(jù)時代的10個重大變化
1.3 大數(shù)據(jù)處理的基本流程
1.3.1 數(shù)據(jù)抽取與集成
1.3.2 數(shù)據(jù)分析
1.3.3 數(shù)據(jù)解釋
1.4 大數(shù)據(jù)開發(fā)涉及到的關鍵技術
1.4.1 大數(shù)據(jù)采集技術
1.4.2 大數(shù)據(jù)預處理技術
1.4.3 大數(shù)據(jù)存儲及管理技術
1.4.4 大數(shù)據(jù)處理
1.4.5 大數(shù)據(jù)分析及挖掘技術
1.4.6 大數(shù)據(jù)展示技術
第2章 大數(shù)據(jù)采集技術概述
2.1 大數(shù)據(jù)分類
2.2 大數(shù)據(jù)采集方法分類
2.3 通過系統(tǒng)日志采集大數(shù)據(jù)
2.3.1 Flume的基本概念
2.3.2Flume使用方法
2.3.3Flume應用案例
2.4 通過網(wǎng)絡爬蟲采集大數(shù)據(jù)
2.4.1網(wǎng)絡爬蟲原理
2.4.2網(wǎng)絡爬蟲工作流程
2.4.3網(wǎng)絡爬蟲抓取策略
2.5 Scrapy網(wǎng)絡爬蟲簡介
2.5.1.Scrapy架構
2.5.2Scrapy安裝與應用案例
第3章 大數(shù)據(jù)預處理架構和方法簡介
3.1大數(shù)據(jù)預處理整體架構
3.1.1數(shù)據(jù)質量問題分類
3.2大數(shù)據(jù)預處理方法
3.3大數(shù)據(jù)預處理之數(shù)據(jù)清洗
3.3.1遺漏數(shù)據(jù)處理
3.3.2噪聲數(shù)據(jù)處理
3.3.3不一致數(shù)據(jù)處理
3.4大數(shù)據(jù)預處理之數(shù)據(jù)集成
3.4.1模式集成問題
3.4.2冗余問題
3.4.3數(shù)據(jù)值沖突檢測與消除問題
3.5大數(shù)據(jù)預處理之數(shù)據(jù)轉換
3.5.1平滑處理
3.5.2合計處理
3.5.3數(shù)據(jù)泛化處理
3.5.4規(guī)格化處理
3.5.5屬性構造處理
3.6大數(shù)據(jù)預處理之數(shù)據(jù)消減
3.6.1數(shù)據(jù)立方合計
3.6.2維數(shù)消減
3.6.3數(shù)據(jù)壓縮
3.6.4數(shù)據(jù)塊消減
3.7離散化和數(shù)值概念層次樹簡介
3.7.1數(shù)值概念層次樹
3.7.2類別概念層次樹
第4章 大數(shù)據(jù)處理技術
4.1分布式計算
4.2服務器集群
4.3大數(shù)據(jù)的技術基礎
4.4GFS、MapReduce和BigTable:Google的三種大數(shù)據(jù)處理系統(tǒng)
4.4.1GFS 90
4.4.2MapReduce
4.4.3BigTable
第5章 Hadoop大數(shù)據(jù)處理框架簡介
5.1Hadoop系統(tǒng)簡介
5.1.1Hadoop生態(tài)圈
5.1.2Hadoop版本演進
5.1.3Hadoop發(fā)行版本
5.2HadoopHDFS分布式文件
5.2.1HDFS基本原理和設計理念
5.2.2HDFS架構和實現(xiàn)機制簡介
5.2.3HDFS讀取和寫入數(shù)據(jù)簡介
5.3HDFS兩種操作方式:命令行和JavaAPI
5.3.1HDFS常用命令
5.3.2HDFS的Web界面
5.3.3HDFS的JavaAPI
第6章 NoSQL非關系型數(shù)據(jù)庫簡介
6.1NoSQL概述
6.1.1NoSQL的起因
6.1.2NoSQL的特點
6.1.3NoSQL數(shù)據(jù)庫面臨的挑戰(zhàn)
6.2NoSQL數(shù)據(jù)庫類型簡介
6.2.1鍵值數(shù)據(jù)庫
6.2.2列式數(shù)據(jù)庫
6.2.3文檔數(shù)據(jù)庫
6.4.4圖形數(shù)據(jù)庫
第7章 HadoopHBase數(shù)據(jù)庫簡介
7.1HBase列式數(shù)據(jù)模型簡介
7.1.1數(shù)據(jù)模型概述
7.1.2數(shù)據(jù)模型的基本概念
7.1.3概念視圖
7.1.4物理視圖
7.2HBaseShell常用命令和基本操作
7.2.1般操作
7.2.2DDL操作
7.2.3DML操作
7.2.4HBase表實例
7.3HBase的物理存儲和邏輯架構
7.3.1HBase的物理存儲
7.3.2HBase的邏輯架構
7.4HBase常用JavaAPI
7.4.1HBase的常用JavaAPI
7.5HBaseJavaAPI編程實例
7.5.1建立連接和關閉連接
7.5.2創(chuàng)建表
第8章 HadoopMapReduce簡介
8.1批處理模式
8.1.1MapReduce簡釋
8.2MapReduce基本思想
8.2.1.大數(shù)據(jù)處理思想:分而治之
8.2.2構建抽象模型:Map函數(shù)和Reduce函數(shù)
8.2.3Map函數(shù)和Reduce函數(shù)
8.3HadoopMapReduce架構
8.4HadoopMapReduce工作流程
8.5MapReduce實例分析:單詞計數(shù)
8.5.1設計思路
8.5.2處理過程
8.6MapReduce執(zhí)行流程和Shuffle過程
8.6.1HadoopMapReduce作業(yè)執(zhí)行流程
8.6.2HadoopMapReduce的Shuffle階段
8.6.3HadoopMapReduce的主要特點
8.7MapReduce編程實例:單詞計數(shù)
8.7.1任務準備
8.7.2編寫Map程序
8.7.3編寫Reduce程序
8.7.4編寫main函數(shù)
8.7.5核心代碼包
第9章 Spark簡介
9.1Spark與Hadoop
9.1.1HadoopMapRedcue缺點
9.1.2Spark的優(yōu)勢
9.1.3Spark的適用場景
9.1.4Spark安裝與環(huán)境配置
9.2SparkRDD
9.2.1RDD的基本概念
9.2.2RDD基本操作
9.2.3RDD血緣關系
9.2.4RDD依賴類型
9.2.5階段劃分
9.2.6RDD緩存
9.3Spark總體架構和運行流程
9.3.1Spark總體架構
9.3.2Spark運行流程
9.4Spark生態(tài)圈簡介
9.4.1SparkCore
9.4.2SparkStreaming
9.4.3SparkSQL
9.4.4SparkMLlib
9.4.5SparkGraphX
9.5Spark開發(fā)實例
9.5.1啟動SparkShell
9.5.2SparkShell使用
9.5.3編寫Java應用程序
9.6SparkStreaming簡介
9.6.1SparkStreaming的系統(tǒng)架構
9.6.2SparkStreaming編程模型
9.6.3SparkDStream相關操作
9.7SparkStreaming編程實戰(zhàn)(開發(fā)實例)
9.7.1流數(shù)據(jù)模擬器
第10章 數(shù)據(jù)挖掘
10.1數(shù)據(jù)挖掘概述
10.1.1什么是數(shù)據(jù)挖掘
10.1.2數(shù)據(jù)挖掘的價值類型
10.1.3數(shù)據(jù)挖掘算法的類型
10.2 SparkMLlib簡介
10.2.1SparkMLlib的構成
10.2.2SparkMLlib的優(yōu)勢
10.3數(shù)據(jù)挖掘之分類和預測簡介
10.3.1分類的基本概念
10.3.2預測的基本概念
10.4決策樹和樸素貝葉斯算法簡介
10.4.1決策樹算法
1.決策樹案例
2.決策樹的建立
3.SparkMLlib決策樹算法
4.SparkMLlib決策樹算法實例
5.決策樹算法優(yōu)缺點
10.5樸素貝葉斯算法
1.貝葉斯公式
2.工作原理
3.SparkMLlib樸素貝葉斯算法
4.SparkMLlib樸素貝葉斯算法實例
5.算法優(yōu)缺點
10.6回歸分析預測技術簡介
1.線性回歸
2.SparkMLlib的SGD線性回歸算法
3.SparkMLlib的SGD線性回歸算法實例
4.邏輯回歸
10.7聚類分析
10.7.1基本概念
10.7.2聚類分析方法的類別
1.基于劃分的聚類方法
2.基于層次的聚類方法
3.基于密度的聚類方法
4.基于網(wǎng)格的聚類方法
5.基于模型的聚類方法
10.8k-means聚類算法簡介
1.基本思想
2.SparkMLlib中的k-means算法
3.MLlib中的k-means算法實例
4.算法優(yōu)缺點
10.9DBSCAN聚類算法簡介
1.基本概念
2.算法描述
3.算法實例
4.DBSCAN算法算法優(yōu)缺點
10.10數(shù)據(jù)挖掘之關聯(lián)規(guī)則分析簡介
10.10.1概述
10.10.2基本概念
10.10.3關聯(lián)分析步驟
2.發(fā)現(xiàn)關聯(lián)規(guī)則
10.11Apriori算法和FP-Tree算法簡介
10.11.1Apriori關聯(lián)分析算法
1.Apriori算法
2.由頻繁項集產生關聯(lián)規(guī)則
3.算法優(yōu)缺點
10.11.2FP-Tree關聯(lián)分析算法
1.FPTree的構造
2.FP-Tree的挖掘
3.MLlib的FP-Growth算法實例
第11章 基于大數(shù)據(jù)的精準營銷
11.1精準營銷概述
11.2大數(shù)據(jù)精準營銷過程
1. 助力客戶信息收集與處理
2. 客戶細分與市場定位
3. 輔助營銷決策與營銷戰(zhàn)略設計
4. 精準的營銷服務
5. 營銷方案設計
6. 營銷結果反饋
11.3大數(shù)據(jù)精準營銷方式
1. 實時競價(RTB)
2. 交叉銷售
3. 點告
4. 窄告
5. 定向廣告推送
第12章 基于大數(shù)據(jù)的個性化推薦系統(tǒng)
12.1推薦系統(tǒng)概述
12.2推薦機制
1. 基于人口統(tǒng)計學的推薦
2. 基于內容的推薦
3. 基于協(xié)同過濾的推薦
4. 混合推薦機制
12.3推薦系統(tǒng)的應用
12.3.1推薦在電子商務中的應用:Amazon
12.3.2推薦在社交網(wǎng)站中的應用:豆瓣
第13章 大數(shù)據(jù)預測
13.1預測是大數(shù)據(jù)的核心價值
13.2大數(shù)據(jù)預測的思維改變
1. 實樣而非抽樣
2. 效率而非精確
3. 相關性而非因果關系
13.3大數(shù)據(jù)預測的典型應用領域
1. 天氣預報
2. 體育賽事預測
3. 股票市場預測
4. 市場物價預測
5. 用戶行為預測
6. 人體健康預測
7. 疾病疫情預測
8. 災害災難預測
9. 環(huán)境變遷預測
10. 交通行為預測
11. 能源消耗預測
第14章 大數(shù)據(jù)在金融行業(yè)的應用
14.1大數(shù)據(jù)可以應用的行業(yè)
1. 互聯(lián)網(wǎng)和營銷行業(yè)。
2. 信息化水平比較高的行業(yè)。
3. 政府及公用事業(yè)行業(yè)。
4. 制造業(yè)、物流、醫(yī)療、農業(yè)等行業(yè)。
14.2銀行大數(shù)據(jù)應用場景
1. 客戶畫像
2. 精準營銷
3. 風險管控
4. 運營優(yōu)化
14.3證券行業(yè)數(shù)據(jù)應用場景
1. 股價預測
2. 客戶關系管理
3. 投資景氣指數(shù)預測
14.4保險行業(yè)數(shù)據(jù)應用場景
1.客戶細分和精細化營銷
2.欺詐行為分析
3.精細化運營
第15章 大數(shù)據(jù)在互聯(lián)網(wǎng)行業(yè)的應用
15.1精準營銷
15.2.個性化服務
15.3商品個性化推薦
1. 電子商務網(wǎng)站
2. 電影視頻網(wǎng)站
3. 網(wǎng)絡電臺
4. 社交網(wǎng)絡
5. 其他應用
第16章 大數(shù)據(jù)在物流行業(yè)的應用
16.1物流大數(shù)據(jù)的作用
1. 提高物流的智能化水平
2. 降低物流成本
3. 提高用戶服務水平
16.2物流大數(shù)據(jù)應用案例
1. 車貨匹配
2. 運輸路線優(yōu)化
3. 庫存預測
4. 設備修理預測
5. 供應鏈協(xié)同管理
16.3Amazon物流大數(shù)據(jù)應用
1. 訂單與客戶服務中的大數(shù)據(jù)應用
2. 智能入庫管理技術
3. 智能揀貨和智能算法
16.4國際物流大數(shù)據(jù)應用
1. DHL
2. FedEx
3. FleetBoard
4. ConWayFreight
5. C.H.Robinson
6. FRA
16.5大數(shù)據(jù)的其他應用領域
1.大數(shù)據(jù)幫助企業(yè)挖掘市場機會,探尋細分市場
2.大數(shù)據(jù)提高決策能力
3.大數(shù)據(jù)創(chuàng)新企業(yè)管理模式,挖掘管理潛力
4.大數(shù)據(jù)變革商業(yè)模式,催生產品和服務的創(chuàng)新
第17章 大數(shù)據(jù)治理
17.1大數(shù)據(jù)治理的策略
1. 大數(shù)據(jù)治理的理解
2.在大數(shù)據(jù)治理的過程,應該遵循以下規(guī)則。
3.大數(shù)據(jù)治理存在的誤區(qū)
17.2元數(shù)據(jù)與主數(shù)據(jù)管理
1. 元數(shù)據(jù)
2. 主數(shù)據(jù)
3. 主數(shù)據(jù)和元數(shù)據(jù)的關系
4. 元數(shù)據(jù)管理,是數(shù)據(jù)治理的核心和基礎
17.3數(shù)據(jù)質量管理
1. 數(shù)據(jù)質量管理的目標
2. 數(shù)據(jù)質量問題產生的根源
3. 數(shù)據(jù)質量評估的標準
4. 數(shù)據(jù)質量管理的流程
5. 數(shù)據(jù)質量管理的取與舍
17.4數(shù)據(jù)標準管理
1. 大數(shù)據(jù)標準體系
2. 關于數(shù)據(jù)標準認識的幾個誤區(qū)
3. 數(shù)據(jù)標準的定義
4. 如何制定數(shù)據(jù)標準
5. 數(shù)據(jù)標準化的難題
6. 如何應對這些難題
7. 數(shù)據(jù)標準、主數(shù)據(jù)、元數(shù)據(jù)間的關系
17.5數(shù)據(jù)資產管理
1. 數(shù)據(jù)資產與數(shù)據(jù)資產管理的定義
2. 數(shù)據(jù)資產管理的現(xiàn)狀和挑戰(zhàn)
3. 數(shù)據(jù)資產管理的目標
4. 數(shù)據(jù)資產管理與數(shù)據(jù)治理的關系
17.6大數(shù)據(jù)治理發(fā)展之路
1. 零散化存放是數(shù)據(jù)問題根源
2. 大數(shù)據(jù)治理帶來全面解決之道
3. 大數(shù)據(jù)治理的商業(yè)價值
4. 高質量數(shù)據(jù)是企業(yè)業(yè)務創(chuàng)新、管理決策的基礎。
5. 標準化的數(shù)據(jù)是優(yōu)化商業(yè)模式、指導生產經營的前提
6. 多角度、全方位的數(shù)據(jù)是開展市場營銷、爭奪客戶資源的關鍵
17.7大數(shù)據(jù)治理的五個核心要素
17.8自服務大數(shù)據(jù)治理是解決問題之道
1. 建好數(shù)據(jù)管理體系,快速識別數(shù)據(jù)
2. 建立數(shù)據(jù)治理體系,監(jiān)控并快速發(fā)現(xiàn)問題
3. 建立數(shù)據(jù)應用體系,共享和高效使用數(shù)據(jù)
17.9大數(shù)據(jù)治理技術需要不斷革新
1. 管起來:數(shù)據(jù)資產的自動化采集、存儲技術
2. 有保障:數(shù)據(jù)質量探查和提升技術
3. 用起來:自助化數(shù)據(jù)服務構建技術
17.9如何選擇合適的大數(shù)據(jù)治理工具
1. 大數(shù)據(jù)治理的核心元數(shù)據(jù)管理工具
2. 大數(shù)據(jù)治理的實踐自助化數(shù)據(jù)服務平臺
17.10大數(shù)據(jù)治理在人工智能的作用
1. 數(shù)據(jù)治理
2. 數(shù)據(jù)建模
3. 數(shù)據(jù)采集
4. 數(shù)據(jù)匯聚
5. 分析配置
6. 數(shù)據(jù)展現(xiàn)
7. 建設意見
17.11區(qū)塊鏈和AI如何幫助主數(shù)據(jù)管理
1. 主數(shù)據(jù)管理的重要性
2. AI在主數(shù)據(jù)管理中的作用
3. 區(qū)塊鏈在保護主數(shù)據(jù)管理方面的作用