《Spark大數據分析技術(Scala版)》系統(tǒng)介紹了Spark大數據技術的相關知識,內容包括Spark概述、Scala基礎編程、基于Scala的Spark編程、Windows環(huán)境下的Spark綜合編程、SparkSQL結構化數據處理、SparkStreaming流計算、SparkGraphX圖計算、SparkMLlib機器學習。
《Spark大數據分析技術(Scala版)》還給出了Spark大數據相關技術的許多編程示例與詳細注解。
《Spark大數據分析技術(Scala版)》可作為高等院校計算機、軟件工程、數據科學與大數據技術、智能科學與技術、人工智能等專業(yè)的大數據課程教材,也可供相關技術人員參考。
數據已成為國家基礎性戰(zhàn)略資源,大數據正逐漸對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理產生重要影響。2013年6月,Spark進入Apache成為孵化項目,8個月后成為Apache頂級項目。Spark因其先進的設計理念而迅速成為社區(qū)的熱門項目,隨著Spark的SparkSQL、SparkStreaming、MLlib和GraphX等組件被相繼推出,這些組件逐漸形成大數據處理一站式解決平臺。
Spark功能強大,涉及的知識面寬廣。本書用通俗易懂的語言闡述相關原理和操作,并給出了豐富的操作案例,同時將知識點講解與實際操作相結合,使讀者學以致用。
全書共8章,各章內容如下。
第1章為Spark概述。本章主要介紹Spark運行機制、Spark安裝及配置、SparkScala編程和SparkPython編程。
第2章為Scala基礎編程。本章對Scala進行概要介紹,主要包括Scala特性,Scala安裝,Scala基本數據類型,Scala常量和變量,Scala數組、列表、集合和映射,Scala控制結構,Scala函數,Scala類和Scala讀寫文件。
第3章為基于Scala的Spark編程。RDD是Spark的核心概念,本質上是一個只讀的分區(qū)記錄集合,每個分區(qū)是一個數據集片段。Spark基于Scala語言提供了對RDD的轉換操作和行動操作,通過這些操作可實現(xiàn)復雜的應用。本章主要介紹RDD的創(chuàng)建方法、RDD各種操作、RDD屬性、RDD持久化的方法以及如何使用Scala語言編寫Spark應用程序。
第4章為Windows環(huán)境下的Spark綜合編程。本章主要介紹如何在Windows系統(tǒng)上搭建Spark、Hadoop和Maven開發(fā)環(huán)境,并給出一個Spark綜合編程實例。
第5章為SparksoL結構化數據處理。SparksoL是Spark用來處理結構化數據的一個模塊,它提供了一個編程抽象,叫作DataFrame。本章主要介紹SparksoL與Shell交互、DataFrame對象的創(chuàng)建、DataFrame對象上的常用操作。
第6章為SparkStreaming流計算。本章首先介紹流計算的相關概念、SparkStreaming運行原理、SparkStreaming程序編寫步驟、StreamingContext對象的創(chuàng)建,然后介紹DStream的常用操作。
第1章 Spark概述
1.1 認識Spark
1.1.1 Spark的產生背景
1.1.2 Spark的優(yōu)點
1.1.3 Spark應用場景
1.1.4 Spark生態(tài)系統(tǒng)
1.2 Spark運行機制
1.2.1 Spark基本概念
1.2.2 Spark運行架構
1.2.3 Spark應用執(zhí)行的基本流程
1.3 Spark的安裝及配置
1.3.1 Spark安裝的基礎環(huán)境
1.3.2 下載安裝文件
1.3.3 單機模式配置
1.3.4 偽分布式模式配置
1.4 SparkScala編程
1.4.1 啟動SparkShell
1.4.2 退出SparkSheU
1.5 SparkPython編程
習題
第2章 Scala基礎編程
2.1 Scala特性
2.2 Windows環(huán)境下的Scala安裝
2.2.1 jdk安裝與環(huán)境變量配置
2.2.2 Scala安裝
2.3 聲明常量和變量
2.3.1 聲明常量
2.3.2 聲明變量
2.4 字符串
2.4.1 基本數據類型
2.4.2 運算符
2.4.3 字符串對象的常用方法
2.5 Scala控制結構
2.5.1 條件表達式
2.5.2 ifelse選擇結構
2.5.3 編寫Scala腳本
2.5.4 循環(huán)
2.6 Scala數組
2.6.1 數組的分類
2.6.2 遍歷數組
2.6.3 數組轉換
2.6.4 數組對象的常用方法
2.7 列表
2.7.1 不可變列表(List)創(chuàng)建
2.7.2 不可變列表(List)操作
2.7.3 可變列表ListBuffer
2.8 集合
2.8.1 不可變集合
2.8.2 可變集合
2.9 映射
2.9.1 不可變映射
2.9.2 可變映射
2.10 元組
2.10.1 元組常用操作
2.10.2 拉鏈操作
2.11 Scala函數
2.11.1 函數定義
2.11.2 匿名函數
2.11.3 高階函數
2.12 Scala模式匹配
2.13 Scala類
2.13.1 class類
2.13.2 Object對象
2.14 Scala讀寫文件
2.14.1 讀取文件
2.14.2 寫入文件
習題
……
第3章 基于Scala的Spark編程
第4章 Windows環(huán)境下的Spark綜合編程
第5章 SparkSQL結構化數據處理
第6章 SparkStreaming流計算
第7章 SparkGraphX圖計算
第8章 SparkMLlib機器學習
參考文獻