本書以電商網(wǎng)站中的用戶行為數(shù)據(jù)作為數(shù)據(jù)源,系統(tǒng)地介紹了如何使用 Spark生態(tài)系統(tǒng)進行大數(shù)據(jù)離線分析和實時分析的方法。全書共7章,分別講解了項目需求、項目架構、項目實現(xiàn)流程、大數(shù)據(jù)集群環(huán)境搭建、熱門品類Top10分析、各區(qū)域熱門商品Top3分析、網(wǎng)站轉化率統(tǒng)計、廣告點擊流實時統(tǒng)計和使用FineBI實現(xiàn)數(shù)據(jù)可視化。
本書附有配套視頻、教學PPT、教學設計等資源,同時,為了幫助初學者更好地學習本書中的內(nèi)容,還提供了在線答疑,歡迎讀者關注。
本書適合作為高等教育本科和?频臄(shù)據(jù)科學與大數(shù)據(jù)技術及相關專業(yè)的教材,也適合數(shù)據(jù)分析、數(shù)據(jù)可視化等領域的從業(yè)者閱讀。
本書以電商網(wǎng)站中的用戶行為數(shù)據(jù)為數(shù)據(jù)源,系統(tǒng)地介紹了如何使用Spark生態(tài)系統(tǒng)進行離線分析和實時分析的方法和步驟。全書共7章,分別講解了項目需求、項目架構、項目實現(xiàn)流程、搭建大數(shù)據(jù)集群環(huán)境、使用Spark Core和Spark SQL編寫離線分析的Spark程序、使用Structured Streaming編寫實時分析的Spark程序、使用HBase實現(xiàn)數(shù)據(jù)存儲和使用FineBI實現(xiàn)數(shù)據(jù)可視化。
本書附有配套視頻、教學PPT、教學設計等資源,同時,為了幫助初學者更好地學習本書中的內(nèi)容,還提供了在線答疑,歡迎讀者關注。
本書以項目驅(qū)動方式引導讀者學習并動手操作以提升大數(shù)據(jù)技能;從零到一,逐步引導讀者完成項目的開發(fā);通俗易懂,讓讀者能夠清楚地理解每個步驟的原理;融合了教材、資源、服務,方便教與學。
本書適用于高等教育本科和專科的數(shù)據(jù)科學與大數(shù)據(jù)技術及相關專業(yè)的教材,也適用于數(shù)據(jù)分析、數(shù)據(jù)可視化領域的從業(yè)者閱讀。
黨的二十大報告強調(diào)了加快發(fā)展數(shù)字經(jīng)濟,促進數(shù)字經(jīng)濟和實體經(jīng)濟深度融合,打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群的重要性。隨著云時代的來臨,移動互聯(lián)網(wǎng)、電子商務、物聯(lián)網(wǎng)以及社交媒體快速發(fā)展,全球的數(shù)據(jù)正在以幾何級速度呈爆發(fā)性增長,大數(shù)據(jù)吸引了越來越多人的關注,現(xiàn)在數(shù)據(jù)已經(jīng)成為與物質(zhì)資產(chǎn)和人力資本同樣重要的基礎生產(chǎn)要素。然而,數(shù)據(jù)的價值不僅與數(shù)據(jù)的數(shù)量有關,更與數(shù)據(jù)的質(zhì)量和分析有關。為了從海量的數(shù)據(jù)中提取有價值的信息,我們需要有效地收集、存儲、處理和分析數(shù)據(jù),以支持商業(yè)決策和社會發(fā)展。
本書基于第1版進行改版, 優(yōu)化原書內(nèi)容,并進行以下調(diào)整。
將項目實現(xiàn)語言更換為Scala,更好地發(fā)揮Spark的優(yōu)勢;
調(diào)整了部分需求的實現(xiàn)方式,增強了教學的實用性;
調(diào)整了知識講解的結構,更符合循序漸進的學習思路;
添加素質(zhì)教育的內(nèi)容,將素質(zhì)教育的內(nèi)容與專業(yè)知識有機結合。
本書以電商網(wǎng)站中的用戶行為數(shù)據(jù)作為數(shù)據(jù)源,系統(tǒng)地介紹了如何使用 Spark生態(tài)系統(tǒng)進行大數(shù)據(jù)離線分析和實時分析的方法,適合具備一定數(shù)據(jù)分析和大數(shù)據(jù)知識的讀者學習。全書共7章內(nèi)容,具體如下。
第1章旨在帶領讀者初步了解項目,包括項目需求、架構、開發(fā)流程等;
第2章詳細介紹大數(shù)據(jù)集群環(huán)境的搭建;
第3章講解使用Spark Core進行熱門品類Top10分析的方法;
第4章講解使用Spark Core進行各區(qū)域熱門商品Top3分析的方法;
第5章講解使用Spark SQL進行網(wǎng)站轉化率統(tǒng)計的方法;
第6章講解使用Structured Streaming進行廣告點擊流實時統(tǒng)計的方法;
第7章講解如何將存儲在HBase中的分析結果映射到Phoenix的表中,并通過FineBI實現(xiàn)數(shù)據(jù)可視化。
在實踐過程中,讀者可能會遇到各種問題,這是正常的。建議讀者在遇到問題時,不要輕易放棄,而要積極思考,梳理思路,分析問題的原因和解決方案,并在問題解決后,總結經(jīng)驗教訓,避免重復錯誤。
本書配套服務
為了提升您的學習或教學體驗,我們精心為本書配備了豐富的數(shù)字化資源和服務,包括在線答疑、教學大綱、教學設計、教學PPT、教學視頻、測試題、源代碼等。通過這些配套資源和服務,我們希望讓您的學習或教學變得更加高效。請掃描下方二維碼獲取本書配套資源和服務。
致謝
本書的編寫和整理工作由傳智教育完成,全體參編人員在編寫過程中付出了辛勤的勞動,除此之外還有很多試讀人員參與了本書的試讀工作并給出了寶貴的建議,在此一并表示由衷的感謝。意見反饋
本書難免有不妥之處,歡迎讀者提出寶貴意見。讀者在閱讀本書時,如發(fā)現(xiàn)任何問題或不認同之處,可以通過電子郵箱與編者聯(lián)系。請發(fā)送電子郵件至itcast_book@vip.sina.com。
傳智教育黑馬程序員
2025年1月于北京
第1章項目概述1
1.1項目需求和目標1
1.2預備知識2
1.3項目架構2
1.4開發(fā)環(huán)境和工具3
1.5項目開發(fā)流程4
1.6硬件要求6
1.7本章小結6
第2章搭建大數(shù)據(jù)集群環(huán)境7
2.1基礎環(huán)境搭建7
2.1.1創(chuàng)建虛擬機7
2.1.2安裝Linux操作系統(tǒng)16
2.1.3克隆虛擬機22
2.1.4配置虛擬機25
2.2安裝JDK39
2.3部署ZooKeeper集群41
2.4部署Hadoop集群46
2.5部署Spark52
2.6部署HBase集群55
2.7部署Kafka集群59
2.8本章小結61
第3章熱門品類Top10分析62
3.1數(shù)據(jù)集分析62
3.2實現(xiàn)思路分析63
3.3實現(xiàn)熱門品類Top10分析64
3.3.1環(huán)境準備64
3.3.2實現(xiàn)Spark程序72
3.3.3數(shù)據(jù)持久化76
3.4運行Spark程序80
3.5本章小結84
第4章各區(qū)域熱門商品Top3分析85
4.1實現(xiàn)思路分析85
4.2實現(xiàn)各區(qū)域熱門商品Top3分析86
4.2.1實現(xiàn)Spark程序86
4.2.2數(shù)據(jù)持久化89
4.3運行Spark程序90
4.4本章小結92
第5章網(wǎng)站轉化率統(tǒng)計93
5.1數(shù)據(jù)集分析93
5.2實現(xiàn)思路分析94
5.3實現(xiàn)網(wǎng)站轉化率統(tǒng)計95
5.3.1生成用戶行為數(shù)據(jù)95
5.3.2實現(xiàn)Spark程序96
5.3.3數(shù)據(jù)持久化102
5.4運行Spark程序103
5.5本章小結104
第6章廣告點擊流實時統(tǒng)計105
6.1數(shù)據(jù)集分析105
6.2實現(xiàn)思路分析105
6.3表設計106
6.4實現(xiàn)廣告點擊流實時統(tǒng)計107
6.4.1生成用戶行為數(shù)據(jù)107
6.4.2實現(xiàn)Spark程序110
6.4.3數(shù)據(jù)持久化114
6.5運行Spark程序116
6.6本章小結118
第7章數(shù)據(jù)可視化119
7.1數(shù)據(jù)映射119
7.1.1部署Phoenix119
7.1.2建立映射121
7.2FineBI的安裝與配置126
7.3實現(xiàn)數(shù)據(jù)可視化136
7.3.1新建數(shù)據(jù)集136
7.3.2實現(xiàn)熱門品類Top10的可視化142
7.3.3實現(xiàn)各區(qū)域熱門商品Top3的可視化147
7.3.4實現(xiàn)網(wǎng)站轉化率的可視化150
7.3.5實現(xiàn)廣告點擊流實時統(tǒng)計的可視化155
7.4本章小結159