本書系統(tǒng)闡述了Hadoop大數(shù)據(jù)技術應用實踐的原理、方法和應用相關知識,同時給出了每一章內(nèi)容對應的實現(xiàn)指令或源程序。全書共九章內(nèi)容。內(nèi)容由淺入深,分為基礎篇及提高篇兩部分,其中第1章到第4章為基礎篇,內(nèi)容涵蓋Hadoop初識簡介、Hadoop基礎環(huán)境搭建、分布式存儲HDFS介紹以及MapReduce編程模型等知識,提高篇包括Hadoop數(shù)據(jù)倉庫Hive、Hadoop數(shù)據(jù)庫Hbase、Pig語言、Hadoop項目案例以及Mahout項目案例等較深入的知識。本書理論結(jié)合實際,每一個章節(jié)都包含有相關內(nèi)容的實踐部分,以便讀者在了解相關知識后,能及時進行項目的實踐,有助于提高讀者動手實踐的能力。每章提供適量習題,進一步加深對內(nèi)容的理解。
前 言
大數(shù)據(jù)時代的到來,改變了許多行業(yè)的人才需求模式,大數(shù)據(jù)方面的人才成為各信息產(chǎn)業(yè)尤其是IT行業(yè)的熱門人才。許多高等院校已經(jīng)新增大數(shù)據(jù)技術相關專業(yè),部分院校成立了大數(shù)據(jù)學院,標志著進行大數(shù)據(jù)技術人才培養(yǎng)已經(jīng)正式納入高等教育的培養(yǎng)需求。基于Hadoop架構(gòu)搭建大數(shù)據(jù)分析環(huán)境是培養(yǎng)大數(shù)據(jù)人才的基本要求,《Hadoop大數(shù)據(jù)技術應用實踐》教材可作為大數(shù)據(jù)技術相關專業(yè)本科生及高職院校相關專業(yè)實踐類的教材,以為培養(yǎng)大數(shù)據(jù)技術相關人才打下堅實的基礎。
培養(yǎng)技術型及實踐型人才是大數(shù)據(jù)時代教育部對大數(shù)據(jù)技術相關人才的基本要求,也是各信息產(chǎn)業(yè)對人才的基本需求。編寫本書的目的就是要讓大數(shù)據(jù)技術相關專業(yè)學生通過本課程的學習,了解大數(shù)據(jù)技術的基礎知識,掌握基于Hadoop環(huán)境搭建大數(shù)據(jù)分析架構(gòu)的基本流程及實現(xiàn)過程,提高學習本課程的興趣,培養(yǎng)解決實際問題的能力。
本書最大的特色就是實踐性較強,在闡述大數(shù)據(jù)技術相關基礎知識的同時,輔以大量實踐內(nèi)容及項目實例,培養(yǎng)了學生的學習興趣,可極大提高學生的動手能力?朔嗽S多教材注重理論缺少實踐內(nèi)容的弊端。學生們可在課后,自己進一步動手實踐,提高了學生的學習效率。
本書主要以大數(shù)據(jù)技術及計算機相關專業(yè)的本科生及高職院校學生為讀者對象,注重大數(shù)據(jù)技術相關基礎知識,尤其是實踐環(huán)節(jié)的描述,避免了繁瑣的理論知識介紹。全書共包括9章,第1章是Hadoop初識簡介,第2章是Hadoop相關開源項目及偽分布式環(huán)境安裝,第3章是分布式存儲HDFS,第4章是MapReduce編程模型,第5章是Hadoop數(shù)據(jù)倉庫Hive,第6章是Hadoop數(shù)據(jù)庫HBase,第7章是Pig語言,第8章是Hadoop項目案例,第9章是Mahout項目案例。附錄部分是本書中出現(xiàn)過的專業(yè)名詞縮寫、全拼及中文解釋,按照英文字母順序排列,供大家學習時參考。
第1章到第4章屬于Hadoop基礎知識部分,在搭建Hadoop架構(gòu)時是必備的知識,第5章到第9章是提高部分,實際中可根據(jù)應用需要選擇學習。本書可以用作工科高校相關專業(yè)32-40學時的課程教程,其中第7章Pig語言及第9章Mahout項目案例可作為選學內(nèi)容。
本書由太原理工大學李鳳蓮教授、北京紅亞華宇科技有限公司鄭洪賓CEO任主編,由太原理工大學李彥民、遼寧大學馮勇、中國地質(zhì)大學吳湘寧、青海警官職業(yè)學院張志強、江蘇安全學院黃健任副主編,具體分工是:由馮勇、吳湘寧、張志強、黃健參與教材整體框架設計,由北京紅亞華宇科技有限公司提供實訓素材,由李鳳蓮教授完成教材第1,2,3,4,5,6,8及9章的編寫,太原理工大學李彥民完成教材第7章及附錄的編寫。本書在編寫及校對過程中,特別是項目實踐內(nèi)容驗證過程中,得到了北京紅亞華宇科技有限公司以及太原理工大學信息與計算機學院數(shù)字音視頻技術研究中心大數(shù)據(jù)課題組碩士生的大力幫助,在此表示衷心感謝。
由于編著者水平有限,書中難免存在錯誤之處,敬請讀者批評指正。
太原理工大學信息與計算機學院教師,博士,教授,碩士生導師。2012年以來,主持和參與山西省自然科學基金、博士后基金(面上資助)項目、山西省科技重大專項、山西省科技攻關計劃項目以及校教改項目等多項;獲批2017年教育部產(chǎn)學合作紅亞科技協(xié)同育人項目1項;為2013年科技部重點領域創(chuàng)新團隊核心成員; 2015年獲山西省科技進步二等獎一項,2016年獲煤炭工業(yè)協(xié)會三等獎一項。在Information Sciences等刊物發(fā)表SCI及EI收錄學術論文30余篇;獲批授權國家發(fā)明專利3項;申請國家發(fā)明專利9項,2016年以第一副主編參與編寫“十二五”規(guī)劃教材《數(shù)字語音處理及Matlab仿真》一部,2013年副主編參與編寫部委級規(guī)劃教材《電路分析基礎》1部;2010年參編兩本部委級規(guī)劃教材,指導研究生14名。
承擔課程:《電路分析基礎》、《可編程控制器原理》、《現(xiàn)代信號處理理論與方法》、《大數(shù)據(jù)技術與應用》