《社交大數據挖掘》緊緊圍繞社交媒體中的大數據問題,系統(tǒng)介紹了社交大數據的基本概念以及相關的大數據處理技術,重點介紹了網頁和媒體的大數據挖掘。《社交大數據挖掘》共分為14章,總體上可以分為三部分:第一部分包括第1章和第2章,介紹了社交大數據的基本概念和內涵,明晰了社交大數據與一般大數據的區(qū)別;第二部分為第3章至第9章,介紹了大數據處理中涉及的基本概念和技術方法,包括假設的定義、通過數據挖掘提出假設的方法,以及假設驗證的分析方法;第三部分為第10章至第14章,詳細介紹了社交大數據中的網頁和媒體數據挖掘技術、自然語言處理技術,以及社交大數據的應用!渡缃淮髷祿诰颉敷w系結構完整,內容關注于具有鮮明特色的社交媒體大數據,行文通俗易懂,同時兼具較好的理論參考價值、實用性和指導性!渡缃淮髷祿诰颉房蔀榫哂幸欢ㄏ嚓P專業(yè)基礎、對大數據感興趣的師生、工程師及其他專業(yè)人士提供參考。
原書前言當今時代,在科學界、互聯網以及物理系統(tǒng)中不斷產生大量的數據,這些數據統(tǒng)稱為數據洪流。根據IDC(互聯網數據中心)的研究,每年全世界產生和復制的數據估計有161EB。僅2011年產生的數據總量就超過了該年度可用存儲介質的存儲容量的10倍或更多。
科學和工程領域的專家通過觀察和分析目標現象會產生大量的數據,甚至普通人通過互聯網上的各種社交媒體也會自發(fā)發(fā)布大量的數據。此外,在真實世界中,人們通過物理系統(tǒng)檢測到的各種動作會無意識地產生數據。,這些數據通常被認為能夠產生有價值的信息。
在上述IDC的研究報告中,科學界、互聯網和物理系統(tǒng)中產生的數據統(tǒng)稱為大數據。
大數據的特點可以概括如下。
數量(Volume)大:正如它的名字所示,大數據的數量是非常大的。
種類(Variety)多:數據的種類可以擴展到非結構化文本、半結構化數據,比如網絡中的XML、圖表等。
速度(Velocity)快:如同推特(Twitter)和傳感器數據流的情況一樣,數據生成的速度非常快。
因此,大數據的特征通常用V3來表示,即數量、種類和速度這三個單詞的首字母。
人們期望大數據能夠有助于獲取科學知識,而且企業(yè)也能從中獲得價值。
“種類多”意味著大數據出現在各種各樣的應用中。大數據本質上包含“模糊性”
。╲agueness),比如它的不一致性和缺失等。為了獲得有價值的分析結果,就必須解決模糊性的問題。此外,最近在日本完成的一項調查顯示,很多用戶對“模糊性”的擔憂如同對大數據應用安全和機制的擔心一樣。解決這些問題是大數據應用能否成功推廣的一個關鍵。從這個意義上講,應該用V4而不是V3來描述大數據。
數據分析師也被稱作數據科學家。在大數據時代,需要越來越多的數據科學家,他們必備的技能包括以下方面:
·能夠構建一個假設·能夠驗證假設·挖掘社交數據以及通用Web數據的能力·能夠處理自然語言信息·能夠恰當地將數據和知識表示出來·能夠恰當地將數據和結果進行可視化·使用地理信息系統(tǒng)(Geographical Information Systems,GIS)的能力·了解各種各樣的應用程序·了解可擴展性的知識·了解和遵守與隱私和安全有關的道德和法律·能夠使用安全系統(tǒng)·能夠與客戶交流根據上述標準,本書的內容不一定很全面。然而,從社交大數據的角度來看,本書二要關注的是下述基本概念和相關技術:
·大數據和社交數據·假設的概念·用于做出假設的數據挖掘·用于驗證假設的多變量分析.Web挖掘和媒體挖掘·自然語言處理·社交大數據應用·可擴展性簡而言之,本書介紹了特征假設,它在社交大數據時代中具有越來越重要的地位,刖外,還介紹了分析技術,如社交大數據的建模、數據挖掘和多變量分析。本書與其他同婁書的不同之處在于,本書從學術基礎出發(fā),目的是描繪出社交大數據從基本概念到應用削全景。
希望本書能夠為那些對社交大數據感興趣的讀者所廣泛使用,包括學生、工程師、莽學家和其他專業(yè)人士。此外,我要深深感謝家人的大力支持。
石川博(Hiroshi Ishikawa)
譯者序
原書前言
第1章社交媒體
1. 1什么是社交媒體
1.2代表性社交媒體
1.2.1 Twitter一
1.2.2 Flickr
1.2.3 YouTube
1.2.4 Facebook
1.2.5維基百科
1.2.6通用網絡
1.2.7其他社交媒體
參考文獻
第2章大數據和社交數據
2.1 大數據
2.2物理真實世界與社交媒體的交互
2.3集成框架
2.4交互的建模和分析
2.5元分析模型——概念層
2.5.1面向對象的集成分析模型
2.5.2原始案例
2.6假設的生成和驗證——邏輯層
2.6.1多變量分析
2.6.2數據挖掘
2.6.3發(fā)現和識別影響
2.6.4影響的定量測量
2.7 興趣回顧——互動挖掘
2.8分布式并行計算框架
2. 8.1 NoSQL
2.8.2 MapReduce--種并行分布式計算的機制
2.8.3 Hadoop
參考文獻
第3章大數據時代的假設
3.1 什么是假設
3.2數據采樣
3.3假設驗證
3.4假設構建
3.4.1歸納法
3.4.2推理
3.4.3可信推理
3.4.4不明推論式
3.4.5相關性
3.4.6因果關系
3.4.7類比
3.4.8傳遞定律
3.5假設的粒度
3.6 對假設的重新審視
參考文獻
第4章社交大數據應用
4.1普通網頁與社交媒體之間作為分析主體的差異
4.2基于要素的社交媒體應用分類
4.3基于目標的社交媒體應用分類
4.4通過MiPS模型描
第5章數據挖掘中的基本概念
第6章關聯規(guī)則挖掘
第7章聚類
第8章分類
第9章預測
第10章Wep結構挖掘
第11章Wep內容挖掘
第12章Wep訪問日志挖掘 信息提取 深層Wep挖掘
第13章媒體挖掘
第14章可擴展性和異常檢測
附錄