書單推薦 新書推薦 |
Python爬蟲大數(shù)據(jù)采集與挖掘 讀者對象:本書可以作為高等院校大數(shù)據(jù)、計算機、信息以及經(jīng)管、金融等相關專業(yè)的教材, 也可以作為大數(shù)據(jù)、計算機、信息以及經(jīng)管、金融等領域研究人員和專業(yè)技術人員的參考書
本書圍繞大數(shù)據(jù)采集與挖掘,對采集技術的相關基礎、技術原理、Python實現(xiàn)技術、大數(shù)據(jù)挖掘與應用方法進行了系統(tǒng)介紹。書中全面、完整地覆蓋了各種類型的網(wǎng)絡爬蟲及相關的信息處理挖掘技術,并提供了42個與爬蟲技術和應用相關的Python程序。全書共分為四大部分,即概述、基礎篇、技術與實現(xiàn)篇、大數(shù)據(jù)挖掘與應用篇。第一部分是概述,指出了利用Python采集互聯(lián)網(wǎng)大數(shù)據(jù)的重要性,介紹了相關技術研究、技術體系、Python爬蟲采集技術的合規(guī)性及應用現(xiàn)狀等;第二部分是基礎篇,包括Web服務器的應用架構以及HTTP、Robots、HTML、頁面編碼等相關協(xié)議和規(guī)范;第三部分是技術與實現(xiàn)篇,全面介紹了普通網(wǎng)絡爬蟲技術、動態(tài)頁面采集方法、主題爬蟲技術、DeepWeb爬蟲、微博信息采集、Web信息提取以及反爬蟲技術等,內(nèi)容涵蓋了各種爬蟲技術實現(xiàn)方法及Python例子;第四部分是大數(shù)據(jù)挖掘與應用篇,介紹了文本、情感、社交網(wǎng)絡和時間序列等典型大數(shù)據(jù)處理與挖掘技術及應用模式,并以新聞采集與分析、Web自動化測試、酒店評估文本挖掘為例介紹了Python爬蟲應用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。
你還可能感興趣
我要評論
|