SAS數(shù)據(jù)挖掘與分析項(xiàng)目實(shí)戰(zhàn)
定 價(jià):79.8 元
本書講述了在實(shí)際運(yùn)營(yíng)中核心的數(shù)據(jù)挖掘分析案例,為讀者重點(diǎn)展示了SAS在精準(zhǔn)營(yíng)銷、客戶流失預(yù)警、客戶分群、廣告點(diǎn)擊、信用卡欺詐、信用風(fēng)險(xiǎn)評(píng)分等領(lǐng)域中的具體應(yīng)用。 本書分為16章,以數(shù)據(jù)挖掘基礎(chǔ)知識(shí)介紹開(kāi)始,循序漸進(jìn)地講述了Kaggle數(shù)據(jù)科學(xué)社區(qū)調(diào)查數(shù)據(jù)分析、考察汽車耗油量與里程數(shù)的關(guān)系分析、影響汽車銷售的關(guān)鍵因子分析、健身運(yùn)動(dòng)中耗氧量回歸分析、旅客量預(yù)測(cè)分析、客戶群分類判別分析、銷售公司的客戶分群、員工離職預(yù)測(cè)、廣告點(diǎn)擊率預(yù)測(cè)、產(chǎn)品精準(zhǔn)營(yíng)銷模型、電信客戶流失預(yù)警、銀行貸款用戶風(fēng)險(xiǎn)分析、信用風(fēng)險(xiǎn)評(píng)分卡的開(kāi)發(fā)以及信用卡反欺詐預(yù)測(cè)模型等案例。后一章介紹了與數(shù)據(jù)挖掘項(xiàng)目中的時(shí)間成本有較大關(guān)系的SAS數(shù)據(jù)清洗的相關(guān)技術(shù)。 本書案例豐富,實(shí)用性較強(qiáng),特別適合從事數(shù)據(jù)挖掘、統(tǒng)計(jì)建模、機(jī)器學(xué)習(xí)、商業(yè)分析、運(yùn)營(yíng)分析等工作的人員使用,也可作為數(shù)學(xué)、統(tǒng)計(jì)學(xué)、金融管理、計(jì)算機(jī)等專業(yè)的學(xué)生學(xué)習(xí)SAS數(shù)據(jù)挖掘應(yīng)用的參考書籍。
本書的特色 案例豐富:本書不空講SAS語(yǔ)法和模型算法,以大量企業(yè)實(shí)際案例、清晰簡(jiǎn)明的解釋以及盡可能少的專用術(shù)語(yǔ)來(lái)介紹SAS的實(shí)際應(yīng)用。 內(nèi)容全面:覆蓋企業(yè)中的熱點(diǎn)應(yīng)用案例,比如精準(zhǔn)營(yíng)銷、流失預(yù)警、客戶分群、信用評(píng)分、廣告點(diǎn)擊率預(yù)測(cè)等。如果讀者是公司的數(shù)據(jù)分析師,則可以直接參考案例進(jìn)行相關(guān)模型研發(fā)。 較新的軟件版本:以SAS 94軟件版本,向讀者介紹如何使用SAS進(jìn)行數(shù)據(jù)挖掘項(xiàng)目的開(kāi)發(fā)工作。 配備數(shù)據(jù)和源代碼:提供所有案例的數(shù)據(jù)文件和SAS源代碼,供讀者操作練習(xí)、快速學(xué)習(xí)。 學(xué)習(xí)路線圖清晰:每個(gè)案例均按照數(shù)據(jù)挖掘項(xiàng)目的一般工作流程逐步展開(kāi)。
這個(gè)技術(shù)有什么前途 隨著大數(shù)據(jù)、人工智能的發(fā)展,無(wú)論是阿里巴巴、騰訊、百度還是母嬰店、超市,不同的企業(yè)都在嘗試?yán)么髷?shù)據(jù)、人工智能技術(shù)提升企業(yè)的運(yùn)營(yíng)決策效率、降低管理費(fèi)用,同時(shí)擴(kuò)大業(yè)務(wù)范圍。作為人工智能主要內(nèi)容的數(shù)據(jù)挖掘技術(shù),一直緊跟時(shí)代潮流,在企業(yè)的運(yùn)營(yíng)決策中發(fā)揮著越來(lái)越大的作用。 作為非常常用的商業(yè)數(shù)據(jù)挖掘軟件SAS,也緊跟大數(shù)據(jù)、人工智能的發(fā)展,不斷創(chuàng)新。從1960年至今,經(jīng)過(guò)幾十年的完善和發(fā)展,SAS系統(tǒng)在業(yè)內(nèi)被公認(rèn)為統(tǒng)計(jì)分析的標(biāo)準(zhǔn)軟件,在零售、制造、銀行、保險(xiǎn)、通信、互聯(lián)網(wǎng)、教育、醫(yī)學(xué)、新聞媒體等領(lǐng)域得到廣泛應(yīng)用;诋(dāng)前大數(shù)據(jù)、人工智能的發(fā)展,以及SAS在數(shù)據(jù)挖掘領(lǐng)域的地位及廣泛應(yīng)用,如果你是數(shù)據(jù)分析行業(yè)里的新人,筆者建議要首先學(xué)會(huì)使用SAS,它很好操作,并且市場(chǎng)占有率非常高。對(duì)于數(shù)據(jù)挖掘領(lǐng)域里的專業(yè)人士,如果至少需要掌握兩種工具,首先建議掌握SAS軟件。 筆者的使用體會(huì) SAS功能強(qiáng)大,統(tǒng)計(jì)方法齊、全、新。SAS提供了從基本的描述性統(tǒng)計(jì)分析到各種試驗(yàn)設(shè)計(jì)的方差分析、相關(guān)回歸分析、因子分析、聚類分析、時(shí)間序列分析等多種統(tǒng)計(jì)分析,幾乎囊括了所有很前沿的分析方法,其分析技術(shù)先進(jìn)、可靠,分析方法的實(shí)現(xiàn)通過(guò)過(guò)程調(diào)用完成,許多過(guò)程同時(shí)提供了多種算法和選項(xiàng)。 使用簡(jiǎn)便,操作靈活。SAS以一個(gè)通用的數(shù)據(jù)(DATA)產(chǎn)生數(shù)據(jù)集,可以通過(guò)不同的過(guò)程調(diào)用完成各種數(shù)據(jù)分析挖掘過(guò)程。SAS編程語(yǔ)句簡(jiǎn)潔、短小,通常只需很少的幾個(gè)語(yǔ)句即可完成一些復(fù)雜的運(yùn)算,得到滿意的結(jié)果。 SAS有可在 DATA 和 PROC 使用的大量函數(shù)和自定義函數(shù),功能非常強(qiáng)大,也可以作為被DATA和PROC使用的宏語(yǔ)言。 SAS 的軟件及算法都是經(jīng)過(guò)檢驗(yàn)的,專業(yè)的醫(yī)學(xué)生物數(shù)據(jù)統(tǒng)計(jì)一般只使用SAS軟件。 SAS非常容易上手,如果你會(huì)SQL,則可以立即上手使用SAS。SAS提供了豐富的統(tǒng)計(jì)功能,其友好的GUI界面可以讓分析師快速上手,并且得到很好的技術(shù)支持。 在商業(yè)分析領(lǐng)域,SAS是無(wú)可爭(zhēng)辯的行業(yè)領(lǐng)導(dǎo)者,就全球而言,SAS仍然是公司和機(jī)構(gòu)中使用最多的數(shù)據(jù)分析工具之一,尤其是大型金融公司。 本書的特色 案例豐富:本書不空講SAS語(yǔ)法和模型算法,以大量企業(yè)實(shí)際案例、清晰簡(jiǎn)明的解釋以及盡可能少的專用術(shù)語(yǔ)來(lái)介紹SAS的實(shí)際應(yīng)用。 內(nèi)容全面:覆蓋企業(yè)中的熱點(diǎn)應(yīng)用案例,比如精準(zhǔn)營(yíng)銷、流失預(yù)警、客戶分群、信用評(píng)分、廣告點(diǎn)擊率預(yù)測(cè)等。如果讀者是公司的數(shù)據(jù)分析師,則可以直接參考案例進(jìn)行相關(guān)模型研發(fā)。 較新的軟件版本:以SAS 94軟件版本,向讀者介紹如何使用SAS進(jìn)行數(shù)據(jù)挖掘項(xiàng)目的開(kāi)發(fā)工作。 配備數(shù)據(jù)和源代碼:提供所有案例的數(shù)據(jù)文件和SAS源代碼,供讀者操作練習(xí)、快速學(xué)習(xí)。 學(xué)習(xí)路線圖清晰:每個(gè)案例均按照數(shù)據(jù)挖掘項(xiàng)目的一般工作流程逐步展開(kāi)。
尚濤,畢業(yè)于上海交通大學(xué)數(shù)學(xué)系,擁有數(shù)學(xué)專業(yè)碩士學(xué)位,研究方向?yàn)閿?shù)據(jù)挖掘及機(jī)器學(xué)習(xí)領(lǐng)域,曾任職于支付平臺(tái)、平安科技、易方達(dá)基金,現(xiàn)任職于南方基金,專注于信用風(fēng)險(xiǎn)評(píng)分、精準(zhǔn)營(yíng)銷、推薦系統(tǒng)、文本挖掘等領(lǐng)域數(shù)據(jù)挖掘項(xiàng)目的研發(fā)工作以及企業(yè)的數(shù)據(jù)化運(yùn)營(yíng)落地工作,擁有超過(guò)10年數(shù)據(jù)挖掘和優(yōu)化建模的經(jīng)驗(yàn),以及多年使用SPSS、SAS、R、Python等建模軟件的經(jīng)驗(yàn)。在從業(yè)經(jīng)歷中,多次為所在公司的業(yè)務(wù)方提供數(shù)據(jù)挖掘技術(shù)服務(wù),成功實(shí)施了眾多深受好評(píng)的數(shù)據(jù)挖掘項(xiàng)目,取得了較好的業(yè)務(wù)價(jià)值。
第1章數(shù)據(jù)挖掘知識(shí)介紹 11數(shù)據(jù)挖掘算法簡(jiǎn)介 111分類 112聚類 113關(guān)聯(lián) 114預(yù)測(cè) 12分類模型的相關(guān)概念 121數(shù)據(jù)說(shuō)明 122混淆矩陣 123ROC曲線和AUC面積 124提升(Lift) 125KS曲線 13數(shù)據(jù)挖掘過(guò)程中關(guān)鍵問(wèn)題處理 131數(shù)據(jù)準(zhǔn)備 132定義變量及數(shù)據(jù)抽樣 133變量選擇 134缺失值處理 135模型比較 14SAS STAT介紹 第2章Kaggle數(shù)據(jù)科學(xué)社區(qū)調(diào)查分析 21描述性統(tǒng)計(jì)分析的主要內(nèi)容 211數(shù)據(jù)的頻數(shù)分析 212數(shù)據(jù)的集中趨勢(shì)分析 213數(shù)據(jù)的離散程度分析 214數(shù)據(jù)的分布 215繪制統(tǒng)計(jì)圖 22SAS描述性分析過(guò)程介紹 221PROC FREQ過(guò)程 222PROC MEANS過(guò)程 223PROC UNIVARIATE過(guò)程 23調(diào)查數(shù)據(jù)說(shuō)明 24數(shù)據(jù)探索 25Kaggle社區(qū)用戶畫像分析 251人員屬性 252工作屬性 253技能屬性 254學(xué)習(xí)屬性 第3章考察汽車耗油量與里程數(shù)的關(guān)系 31項(xiàng)目背景 32非線性回歸簡(jiǎn)介 33非線性回歸過(guò)程說(shuō)明 34廣義線性模型過(guò)程 35數(shù)據(jù)文件說(shuō)明 36數(shù)據(jù)探索 37模型建立 38結(jié)果分析 第4章影響汽車銷售的關(guān)鍵因子分析 41數(shù)據(jù)說(shuō)明 42因子分析的基本原理 421因子分析模型 422因子旋轉(zhuǎn) 423計(jì)算因子得分 43因子分析的步驟和SAS過(guò)程 431因子分析的步驟 432FACTOR過(guò)程說(shuō)明 44模型開(kāi)發(fā)及結(jié)果解釋 45主成分分析和因子分析的區(qū)別 第5章健身運(yùn)動(dòng)中耗氧量回歸分析 51線性回歸模型 52REG過(guò)程 521過(guò)程選項(xiàng) 522MODEL語(yǔ)句選項(xiàng) 523關(guān)鍵字選項(xiàng) 524PLOT語(yǔ)句選項(xiàng) 53數(shù)據(jù)說(shuō)明 54相關(guān)性分析 55回歸分析 56逐步回歸 561逐步回歸過(guò)程 562利用逐步回歸選擇變量 第6章旅客量預(yù)測(cè)分析 61項(xiàng)目背景 62數(shù)據(jù)文件說(shuō)明 63平穩(wěn)隨機(jī)過(guò)程概述 631自回歸模型 632滑動(dòng)平均模型 633自回歸滑動(dòng)平均模型 64ARMA模型的識(shí)別 641基于相關(guān)函數(shù)的定階方法 642利用信息準(zhǔn)則法定階 65模型參數(shù)的估計(jì) 66時(shí)間序列的分析步驟 67SAS系統(tǒng)的ARIMA過(guò)程 671ARIMA語(yǔ)句選項(xiàng) 672IDENTIFY語(yǔ)句選項(xiàng) 673ESTIMATE語(yǔ)句選項(xiàng) 674FORECAST語(yǔ)句選項(xiàng) 675ARIMA建模過(guò)程 68數(shù)據(jù)探索 681平穩(wěn)性檢驗(yàn) 682序列變換 69自相關(guān)函數(shù)檢驗(yàn) 610模型參數(shù)估計(jì) 611預(yù)測(cè) 第7章客戶群分類判別分析 71業(yè)務(wù)背景及數(shù)據(jù)說(shuō)明 72判別分析的數(shù)學(xué)原理 73判別分析的SAS過(guò)程 731DISCRIM過(guò)程 732CANDISC過(guò)程 733STEPDISC過(guò)程 74數(shù)據(jù)探索 75客戶群判別模型建立 76模型應(yīng)用 第8章銷售公司的客戶分群分析 81項(xiàng)目背景 811客戶細(xì)分的概念 812客戶細(xì)分模型 813客戶細(xì)分模型的基本流程 814細(xì)分方法介紹 82聚類分析的數(shù)學(xué)原理 821聚類的數(shù)學(xué)原理 822距離和相似距離 823聚類方法 824聚類數(shù)的確定 825聚類分析步驟 83SAS中的聚類過(guò)程 831Cluster系統(tǒng)聚類過(guò)程 832Fastclus快速聚類過(guò)程 833Varclus方差聚類過(guò)程 834Tree聚類樹型輸出過(guò)程 84數(shù)據(jù)文件說(shuō)明 85數(shù)據(jù)探索 851變量衍生 852變量標(biāo)準(zhǔn)化 853變量相關(guān)性分析 86模型建立 87客戶畫像分析 88模型應(yīng)用 第9章員工離職預(yù)測(cè) 91項(xiàng)目背景 92數(shù)據(jù)說(shuō)明 93數(shù)據(jù)探索 94數(shù)據(jù)建模 941變量相關(guān)分析 942決策樹建模 95模型評(píng)估與應(yīng)用 第10章廣告點(diǎn)擊率預(yù)測(cè) 101業(yè)務(wù)背景 1011網(wǎng)絡(luò)廣告發(fā)展情況 1012計(jì)算廣告學(xué) 102數(shù)據(jù)說(shuō)明 103數(shù)據(jù)不平衡的處理方式 1031收集更多的數(shù)據(jù) 1032改變模型性能評(píng)價(jià)指標(biāo) 1033重新對(duì)樣本進(jìn)行采樣 104模型開(kāi)發(fā)與評(píng)估 1041樣本欠抽樣 1042模型開(kāi)發(fā) 1043模型評(píng)估 105CTR模型的發(fā)展脈絡(luò) 第11章產(chǎn)品精準(zhǔn)營(yíng)銷推薦 111項(xiàng)目背景 1111業(yè)務(wù)背景 1112數(shù)據(jù)說(shuō)明 1113項(xiàng)目目標(biāo) 112數(shù)據(jù)探索 1121變量描述性統(tǒng)計(jì)分析 1122變量缺失值處理 1123變量衍生處理 113模型建設(shè) 1131欠抽樣 1132數(shù)據(jù)集分割 1133模型開(kāi)發(fā) 1134模型評(píng)估 114模型應(yīng)用 1141產(chǎn)品自動(dòng)化推薦系統(tǒng) 1142易受到市場(chǎng)環(huán)境等各種因素的影響 1143人群特征漂移需要不斷優(yōu)化模型 第12章通信客戶流失預(yù)警模型 121項(xiàng)目背景 1211客戶流失分析要解決的問(wèn)題 1212分析客戶流失的類型 1213如何進(jìn)行客戶流失分析 122數(shù)據(jù)說(shuō)明 123因變量定義 124樣本抽取 125數(shù)據(jù)探索 126模型開(kāi)發(fā) 1261變量衍生 1262變量選擇 1263相關(guān)性處理 1264模型結(jié)果 127模型評(píng)估 1271開(kāi)發(fā)樣本上的模型性能 1272驗(yàn)證樣本上的模型性能 128模型應(yīng)用 第13章銀行貸款用戶風(fēng)險(xiǎn)分析 131案例背景 132因變量定義 133樣本抽取 134數(shù)據(jù)探索 1341為什么要進(jìn)行數(shù)據(jù)探索 1342數(shù)據(jù)分布情況 135模型建設(shè) 1351變量衍生 1352變量選擇 1353共線性處理 1354模型結(jié)果 136模型性能評(píng)估 1361開(kāi)發(fā)樣本上的模型性能 1362驗(yàn)證樣本上的模型性能 137模型應(yīng)用 第14章信用風(fēng)險(xiǎn)評(píng)分卡開(kāi)發(fā) 141信用評(píng)分模型簡(jiǎn)介 142信用卡模型的開(kāi)發(fā)過(guò)程 143案例背景及項(xiàng)目目標(biāo)確定 1431項(xiàng)目背景說(shuō)明 1432確定項(xiàng)目目標(biāo) 144數(shù)據(jù)獲取 145數(shù)據(jù)質(zhì)量檢驗(yàn) 146項(xiàng)目參數(shù)設(shè)定 1461排除規(guī)則確定 1462表現(xiàn)和觀察窗口 1463確定“壞”的定義 1464滾動(dòng)率分析 1465客戶分群 147數(shù)據(jù)探索 1471數(shù)據(jù)分布分析 1472缺失值的處理 1473極端值的處理 148模型開(kāi)發(fā) 1481證據(jù)權(quán)重(WOE) 1482信息值(IV) 1483變量選擇 1484變量分組 1485變量相關(guān)性分析 1486模型迭代開(kāi)發(fā) 149模型評(píng)估 1491混淆矩陣 1492KS統(tǒng)計(jì)量 1493ROC曲線 1410評(píng)分卡創(chuàng)建 14101評(píng)分尺度變換 14102變量分值分配 1411評(píng)分卡實(shí)施 1412監(jiān)測(cè)與報(bào)告 1413拒絕推斷 1414運(yùn)用評(píng)分卡需要注意的事項(xiàng) 第15章信用卡反欺詐預(yù)測(cè)模型 151信用卡欺詐概述 1511信用卡欺詐的種類 1512智能反欺詐管理 1513其他反欺詐技術(shù) 152案例背景 153數(shù)據(jù)探索 154模型開(kāi)發(fā) 1541不使用分層抽樣策略 1542使用分層抽樣策略 155總結(jié) 第16章SAS數(shù)據(jù)清洗技術(shù) 161數(shù)據(jù)清洗簡(jiǎn)介 1611數(shù)據(jù)清洗 1612數(shù)據(jù)探索 162數(shù)據(jù)導(dǎo)入 1621讀入數(shù)據(jù)到SAS系統(tǒng)的方法 1622指定數(shù)據(jù)文件的位置 1623讀入由空格分隔的原始數(shù)據(jù) 1624讀入列對(duì)齊的原始數(shù)據(jù) 1625讀入非標(biāo)準(zhǔn)格式的數(shù)據(jù) 1626讀入一個(gè)觀測(cè)占據(jù)多行的數(shù)據(jù)文件 1627讀入原數(shù)據(jù)文件的一部分 1628IMPORT過(guò)程讀入分隔數(shù)據(jù)文件 163數(shù)據(jù)格式處理 164SAS函數(shù) 1641字符函數(shù) 1642數(shù)值函數(shù) 165缺失值處理 166數(shù)據(jù)抽樣 1661等比例分層抽樣 1662不等比例分層抽樣 1663分層抽樣