7大數據陷阱的干貨總結與避坑錦囊,教會數據工作者如何在數據陷阱中迅速恢復,避免踩雷
數據陷阱無處不在,任何處理過數據的人都會在不知不覺中多次陷入其中。我們大多數人都還沒有學會如何使用現代工具和所掌握的數據類型,從而導致了一些本可以輕易避免的常見的錯誤。
在本書中,作者為我們展示了以下七種在數據處理過程中常見的數據陷阱:
陷阱 1:認知誤差——我們如何看待數據;
陷阱 2:技術陷阱——我們如何對數據進行處理;
陷阱 3:數學失誤——我們如何對數據進行計算;
陷阱 4:統計疏忽——我們如何對數據進行比較;
陷阱 5:分析偏差——我們如何對數據進行分析;
陷阱 6:繪圖烏龍——我們如何對數據進行可視化;
陷阱 7:設計風險——我們如何對數據進行修飾。
同時也向我們展示了這些數據陷阱是如何產生、如何變得如此常見的,指導我們如何從一開始就避免它們,并針對上述數據陷阱,提供了與之相對應的真實示例,以及數據可視化的實用指導。閱讀本書,你將:
·深入了解隨著我們對數據的依賴而增長的“數據與現實的差距”;
·了解如何使用正確的工具簡化可視化過程;
·避免數據分析、可視化和演示中的常見錯誤;
·創(chuàng)建并呈現清晰、準確、有效的數據可視化。
◆ 作者簡介
本·瓊斯
Data Literacy公司創(chuàng)始人兼首席執(zhí)行官,在華盛頓大學連續(xù)學院教授數據可視化。著有《用Tableau交流數據》(Communicating Data with Tableau)和《數據素養(yǎng)的17個關鍵特征》(17 Key Traits of Data Literacy)。憑借20多年的機械工程師、持續(xù)改進項目負責人和導師以及商業(yè)智能營銷人員的工作經驗,他學到很多關于處理數據時應該做什么和不應該做什么的知識。
◆ 譯者簡介
陳天皓
工商管理和信息技術雙碩士,項目管理專業(yè)人士。曾譯有《商業(yè)儀表盤可視化解決方案》《人類未來進化史》等書,長期關注科技發(fā)展趨勢與數據應用領域。
段力鱺
香港城市大學統計學碩士,深耕大數據挖掘與分析領域,曾分別于英國保誠(亞洲總部)、平安壽險總部擔任數據科學家,F就職于沃爾瑪中國,擔任商業(yè)分析經理。
步凡
北京大學數學科學學院本科,美國杜克大學統計學博士,F任美國加州大學洛杉磯分校(UCLA)博士后研究員。主要研究方向為貝葉斯統計、隨機過程模型、傳染病動力模型等。
第1章 七類數據陷阱 / 1
七種特定類型的數據陷阱 / 5
避免七種數據陷阱 / 9
“我掉進陷阱里,爬不出來了” / 10
第2章 陷阱 1: 認知誤差 / 13
我們如何看待數據 / 15
陷阱 1A:數據與現實的差距 / 16
陷阱 1B:過度依賴手工的數據 / 26
陷阱 1C:前后矛盾的評分 / 34
陷阱 1D:黑天鵝陷阱 / 42
陷阱 1E:可證偽性與上帝陷阱 / 45
避免天鵝陷阱和上帝陷阱 / 47
第3章 陷阱 2:技術陷阱 / 51
我們如何對數據進行處理 / 53
陷阱 2A:臟數據 / 54
陷阱 2B:糟糕的混合和連接 / 73
第4章 陷阱 3:數學失誤 / 77
我們如何對數據進行計算 / 79
陷阱 3A:多重匯總 / 80
陷阱 3B:缺失值 / 86
陷阱 3C:匯總數 / 91
陷阱 3D:荒謬的百分比 / 96
陷阱 3E:不匹配的單位 / 102
第5章 陷阱 4:統計疏忽 / 107
我們如何對數據進行比較 / 109
陷阱 4A:描述性錯誤 / 111
陷阱 4B:推斷陷阱 / 131
陷阱 4C:狡猾的抽樣 / 135
陷阱 4D:對樣本量不敏感 / 142
第6章 陷阱 5:分析偏差 / 147
我們如何對數據進行分析 / 149
陷阱 5A:錯誤地認為直覺和分析相互對立 / 150
陷阱 5B:浮夸的外推 / 158
陷阱 5C:欠考慮的插值 / 163
陷阱 5D:不靠譜的預測 / 166
陷阱 5E:不過腦子的衡量指標 / 168
第7章 陷阱 6:繪圖烏龍 / 175
我們如何對數據進行可視化 / 177
陷阱 6A:棘手的圖表 / 179
陷阱 6B:數據教條主義 / 204
陷阱 6C:錯誤地認為“最優(yōu)”和“滿意”相互對立 / 209
第8章 陷阱 7:設計風險 / 215
我們如何對數據進行修飾 / 217
陷阱 7A:令人困惑的顏色 / 219
陷阱 7B:遺漏的機會 / 224
陷阱 7C:可用性 / 230
第9章 結語 / 239
避免陷入數據陷阱的檢查單 / 245
“未被聽見的聲音”陷阱 / 247
譯者后記 / 251