本書講解了大數(shù)據(jù)系統(tǒng)運(yùn)行維護(hù)過(guò)程中的各個(gè)主要階段及其任務(wù), 包括配置管理、基礎(chǔ)運(yùn)維管理、故障管理、性能管理、安全管理、高可用性管理、變更及升級(jí)管理、運(yùn)維場(chǎng)景應(yīng)用及服務(wù)資源管理, 內(nèi)容全面且翔實(shí), 兼具基礎(chǔ)理論知識(shí)與運(yùn)維實(shí)踐經(jīng)驗(yàn), 特別是重點(diǎn)介紹了大數(shù)據(jù)系統(tǒng)的運(yùn)維特點(diǎn)及運(yùn)維技能, 以保障大數(shù)據(jù)系統(tǒng)的穩(wěn)定可靠運(yùn)行, 更好地支撐大數(shù)據(jù)的商業(yè)應(yīng)用價(jià)值。
第 1 章 配置管理
1.1 配置管理內(nèi)容 2
1.1.1 配置管理術(shù)語(yǔ)定義 2
1.1.2 應(yīng)用軟件配置 3
1.1.3 硬件配置 3
1.2 配置管理方法 7
1.2.1 配置流程 7
1.2.2 配置自動(dòng)發(fā)現(xiàn) 11
1.3 配置管理工具 11
1.3.1 CMDB 數(shù)據(jù)庫(kù)介紹與實(shí)踐 11
1.3.2 自動(dòng)配置工具 14
1.3.3 云時(shí)代下的 CMDB 24
1.4 其他運(yùn)維工具 24
1.4.1 Ambari 24
1.4.2 CLI 工具 26
1.4.3 Ganglia 27
1.4.4 Cloudera Manager 28
1.4.5 其他工具 31
1.5 作業(yè)與練習(xí) 32
參考文獻(xiàn) 32
第 2 章 基礎(chǔ)運(yùn)維管理
2.1 系統(tǒng)建設(shè) 33
2.1.1 技術(shù)方案 34
2.1.2 部署實(shí)施 35
2.1.3 測(cè)試驗(yàn)收 39
2.2 系統(tǒng)管理對(duì)象 40
2.2.1 系統(tǒng)管理對(duì)象 40
2.2.2 系統(tǒng)軟件 40
2.2.3 系統(tǒng)硬件 42
2.2.4 系統(tǒng)數(shù)據(jù) 43
2.2.5 IT 供應(yīng)商 43
2.3 系統(tǒng)管理內(nèi)容 44
2.3.1 事件管理 45
2.3.2 問(wèn)題管理 45
2.3.3 配置管理 46
2.3.4 變更管理 46
2.3.5 發(fā)布管理 47
2.3.6 知識(shí)管理 47
2.3.7 日志管理 48
2.3.8 備份管理 48
2.4 系統(tǒng)管理工具 49
2.4.1 資產(chǎn)管理 49
2.4.2 監(jiān)控管理 49
2.4.3 流程管理 50
2.4.4 外包管理 51
2.5 系統(tǒng)管理制度規(guī)范 51
2.5.1 系統(tǒng)管理標(biāo)準(zhǔn) 51
2.5.2 系統(tǒng)管理制度 51
2.5.3 系統(tǒng)管理規(guī)范 52
2.6 日常巡檢 52
2.6.1 檢查內(nèi)容分類 52
2.6.2 巡檢方法分類 53
2.6.3 巡檢流程 54
2.7 日志管理 54
2.7.1 平臺(tái)及組件相關(guān)命令 55
2.7.2 日志和告警監(jiān)控 62
2.8 作業(yè)與練習(xí) 67
參考文獻(xiàn) 68
第 3 章 故障管理
3.1 集群結(jié)構(gòu) 69
3.2 故障報(bào)告 70
3.2.1 故障發(fā)現(xiàn) 70
3.2.2 影響分析 71
3.3 故障處理 72
3.3.1 故障診斷 72
3.3.2 故障排除 73
3.4 故障后期管理 74
3.4.1 建立和更新知識(shí)庫(kù) 74
3.4.2 故障預(yù)防 74
3.5 作業(yè)與練習(xí) 75
參考文獻(xiàn) 75
第 4 章 性能管理
4.1 性能分析 76
4.1.1 性能因子 76
4.1.2 性能指標(biāo) 77
4.2 性能監(jiān)控工具 78
4.2.1 GUI 79
4.2.2 集群 CLI 82
4.2.3 操作系統(tǒng)自帶工具 87
4.2.4 Ganglia 92
4.2.5 其他監(jiān)控工具 95
4.3 性能優(yōu)化 95
4.3.1 Hadoop 集群配置規(guī)劃優(yōu)化 95
4.3.2 Hadoop 性能優(yōu)化 96
4.3.3 作業(yè)優(yōu)化 100
4.4 作業(yè)與練習(xí) 108
參考文獻(xiàn) 108
第 5 章 安全管理
5.1 安全概述 109
5.2 資產(chǎn)安全管理 110
5.2.1 環(huán)境設(shè)施安全 110
5.2.2 設(shè)備安全 110
5.3 應(yīng)用安全 111
5.3.1 技術(shù)安全 111
5.3.2 數(shù)據(jù)安全 114
5.4 安全威脅 115
5.4.1 人為失誤 115
5.4.2 外部攻擊 116
5.4.3 信息泄密 122
5.4.4 災(zāi)害 122
5.5 安全措施 123
5.5.1 安全制度規(guī)范 123
5.5.2 安全防范措施 123
5.6 作業(yè)與練習(xí) 124
參考文獻(xiàn) 124
第 6 章 高可用性管理
6.1 高可用性概述 125
6.2 高可用性技術(shù) 126
6.2.1 系統(tǒng)架構(gòu) 126
6.2.2 容災(zāi) 128
6.2.3 監(jiān)控 128
6.2.4 故障轉(zhuǎn)移 134
6.3 業(yè)務(wù)連續(xù)性管理 134
6.3.1 災(zāi)備系統(tǒng) 134
6.3.2 應(yīng)急預(yù)案 138
6.3.3 日常演練 138
6.4 作業(yè)與練習(xí) 139
參考文獻(xiàn) 139
第 7 章 變更及升級(jí)管理
7.1 變更管理概述 140
7.1.1 變更管理目標(biāo) 140
7.1.2 變更管理范圍 140
7.1.3 變更管理的種類 140
7.1.4 變更管理的原則 141
7.2 變更管理流程 141
7.2.1 變更的組織架構(gòu) 141
7.2.2 變更的管理策略 141
7.2.3 變更的流程控制 142
7.2.4 變更管理流程 142
7.3 變更配置管理 144
7.4 通用系統(tǒng)升級(jí)流程 144
7.4.1 業(yè)務(wù)數(shù)據(jù)集環(huán)境備份 144
7.4.2 系統(tǒng)升級(jí)部署的常用策略(藍(lán)綠/滾動(dòng)/灰度) 145
7.4.3 業(yè)務(wù)服務(wù)驗(yàn)證 146
7.4.4 數(shù)據(jù)割接與用戶割接 152
7.4.5 回滾策略 155
7.5 作業(yè)與練習(xí) 156
參考文獻(xiàn) 156
第 8 章 運(yùn)維場(chǎng)景應(yīng)用
8.1 運(yùn)維場(chǎng)景描述 157
8.2 運(yùn)維應(yīng)用版本升級(jí) 158
8.2.1 Hadoop 升級(jí)管理 158
8.2.2 Spark 升級(jí)管理 159
8.2.3 Hive SQL 升級(jí)管理 161
8.2.4 ZooKeeper 升級(jí)管理 163
8.3 微服務(wù)與容器虛擬化 165
8.3.1 業(yè)務(wù)應(yīng)用容器化—Docker 165
8.3.2 容器的集群化管理與編排—k8s 169
8.3.3 微服務(wù)監(jiān)控與服務(wù)追蹤 177
8.4 云原生運(yùn)維 178
8.4.1 持續(xù)集成與持續(xù)交付 178
8.4.2 Jenkins 流水線 179
8.4.3 自動(dòng)化持續(xù)部署 180
8.4.4 服務(wù)的注冊(cè)與發(fā)現(xiàn) 181
8.4.5 服務(wù)的熔斷與限流 182
8.5 作業(yè)與練習(xí) 183
參考文獻(xiàn) 183
第 9 章 服務(wù)資源管理
9.1 業(yè)務(wù)能力管理 185
9.1.1 業(yè)務(wù)需求評(píng)估 185
9.1.2 業(yè)務(wù)需求趨勢(shì)預(yù)測(cè) 186
9.2 服務(wù)能力管理 187
9.2.1 人員能力動(dòng)態(tài)管理 187
9.2.2 服務(wù)成本動(dòng)態(tài)管理 189
9.2.3 技術(shù)與工具管理 190
9.3 服務(wù)資源整合 190
9.3.1 不同角色的責(zé)權(quán)劃分 190
9.3.2 用戶、供應(yīng)商、廠商的典型協(xié)作方式 192
9.4 作業(yè)與練習(xí) 193
參考文獻(xiàn) 194
附錄 A 大數(shù)據(jù)和人工智能實(shí)驗(yàn)環(huán)境
附錄 B Hadoop 環(huán)境要求
附錄 C 名詞解釋