本書是針對應用統(tǒng)計專業(yè)碩士研究生數(shù)理統(tǒng)計課程而編寫的一本教材。數(shù)理統(tǒng)計作為應用統(tǒng)計專業(yè)碩士教學的一門基礎課,在課程內(nèi)容選編上既要體現(xiàn)不同于本科課程內(nèi)容的“高層次”,又要體現(xiàn)出不同于統(tǒng)計學專業(yè)學術(shù)性碩士課程內(nèi)容的“應用型”,盡量做到理論方法與應用的有機融合。
適讀人群 :本書可以作為高等院校應用統(tǒng)計專業(yè)碩士的學習應用數(shù)理統(tǒng)計的教材,也可以作為非統(tǒng)計專業(yè)的研究生以及高年級本科生學習數(shù)理統(tǒng)計課程的教材或教學參考書。
本書內(nèi)容涵蓋概率論預備知識、統(tǒng)計基礎、參數(shù)估計、假設檢驗、區(qū)間估計及回歸分析;
為適用應用統(tǒng)計專業(yè)碩士培養(yǎng)的新形式,本書強調(diào)方法的應用,淡化理論的證明;
為開闊讀者視野,附錄介紹了R語言的使用、非參數(shù)密度估計及非參數(shù)回歸等內(nèi)容;
書中很多例題都附有R軟件實現(xiàn),各章均配有一定數(shù)量的習題。
統(tǒng)計學主要是用來研究如何有效地收集、處理和分析實際數(shù)據(jù)的一門學科,統(tǒng)計學的本質(zhì)在于挖掘原始數(shù)據(jù)中的潛在信息,通過有效且有針對性的統(tǒng)計分析與推斷,為解決實際問題提供具有參考價值的建議。在2011年以前,統(tǒng)計學科分別隸屬于兩個一級學科,即應用經(jīng)濟學和數(shù)學;2011年以后,國務院學位委員會通過了新的學位授予和人才培養(yǎng)學科目錄,統(tǒng)計學科上升為一級學科。這一方面說明了統(tǒng)計學這個學科本身的重要性,為未來統(tǒng)計學的快速發(fā)展提供了更加廣闊的舞臺和空間,同時這也對高等院校人才培養(yǎng)模式提出了新的要求。
經(jīng)國務院學位委員會批準,我國自2011年起開始招收培養(yǎng)應用統(tǒng)計專業(yè)碩士,到目前已經(jīng)連續(xù)招收了六屆,且全國每年招生規(guī)模不斷擴大。該專業(yè)學位設置的主要目的是為政府部門、大中型企業(yè)、咨詢和研究機構(gòu)培養(yǎng)高層次、應用型統(tǒng)計專門人才。相對于學術(shù)性碩士的培養(yǎng)而言,應用統(tǒng)計專業(yè)碩士培養(yǎng)的主要特點是“高層次、應用型”。從課程設置體系來看,“應用數(shù)理統(tǒng)計”課程是應用統(tǒng)計專業(yè)碩士培養(yǎng)最為重要的基礎課和核心課,是后繼各類專業(yè)課的基礎。從學科定義上來看,數(shù)理統(tǒng)計主要是用來研究如何有效地收集、處理和分析數(shù)據(jù)的一門學科,通過對隨機現(xiàn)象有限次的觀測或試驗得到的數(shù)據(jù)進行歸納、分析,并據(jù)此對整體的數(shù)量規(guī)律性做出推斷或判斷。數(shù)理統(tǒng)計既強調(diào)統(tǒng)計理論數(shù)學闡述,如參數(shù)估計、非參數(shù)估計、相關與回歸分析等,同時又非常注重統(tǒng)計方法的實際應用,數(shù)理統(tǒng)計對統(tǒng)計數(shù)據(jù)分析方法的影響是顯著的,在對應用統(tǒng)計專業(yè)碩士的培養(yǎng)中發(fā)揮著重要作用。
鑒于應用統(tǒng)計專業(yè)碩士推出的時間較短,國內(nèi)有針對性的數(shù)理統(tǒng)計教材很少,為了適應應用統(tǒng)計專業(yè)碩士培養(yǎng)快速發(fā)展的新形式,我們著手編寫了本書。作者認為,“數(shù)理統(tǒng)計”作為應用統(tǒng)計專業(yè)碩士教學的一門基礎課,在課程內(nèi)容選編上既要體現(xiàn)不同于本科課程內(nèi)容的“高層次”,又要體現(xiàn)出不同于傳統(tǒng)學術(shù)型碩士課程內(nèi)容的“應用型”,盡量做到理論方法與應用的有機融合?紤]到某些結(jié)論的證明過程過于煩瑣,初學者往往感到困惑,在編寫過程中我們強調(diào)方法的應用,淡化理論證明,注重案例教學。
值得注意的是,計算機的誕生與迅猛發(fā)展,為數(shù)據(jù)處理提供了強有力的技術(shù)支持。統(tǒng)計的學習與使用離不開計算機,離不開統(tǒng)計軟件。目前常用的統(tǒng)計軟件主要有SPSS、SAS、MATLAB、STATISTICA、R語言等。R 軟件作為一種免費的開源統(tǒng)計軟件,已經(jīng)在統(tǒng)計學、運籌學、生物信息學、經(jīng)濟學、工程學等諸多領域得到廣泛應用。由于設計上的特點,R語言并不局限某一類問題。配合不同的功能擴展包,以及各種靈活使用的基本工具,R 語言能夠應用的領域相當廣泛。在本書中,我們將采用R語言作為主要的教學軟件。對于一些常用的結(jié)論,我們將通過R語言來實現(xiàn)。本書強調(diào)統(tǒng)計方法的R語言實現(xiàn)也是基于應用的目的。
本書共分6章,其中第1章由姜玉英編寫,第2、3、6章由劉強編寫,第4、5章及附錄由王琳編寫,書中的大部分程序由王琳編寫,最后由劉強負責統(tǒng)一定稿。
本書內(nèi)容涵蓋了概率論預備知識、統(tǒng)計基礎知識、參數(shù)估計、假設檢驗、區(qū)間估計及回歸分析。為了方便讀者學習和實際應用,本書在附錄中介紹了R語言的使用、非參數(shù)密度估計及非參數(shù)回歸等內(nèi)容,以開闊讀者的應用視野。全部講授完本書大約需要48學時,如果將R軟件的學習與應用放到課后,則32學時左右即可完成本書內(nèi)容的講授。
本書的初稿在首都經(jīng)濟貿(mào)易大學應用統(tǒng)計專業(yè)碩士班講授過多年,雖然經(jīng)過多次修改,總感不足,趁此出版之際,我們對講義又進行了大幅的整理與修訂,希望本書的出版能為應用統(tǒng)計專業(yè)碩士的教學貢獻一份綿薄之力。
在本書的撰寫過程中,北京工業(yè)大學薛留根教授、程維虎教授,首都經(jīng)濟貿(mào)易大學統(tǒng)計學院紀宏教授、張寶學教授、馬立平教授都給予了極大的支持和熱心的幫助。電子工業(yè)出版社高等教育分社的譚海平社長和王二華編輯也為本書的出版付出了很大努力,在此一并表示感謝。本書的撰寫也得到了北京市青年拔尖人才培育計劃項目(CIT&TCD201404133)和首都經(jīng)濟貿(mào)易大學專業(yè)學位碩士教育系列教材建設項目的資助。
由于作者水平有限,盡管盡了很大努力,但書中仍不免存在錯謬之處,懇請國內(nèi)同行及讀者不吝指正。電子郵箱為:cuebliuqiang@163.com。
作 者
2016年11月
劉強教授,博士生導師,現(xiàn)任首都經(jīng)濟貿(mào)易大學統(tǒng)計學院副院長,兼任全國工業(yè)統(tǒng)計教學研究會常務理事兼常務副秘書長,北京應用統(tǒng)計學會常務理事,中國商業(yè)經(jīng)濟學會經(jīng)濟數(shù)學研究分會常務理事,北京大數(shù)據(jù)協(xié)會理事等。主要從事應用數(shù)理統(tǒng)計、經(jīng)濟數(shù)據(jù)分析、非參數(shù)統(tǒng)計以及復雜數(shù)據(jù)分析等方面的教學、科研工作。王琳,首都經(jīng)濟貿(mào)易大學統(tǒng)計學院講師,美國匹茲堡大學生物統(tǒng)計系訪問學者。主要從事生物信息學和計算生物學方面的研究,主持包括國家自然科學基金在內(nèi)課題多項,發(fā)表SCI學術(shù)論文近十篇。
目 錄
第1章 預備知識 1
1.1 隨機事件及其概率 2
1.1.1 樣本空間與隨機事件 2
1.1.2 事件間的關系及運算 2
1.1.3 概率的定義及性質(zhì) 3
1.1.4 條件概率與事件的獨立性 4
1.2 隨機變量及其分布 5
1.2.1 隨機變量及其分布 5
1.2.2 離散型隨機變量及其分布率 6
1.2.3 連續(xù)型隨機變量及其概率密度 7
1.2.4 隨機變量函數(shù)的分布 9
1.3 多維隨機變量及其性質(zhì) 10
1.3.1 多維隨機變量及其分布 10
1.3.2 邊緣分布與條件分布 11
1.3.3 隨機變量的獨立性 12
1.3.4 隨機向量函數(shù)的分布 12
1.3.5 隨機向量的變換及其分布 13
1.4 隨機變量的數(shù)字特征 13
1.4.1 數(shù)學期望與方差 13
1.4.2 矩、協(xié)方差陣及相關系數(shù) 16
1.4.3 條件數(shù)學期望 17
1.5 特征函數(shù)及其性質(zhì) 18
1.6 大數(shù)定律與中心極限定理 19
1.6.1 隨機變量序列的收斂性 19
1.6.2 大數(shù)定律 20
1.6.3 中心極限定理 21
習題1 22
第2章 統(tǒng)計基礎 24
2.1 一些基本概念 24
2.1.1 總體與樣本 24
2.1.2 放回與不放回抽樣 26
2.1.3 參數(shù)與非參數(shù)分布族 26
2.1.4 統(tǒng)計量與抽樣分布 27
2.2 三大抽樣分布 29
2.2.1 c2分布 29
2.2.2 t分布 32
2.2.3 F分布 34
2.2.4 兩個重要的結(jié)論 36
2.3 常見分布族 37
2.3.1 伽馬分布族 37
2.3.2 Fisher Z分布族 38
2.3.3 貝塔分布族 39
2.3.4 韋布爾分布族 41
2.3.5 多項分布族 41
2.3.6 指數(shù)型分布族 42
2.4 常用統(tǒng)計量 43
2.4.1 經(jīng)驗分布函數(shù) 44
2.4.2 次序統(tǒng)計量 45
2.4.3 樣本p分位數(shù) 47
2.5 充分統(tǒng)計量 48
2.5.1 充分統(tǒng)計量 48
2.5.2 因子分解定理 50
2.5.3 指數(shù)型分布族的充分統(tǒng)計量 52
2.6 完備統(tǒng)計量 52
2.6.1 分布族的完備性 52
2.6.2 完備統(tǒng)計量 53
2.6.3 指數(shù)型分布族的完備統(tǒng)計量 54
2.7 常用統(tǒng)計圖形 55
2.7.1 直方圖 55
2.7.2 莖葉圖 59
2.7.3 箱線圖 60
2.7.4 散點圖 62
2.7.5 折線圖 65
習題2 66
第3章 點估計 69
3.1 點估計與優(yōu)良性 69
3.1.1 點估計的概念 69
3.1.2 無偏性 69
3.1.3 有效性 70
3.1.4 均方誤差準則 71
3.1.5 相合性 71
3.1.6 漸近正態(tài)性 73
3.2 矩估計 74
3.3 極大似然估計 75
3.3.1 極大似然估計的原理 76
3.3.2 極大似然估計的性質(zhì) 80
3.4 一致最小方差無偏估計 80
3.4.1 一致最小方差無偏估計的概念 80
3.4.2 零無偏估計法 82
3.4.3 充分完備統(tǒng)計量法 83
3.5 Cramer-Rao不等式 83
3.5.1 C-R正則分布族與Fisher信息 83
3.5.2 統(tǒng)計量的Fisher信息 86
3.5.3 信息不等式與有效估計 86
3.6 U統(tǒng)計量 89
3.7 同變估計 90
3.7.1 同變性的引入 90
3.7.2 最優(yōu)同變估計 91
3.7.3 Pitman估計 92
習題3 93
第4章 假設檢驗 95
4.1 基本概念 95
4.1.1 假設檢驗問題 95
4.1.2 拒絕域與檢驗統(tǒng)計量 96
4.1.3 兩類錯誤和功效函數(shù) 96
4.1.4 Neyman-Pearson原則 97
4.1.5 檢驗函數(shù)與充分統(tǒng)計量 98
4.2 Neyman-Pearson基本引理 99
4.2.1 最大功效檢驗 99
4.2.2 一致最大功效檢驗 101
4.3 似然比檢驗 102
4.4 正態(tài)總體的參數(shù)檢驗 104
4.4.1 均值的檢驗 104
4.4.2 方差的檢驗 109
4.5 非參數(shù)假設檢驗 112
4.5.1 皮爾遜?2擬合檢驗 113
4.5.2 柯爾莫哥洛夫-斯米爾諾夫
檢驗法 116
4.5.3 符號檢驗法 118
4.5.4 Wilcoxon符號秩檢驗 121
4.5.5 Wilcoxon-Mann-Whitney秩和
檢驗 124
4.5.6 游程檢驗 126
習題4 127
第5章 區(qū)間估計 130
5.1 區(qū)間估計的基本概念 130
5.2 置信區(qū)間(置信域)的構(gòu)造 133
5.2.1 樞軸量法 133
5.2.2 假設檢驗法 136
5.2.3 近似分布法 138
5.3 一致最精確置信區(qū)間(置信限) 138
習題5 140
第6章 回歸分析 142
6.1 引言 142
6.2 線性回歸模型 144
6.2.1 最小二乘估計 145
6.2.2 最小二乘估計的性質(zhì) 148
6.3 模型的評價與檢驗 150
6.3.1 模型的評價 150
6.3.2 模型的檢驗 152
6.4 響應變量的預測 156
6.5 廣義最小二乘估計 157
6.6 回歸診斷 158
6.6.1 殘差分析 159
6.6.2 影響分析 163
6.6.3 多重共線性分析 166
6.7 有偏估計 169
6.7.1 嶺估計 169
6.7.2 主成分回歸 172
6.8 Box-Cox變換 175
習題6 178
附錄A R語言簡介 181
附錄B 非參數(shù)密度估計 198
附錄C 非參數(shù)回歸 208
附錄D 常用的統(tǒng)計表 216
參考文獻 239