Ⅰ 統計推斷概述
對於要做統計推斷的人來講,這個問題似乎顯得多餘,他們往往關心 怎樣做統計推斷 。這也許可以窺得發展中國家在經濟增長中的一個弊端:知其然,不知其所以然。因為別人已經做出來了嘛,我管那麼多幹嘛,先做出來再講!然而,核心科技我們還是要掌握的。
我們經常講概率統計,概率統計,這並不是一個詞而是一個有著繼承關系的短語。可以說一個是理論基礎一個是應用科學,當然這里我們主要關注的是這個應用科學:統計學。
概率論是推理性的,由概率分布推斷樣本性質,如大數定律、中心極限定理。統計是歸納性的,由樣本信息反推概率分布,如概率分布參數的點估計、區間估計,以及線性回歸。一張圖很好地區別了概率與統計:
在數據分析中使用了兩種主要的統計方法: 描述性統計 ,使用諸如 均值 或 標准偏差 等 指標 對樣本中的數據進行匯總,以及 推論統計 ,從隨機變化的數據中得出結論(例如,觀察誤差,抽樣變異)。其中描述性統計一般用來做探索性數據分析,所謂的推論統計,就是今天我們主要講的 統計推斷 ,其意思就是用統計學的方法來推斷。統計推斷(區別於貝葉斯推斷,這里主要基於頻率推斷)主要可以分為兩大類:一類是參數估計問題;另一類是假設檢驗問題。其中假設檢驗又可分為參數檢驗與非參數檢驗。
至於怎麼推斷的:
在講述統計的時候離不開概率,而在講述這兩者的時候,就離不開幾個基本的概念:
在做統計的時候,我們手裡有的就是樣本信息,在這里要注意 樣本的兩重性 : 樣本既可看成具體的數, 又可以看成隨機變數 (或隨機向量). 在完成抽樣後,它是具體的數;在實施抽樣前,它被看成隨機變數. 因為在實施具體抽樣之前無法預料抽樣的結果, 只能預料它可能取值的范圍, 故可把它看成一個隨機變數,因此才有概率分布可言。
對理論工作者, 更重視樣本是隨機變數這一點,而對應用工作者雖則將樣本看成具體的數字, 但仍不可忽視樣本是隨機變數 (或隨機向量) 這一背景。否則,樣本就是一堆雜亂無章毫無規律可言的數字,無法進行任何統計處理。 樣本既然是隨機變數 (或隨機向量),就有分布而言,就可以應用概率論的知識, 這樣才存在統計推斷問題。
統計學的目的是試圖找到可能產生我們所觀測到的數據背後的概率分布,而統計推斷是建立在這個分布之上的。尋找一個模型一般有兩步:對一個模型(分布)的初步猜想以及對未知模型參數的估計。可見統計學的三大要素:模型、策略、演算法。
為了那些未被觀察到的樣本總體,為了抉擇。
獲得有效數據後, 統計推斷問題可以按照如下的步驟進行:
(1)寫出似然函數;
(2)對似然函數取對數,並整理;
(3)求導數,令導數為0,得到似然方程;
(4)解似然方程,得到的參數即為所求
參考:
統計推斷概述
概率論與統計學的關系是什麼?
「魯棒性」的出現與譯者的偷懶
第五章: 數理統計的基本概念與抽樣分布
「統計學」「統計推斷」「統計學習」有什麼區別?
統計學的現實意義是什麼?
統計學(三):簡單統計推斷
假設檢驗之三:假設檢驗的基本步驟
用簡單方法學會----參數估計