導航:首頁 > 安裝方法 > 區間估計的一般方法和步驟

區間估計的一般方法和步驟

發布時間:2022-09-10 20:15:44

⑴ 總體參數區間估計的方法有哪些

區間估計的概念
區間估計是根據樣本統計量,利用抽樣分布的原理,用概率表示總體參數可能落在某數值區間之內的推算方法。
區間估計的原理
區間估計的理論依據是抽樣分布理論。現在以總體平均數區間估計為例,說明區間估計的基本原理。
總體參數區間估計的計算方法
由於樣本容量、總體分布狀態等多方面因素對總體參數估計的可信度都會產生不同程度的影響,因此,在進行總體參數估計時要針對不同情況區別對待。
大樣本總體平均數的區間估計
要對總體平均數μ做出比較准確的估計,就要合理地確定平均數樣本分布的標准差即標准誤。事實上,標准誤與樣本容量和總體分布的標准差關系密切。當樣本容量n大於30的時候,樣本標准差S與總體標准差σ相差不會很大,一般就可以利用S來做σ的估計值。同時,隨著樣本容量的增加,樣本平均數與總體平均數的差距就會縮小,即標准誤就會減小。

⑵ 統計學中區間估計的概念是什麼

區間估計

qujian guji
區間估計
interval estimation

參數估計的一種形式。通過從總體中抽取的樣本,根據一定的正確度與精確度的要求,構造出適當的區間,以作為總體的分布參數(或參數的函數)的真值所在范圍的估計。例如,估計一種葯品所含雜質的比率在1~2%之間;估計一種合金的斷裂強度在1000~1200千克之間,等等。在有的問題中,只需要對未知量取值的上限或下限作出估計。如前例中,一般只對上限感興趣,而在第二例中,則只對下限感興趣。
在數理統計學中,待估計的未知量是總體分布的參數或的某個函數()。區間估計問題可一般地表述為:要求構造一個僅依賴於樣本X=(1,2,…,)的適當的區間[(X),(X)],一旦得到了樣本X[2kg]的觀測值,就把區間[(),()]作為或()的估計至於怎樣的區間才算是「適當」,如何去構造它,則與所依據的原理和准則有關。這些原理、准則及構造區間估計的方法,便是區間估計理論的研究對象。作為參數估計的形式,區間估計與點估計是並列而又互相補充的,它與假設檢驗也有密切的聯系。
置信區間理論 這是1934年,由統計學家J.奈曼所創立的一種嚴格的區間估計理論。置信系數是這個理論中最為基本的概念。
置信系數 奈曼以概率的頻率解釋為出發點,認為被估計的是一未知但確定的量,而樣本X是隨機的。區間[(X),(X)]是否真包含待估計的,取決於所抽得的樣本X。因此,區間 [(X),(X)]只能以一定的概率[537-03]包含未知的。對於不同的,()之值可以不同,()對不同的取的最小值1-(0<<1)稱為區間[(X),(X)]的置信系數。與此相應,區間[(X),(X)]稱為的一個置信區間。這個名詞在直觀上可以理解為:對於「區間[(X),(X)]包含」這個推斷,可以給予一定程度的相信,其程度則由置信系數表示。
對的上、下限估計有類似的概念,以下限為例,稱(X)為的一個置信下限,若一旦有了樣本X,就認為不小於(X),或者說,把估計在無窮區間[(X),∞)內。「不小於(X)」這論斷正確的概率為[537-04][537-4])。1()對不同的[2kg][2kg]取的最小值[2kg]1-(0<<1)稱為置信下限(X)的置信系數。
在數理統計中,常稱不超過置信系數的任何非負數為置信水平。
優良性准則 置信系數1- 反映了置信區間[(X),(X)]的可靠程度,1-愈大,[(X),(X)]用以估計時,犯錯誤(即並不在[(X),(X)]之內)的可能性愈小。但這只是問題的一個方面。為了使置信區間[(X),(X)] 在實際問題中有用,它除了足夠可靠外,還應當足夠精確。比如說,估計某個人的年齡在 5至95歲之間,雖十分可靠,但太不精確,因而無用。通常指定一個很小的正數(一般, 取0.10,0.05,0.01等值),要求置信區間[(X),(X)]的置信系數不小於1-,在這個前提下使它盡可能地精確。對於「精確」的不同的解釋,可以導致種種優良性標准。比較重要的有兩個:一是考慮區間的長度(X)-(X)愈小愈好。這個值與X有關,一般用其數學期望E((X)-(X))作為衡量置信區間[(X),(X)] 精確程度的指標。這個指標愈小, 置信區間的精確程度就愈大。另一個是考慮置信區間 [(X), (X)]包含假值(指任何不等於被估計的 的值) 的概率[537-5][537-05],它愈小,[(X),(X)]作為的估計的精度就愈高。
如果(X)是的置信下限,則在保證(X)的置信系數不小於1-[2kg]的前提下,(X)愈大,精確程度愈高。這也可以用[(X) ,∞)包含假值(<)的概率[537-5][537-06]來衡量,此概率愈小,置信下限(X)的精確程度愈高。對置信上限有類似的結果,若在某個准則下,一個置信區間(或上、下限)比其他置信區間都好,則稱它為在這個准則下是一致最優的。例如,在上述准則下,置信系數1-的一致最優置信下限(X)定義為:(X)有置信系數1- ,且對任何有置信系數1-的置信下限1(X),當<時,成立[537-07]
有時,對所考慮的置信區間(或上、下限)加上某種一般性限制,在這個前提下尋

⑶ 區間估計的基本步驟

設 θ 是總體的一個待估參數,其一切可能取值組成的參數空間為,從總體中獲得容量為 n 的樣本是X1,X2,X3,... ...,Xn,對給定的 α (0<α<1),確定兩個統計量,即估計量下界 θL=θL (X1,X2,X3,... ...,Xn)與估計量上界θu=θu(X1,X2,X3,... ...,Xn)。

若對任意 θ∈有P(θL≤θ≤θu)≥1-α,則稱隨機區間[θL,θu]是θ的置信水平為1-α的置信區間,也簡稱[θL,θu]是θ的1-α置信區間。θL與 θu 分別稱為1-α的置信下限與置信上限。

(3)區間估計的一般方法和步驟擴展閱讀

容忍限與容忍區間

這是一個與區間估計有密切聯系的概念,但處理的問題不同。給定β,у,0<;β<1,0<;у<1,以F記總體分布。若T(X)為一統計量,滿足條件,則稱 T(X)為總體分布F 的上(β,у)容忍限。

類似地可定義下(β,у)容忍限。若T1(X)和T2(X)為兩個統計量,T1(X)≤T2(X),且,則稱 【T1(X),T2(X)】 為總體分布的一個(β,у)容忍區間。

例如,X是某產品的質量指標,而F為其分布,則(β,у)容忍區間【T1(X),T2(X)】的意義是:至少有1-β的把握斷言「至少有100(1-у)%的產品,其質量指標落在區間【T1(X),T2(X)】之內」。可以說,容忍區間估計的是總體分布的概率集中在何處,而非總體分布參數。

⑷ 區間估計的求解步驟

區間估計的概念所述點估計是用一個點(即一個數)去估計未知參數。顧名思義,區間估計(Interval estimator)就是用一個區間去估計未知參數,即把未知參數值估計在某兩界限之間。例如,估計明年GDP增長在7%~8%之間,比說增長8%更容易讓人們相信,因為給出7%~8%已把可能出現的誤差考慮到了。
現今最流行的一種區間估計理論是統計學家J.Neyman在20世紀30年代建立起來的,現敘述如下。
設是來自密度函數的樣本,對給定的α,0<α<1,如能找到兩個統計量及使得
是信度為1-α的θ的置信區間(Confidence interval)
α稱為顯著性水平(Significance level)。
對於置信區間和信度(或置信水平(Level of Confidence)),可以用頻率來說明。如果是置信水平為0.95的置信區間,只要反復從中取樣,每次由樣本去算出,於是區間不盡相同,有的包含真值θ,有的並不包含θ,包含θ的區間出現的頻度應在0.95附近波動。
置信區間表達了區間估計的精確度,置信概率表達了區間估計的可靠性,它是區間估計的可靠概率;而顯著性水平表達了區間估計的不可靠的概率,例如α=0.01或1%,是說總體指標在置信區間內,平均100次有1次會產生錯誤。
關於置信概率,在統計學中進行區間估計時,按照一定要求總是先定好標准,通常採用三個標准:
1-α=0.95 即α=0.05
或 1-α=0.99 即α=0.01
或 1-α=0.999 即α=0.001
當然,在進行區間估計時,必須同時考慮置信概率與置信區間兩個方面,即置信概率定得越大(即估計的可靠性越大),則置信區間相應也越大(即估計精確性越小),所以,可靠性與精確性要結合具體問題、具體要求來全面考慮。

⑸ 什麼叫點估計和區間估計

點估計(point estimation)是用樣本統計量來估計總體參數,因為樣本統計量為數軸上某一點值,估計的結果也以一個點的數值表示,所以稱為點估計。點估計和區間估計屬於總體參數估計問題。

區間估計(interval estimate)是在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間通常由樣本統計量加減估計誤差得到。與點估計不同,進行區間估計時,根據樣本統計量的抽樣分布可以對樣本統計量與總體參數的接近程度給出一個概率度量。

(5)區間估計的一般方法和步驟擴展閱讀

常見形式

簡介

區間估計,區間估計的區間上、下界通常形式為:「點估計±誤差」

「總體均值」的區間估計

符號假設

總體均值:μ

總體方差:σ

樣本均值:x* =(1/n)×Σ(Xi)

樣本方差:s* =(1/(n-1))×Σ(Xi-x*)^2

置信水平:1-α

⑹ 區間估計的方法

(見貝葉斯統計)也是一個重要的構造區間估計的方法。統計決策理論中引進的一些概念和優良性准則,也可用於區間估計。此外序貫方法(見序貫分析)在區間估計中也有了相當的發展。
區域估計 有時要對兩個或更多的參數θ=(θ1,θ2,…,θk)(k>1),例如正態分布N(μ,σ2)中的μ與σ2,同時進行估計;這時,每當有樣本X,就由X在θ的取值的k維空間Rk內定出一個區域Q(X),而把θ估計在Q(X)內。這種估計叫做區域估計。所用區域一般為比較簡單的幾何形狀,如長方體、球或橢球等。關於區域估計的置信系數、優良性准則及其求法等,與區間估計情況相似。
容忍限與容忍區間 這是一個與區間估計有密切聯系的概念,但處理的問題不同。給定β,у,0<;β<1,0<;у<1,以F記總體分布。若T(X)為一統計量,滿足條件,則稱 T(X)為總體分布F 的上(β,у)容忍限。類似地可定義下(β,у)容忍限。若T1(X)和T2(X)為兩個統計量,T1(X)≤T2(X),且,則稱 【T1(X),T2(X)】 為總體分布的一個(β,у)容忍區間。例如,X是某產品的質量指標,而F為其分布,則(β,у)容忍區間【T1(X),T2(X)】的意義是:至少有1-β的把握斷言「至少有100(1-у)%的產品,其質量指標落在區間【T1(X),T2(X)】之內」。可以說,容忍區間估計的是總體分布的概率集中在何處,而非總體分布參數。

⑺ 估計的置信度

在大多數的研究中,我們無法獲取研究對象的總體數據,或者能獲取但是成本非常大。實際情況中,我們往往是通過抽樣的方法,在總體中進行隨機抽樣。根據獲取的這部分樣本數據去推動總體的一些屬性。比如通過抽樣人群的平均身高去估計所有人群的平均身高,通過抽樣人群中的男女比例,去估計我國當前的男女比例狀況。
抽樣樣本量是直接影響到最終的估計准確度,所以這一章節,先來介紹下如何判斷一種估計方法准確與否。

統計估計

統計中估計的方法有兩類:點估計,區間估計。 比如問男性平均身高是多少,167cm就是一個點估計,160-170就是區間估計。

置信區間

根據前面介紹的常用的三種估計類型,其置信區間的計算方式也有所不同。

例:假設拋擲一枚不均勻的硬幣,其正面朝上的真實概率P位置,每次實驗結果只有X=1表示正面,X=0表示反面兩種結果。現在實驗了n次,其中正面向上個數是k次,想估計下這個硬幣正面朝上的概率是多少。

如果用點估計,自然的會用頻率 去估計真實的頻率。而區間估計的主要步驟如下:


所以有

經典的Wald區間

Wald估計是用樣本比例替代整體比例,比例估計的置信區間是

以上的置信區間是有個前提的:樣本量比較大的時候,np>5且n(1-p)>5,二項分布才會近似是正態分布。

在樣本量比較小,或者是真實的p值接近0或者1的時候,估計的就不是很准確了。

小樣本的比例估計

在實際的問題中,這種情況也是經常存在的。以搜索為例,一個具體的搜索策略上線前,通常都會對實驗組和對照組進行一些人工評估。因為人力成本問題,一般是評估100或200qu。可能裡面的good或者bad的case佔比非常少,那麼在估計good或badcase的比例的時候置信度就不是很高。

下面介紹幾種常用的修正的區間估計

(0) 精確區間
所謂精確區間,其實就是不對齊分布進行近似,而是直接使用原始的真實分布。我們知道正面朝上的個數k其真實分布是二項分布。這個一開始是Clopper和Pearson在1934年研究出來的,所以也叫做C-P 置信區間


最終可以反解出來這個置信下限和置信上限,這里就不在列出具體公式了。

(1)Wilson區間/Wald矯正區間

注意Wilson和wald兩種方法上的區別,wald在設置置信區間的時候是簡化了問題,用樣本比例近似了真實的比例。wilson認為

簡單的推理過程如下

最終推導出來的置信區間是

(2)wald矯正區間

上述的置信區間有一個簡單的計算方式-加2法,即在數據中增加2個成功案例和2個失敗案例,然後再用傳統的wald區間估計方法

這是因為

我們做置信區間或者參數估計,最終目的是希望通過樣本的數據去獲得總體的信息。常見的就是對總體集中趨勢的估計,而這種」集中趨勢「根據數據本身的分布情況,可能會採取均值、中位數、眾數做為其估計

(1)基於均值的

基於均值的估計,一般是在假設其分布比較對稱的時候,均值是很好的對」集中趨勢「的度量。根據樣本量的大小,均值的置信區間可以用t分布或者z分布。

(2)基於中位數的

很多時候,數據本身的分布是不對稱的,比如用戶的網頁結果的停留時長、用戶點擊的位置分布等。這個時候均值就不是一個很好的對總體集中趨勢的估計了。實際中用的較多的是中位數。

但是中位數本身也存在一些問題。

(3) 基於幾何均值的

可以參考 Sauro and Lewis 2010年的一篇論文。

這里簡單說下論文的主要結論吧:

特定類型的數據(比如任務時長,用戶在搜索結果的停留時間),要找到中位數的置信區間,中位數即p=0.5的那個分界點。其實相當於要找到p的置信區間。

得到置信區間[p1, p2]之後,去找到數據中位於[p1,p2]分界點的數據點即為中位數的置信區間了。

維基網路 https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

https://indico.ihep.ac.cn/event/6182/contribution/4/material/slides/0.pdf

閱讀全文

與區間估計的一般方法和步驟相關的資料

熱點內容
被蜂叮後最正確方法是 瀏覽:569
唱歌技巧和氣息練習方法如何開嗓 瀏覽:168
課堂中學生常用的學習方法 瀏覽:773
改善肩膀下垂最有用的鍛煉方法 瀏覽:452
長春最好的鍛煉方法 瀏覽:482
板磚的正確使用方法 瀏覽:313
電腦電線接線纏繞方法 瀏覽:851
胃疼如火燒怎麼辦最快消除方法 瀏覽:670
年輕人心率過緩的治療方法 瀏覽:240
函數公式方法有哪些 瀏覽:932
研究病理學的四種方法 瀏覽:614
什麼方法可以緩解孕吐 瀏覽:54
快速刷球的方法 瀏覽:858
萬用表如何量電容使用方法 瀏覽:769
可以鼓起來的星星怎麼折簡單方法 瀏覽:827
哪些方法可以檢查耳垂血塗片 瀏覽:920
精油抹臉的正確方法 瀏覽:280
螞蟻金服還不上解決方法 瀏覽:460
圍棋教師快速成長方法 瀏覽:807
訪友的方法和技巧 瀏覽:316