㈠ 統計推斷常用的方法有
(1)簡單隨機抽樣:
簡單隨機抽樣,是指抽樣過程應獨立進行並且總體中每個個體被抽到的機會均等。隨機抽樣不是隨便抽取,隨便抽取容易受到個人好惡的影響。為實現隨機化,可採取抽簽、擲隨機數骰子或查隨機數值表等辦法。如從100件產品中隨機抽取l0件組成樣本,可以把這100件產品從l開始編號直到100號,然後用抓鬮的辦法任意抽出l0個編號,由這l0個編號代表的產品組成樣本。此種抽樣方法的優點是抽樣誤差小,缺點是手續繁雜。在實踐中真正做到每個個體被抽到的機會相等是不容易的。
(2)周期系統抽樣:
周期系統抽樣,又叫等距抽樣或機械抽樣,即將總體按順序編號,用抽簽或查隨機數值表的方法確定首件,進而按等距原則依次抽取樣本。如從120個零件中取五個做樣本,先按生產順序給產品編號,用簡單隨機抽樣法確定首件,然後按每隔24(由120÷5=24得)個號碼抽取一個,共抽取五個組成樣本。這種方法特別適用於流水線上取樣,操作簡便,實施起來不易出現差錯。但抽樣起點一經確定,整個樣本就完全固定。對總體質量特性含有某種周期性變化,而當抽樣間隔恰好與質量特性變化周期吻合時,就可能得到一個偏差很大的樣本。
(3)分層抽樣法:
分層抽樣法,即從一個可以分成不同子總體的總體中,按規定比例從不同層中隨機抽取個體的方法。當不同設備、不同環境生產同一種產品時,由於條件差別產品質量可能有較大差異,為了使所抽取的樣本具有代表性,可以將不同條件下生產的產品組成組,使同一組內產品質量均勻,然後在各組內按比例隨機抽取樣品合成一個樣本。這種抽樣方法得到的樣本代表性比較好,抽樣誤差較小,缺點是抽樣手續較繁,常用於產品質量檢驗。
(4)整群抽樣法:
這種方法是先將總體按一定方式分成多個群,然後隨機地抽取若干群並由這些群中的所有個體組成樣本。如按照生產過程將1000個零件分別裝入20個箱中,每箱50個,然後隨機抽取一箱,此箱中50個零件組成樣本。這種抽樣方法實施方便,但樣本來自個別群體而不能均勻分布在總體中,因而代表性差,抽樣誤差較大。
㈡ 問卷調查所能用的統計方法有哪些
1. 調查的樣本量太小,計算出的結論可靠性不高。
例如看到一些研究生的論文,只發了幾十份問卷調查表,就根據統計到的百分比寫下十分肯定的結論。其實,是有問題的。
例如:調查「你對××活動喜歡的程度」,調查了45人。調查結果:非常喜歡2人,喜歡5人,一般10人,不太喜歡13人,不喜歡15人。作者統計出:喜歡和非常喜歡的共7人占調查人數45人的15.5%,不太喜歡和不喜歡的共28人,佔62.2%。並根據15.5%和62.2%來進一步寫結論。
但是,他忽略了調查的樣本計算出率以後,還應該計算率的標准誤和置信區間。如本例喜歡率為15.5%。還應該計算率的標准誤Sp。
_________ _________________
本例,喜歡率的標准誤 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按樣本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根據喜歡率15.5 %、標准誤5.39 % 和t0.05的值,可計算出:
95% 置信區間:15.5±2.02×5.39=4.6%~26.4%。(置信區間上下限的差值高達21.8%)。
95% 置信區間的含義是,如果用樣本的喜歡率15.5%來估計總體的喜歡率時,有95%的可能是在4.6%~26.4%的區間之間。這樣高達21.8%的區間意味著15.5%是不太可信的。
但是,如果擴大樣本量到450人,4500人,而統計出的喜歡率也是15.5%。由於調查的樣本量擴大了,標准誤 Sp會縮小,計算出的95% 置信區間也就縮小為12.2%~18.8%和14.4%~16.6%。這時用樣本率估計總體率時,上下限的差值很接近15.5%,才是可信的。
2. 調查數據的統計分析過於簡單。
目前看到的調查數據統計分析大都比較簡單。只是計算各個問卷指標的百分比,如上面舉例的喜歡率15.5%等等。
要避免統計分析過於簡單,首先,在做調查表設計時,就事先要考慮好調查數據的統計分析方法。例如同樣是調查「你對××活動喜歡的程度」,除了要擴大調查樣本量外,在調查表中增加調查性別和年齡。這樣就可以採用一種較為復雜的方法——交叉分析。交叉分析是分析「年齡」、 「性別」和「對××活動喜歡程度」三個變數之間的關系。假設不分類統計時,喜歡率是15.5%。交叉分析後就會發現由於性別的不同,年齡段的不同喜歡率是不同的。
例如:2005年國民體質監測問卷調查中,對「睡眠時間」的統計分析,如果只是簡單地計算某市成年男子2473人的問卷,只能統計出:睡眠6小時以下的人為13.4%,睡眠6~9小時的73.6%,睡眠9小時以上的13%。但是,如果增加年齡因素,分年齡段進行統計就可以看到,各年齡段的百分比是不同的(統計表略)。利用分年齡段的百分比還可以畫出折線圖(圖略)。從圖上更可以清楚的顯示出:隨著年齡增加,睡眠時間逐漸減少的趨勢。
上述統計分析方法比較簡單。但是,僅靠簡單的統計方法來處理問卷調查數據是十分可惜的,因為大量的數據信息還沒有充分利用。所以,設計問卷時,就應該注意到,讓收集到的調查數據能做多因素統計分析(如:回歸分析,因子分析等)。下面是我幫助或指導有關單位做過的統計分析實例:
例1:2005年國民體質監測的調查問卷內容中,包括了各人的文化程度,職業,工作、生活和體育鍛煉等方面的許多問題。為了分析這些調查內容和各人的體質有什麼關系,找出哪些因素對體質的好壞特別有關?在進行統計分析時,就需要把體質監測的指標和問卷調查的內容聯系起來進行統計。
在成年組調查問卷內容中可進行計算的12個問題是:受教育程度,職業,平均每周工作時間,平均每天睡眠時間,睡眠質量,平均每天步行時間,平均每天坐姿活動時間,吸煙狀況,運動感受,平均每周鍛煉次數,平均每次鍛煉時間,堅持鍛煉時間。把這些作為X1, X2, ……X12,再把每個人體質監測中的體質總分作為Y,就可以進行逐步回歸分析計算。
某省成年男甲組4242人的數據用逐步回歸分析計算結果是:從12個指標中依次選出了X 1 (受教育程度),X12 (堅持鍛煉時間), X10(平均每周鍛煉次數),X7(平均每天坐姿活動時間) 4個指標。得到回歸方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12 F=101.92 (P<0.01)
復相關系數 R= 0.296
根據回歸方程的系數就可以知道:受教育程度高,平均每周鍛煉次數多,堅持鍛煉時間長,平均每天坐姿活動時間少的人體質總分就高。反之就低。而這個結論只做一般的調查表百分比統計,是得不到的。
例2:某市開展《超重與肥胖人群運動與營養綜合干預實驗研究》12周後,對參加者進行了問卷調查,內容有:每天進餐情況(分為:五分飽,八分飽,十分飽),每周快走次數(分為:3次以下,3次,4次,5次及以上),每次快走時間(分為:30分鍾以內,30~60分鍾,60~90分鍾,90分鍾以上),每次快走距離(分為:3公里以下,3~4公里,5公里及以上)等。
如果僅統計各個問卷內容的百分比,只能計算出如:每次快走時間30分鍾以內的29人佔22.1%,30~60分鍾的47人佔35.9%,60~90分鍾的19人佔14.5%,90分鍾以上的36人佔27.5% 等等,這樣的統計結果並不能說明什麼問題。更無法分析出哪些是對減肥有效果的因素。
但是,把問卷調查的內容與參加12周實驗後各人體重下降值聯系起來統計,情況就不同了。如可以分別計算出:每周快走次數、每次快走時間等指標與體重下降值的相關系數。當計算出以上指標都和體重下降值呈中度或低度相關時,還可以進一步用回歸分析的方法計算出標准回歸系數或偏回歸平方和來分析各指標對體重下降的作用大小。
本例有131人參加實驗,為了用數學表達式來描述:飲食、運動量和降體重的關系。把調查表內容轉換成數字後,選擇了X1(每天進餐情況)、X2(每周快走次數)、X3(每次快走距離)與Y(體重下降值)計算出三元回歸方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
復相關系數 R = 0.4966
從回歸方程可以看到,在吃八分飽的情況下,增加每周快走次數和每次快走距離,降體重的效果更好。
可見,當採用了多元回歸分析方法後,可以充分利用調查表裡的信息從而獲得比簡單的統計百分比更多的研究結果。
例3:某市對學生體質下降原因進行調研時,設計的調查表內容包括:學生、家長、學校等方面30多項指標。為了分析調查的各指標對學生身體素質影響的主次關系,從調查表中選出可進行因子分析計算的26個指標進行了R型因子分析計算。
R型因子分析通過計算,可找出控制著所有指標的幾個主要因素。計算後,原來的許多指標重新組合成較少的幾個新的綜合指標──公因子。這些公因子相互獨立而且反映了原來指標的絕大部分信息。通過R型因子分析的結果,可以看出哪些指標是同一類的,每一個指標以哪一公因子為主,其他公因子所佔比例如何,從而分析該指標的特點。還可根據貢獻率較大的幾個公因子中所包括的指標,來分析出各指標的主次關系。
對3699名中學生的調查數據作R型因子分析計算後,從貢獻率最大的5個公因子所包括的調查指標看,歸入第1公因子的7個指標,都和參加體育活動有關,因此把第一公因子命名為體育活動因子,歸入第2公因子的2個指標,是反映學生家長文化水平的學歷,歸入第3公因子的2個指標,是反映學生是否關心自己體質、健康的指標,歸入第4公因子的2個指標,是反映學校是否關心和組織學生體育活動的指標,歸入第5公因子的2個指標,是反映學生家長對體育運動的態度的指標。
從而可以分析出,對學生體質影響最大的第一因素是學生參加體育活動的情況,第二因素是家長的文化水平高低,第三因素是學生自己是否關心自己的體質、健康情況。第四因素是學校是否關心和組織學生參加體育活動,第五因素是家長是否喜愛體育活動是否支持學生參加體育活動。
因子分析的優點在於用一個或少數幾個綜合指標概括原始數據中盡量多的信息,它能夠實現對問題的高度概括,並揭示出一般的特徵和規律。本例通過因子分析的統計方法,從學生填在26個調查問卷中的信息,分析出了對學生體質影響的幾個主要因素。
㈢ 常用的統計方法有哪些
統計方法有:
1、計量資料的統計方法
分析計量資料的統計分析方法可分為參數檢驗法和非參數檢驗法。
參數檢驗法主要為t檢驗和 方差分析(ANOVN,即F檢驗)等,兩組間均數比較時常用t檢驗和u檢驗,兩組以上均數比較時常用方差分析;非參數檢驗法主要包括秩和檢驗等。t檢驗可分為單組設計資料的t檢驗、配對設計資料的t檢驗和成組設計資料的t檢驗;當兩個小 樣本比較時要求兩 總體分布為 正態分布且方差齊性,若不能滿足以上要求,宜用t 檢驗或非參數方法( 秩和檢驗)。 方差分析可用於兩個以上 樣本均數的比較,應用該方法時,要求各個樣本是相互獨立的隨機樣本,各樣本來自正態總體且各處理組總體方差齊性。根據設計類型不同,方差分析中又包含了多種不同的方法。對於 定量資料,應根據所採用的設計類型、資料所具備的條件和分析目的,選用合適的統計分析方法,不應盲目套用t檢驗和 單因素方差分析。
2、計數資料的統計方法
計數資料的統計方法主要針對四格表和R×C表利用檢驗進行分析。
檢驗或u檢驗,若不能滿足 檢驗:當計數資料呈配對設計時,獲得的四格表為配對四格表,其用到的檢驗公式和校正公式可參考書籍。 R×C表可以分為雙向無序,單向有序、雙向有序屬性相同和雙向有序屬性不同四類,不同類的行列表根據其研究目的,其選擇的方法也不一樣。
3、等級資料的統計方法
等級資料(有序變數)是對性質和類別的等級進行分組,再清點每組觀察單位個數所得到的資料。在臨床醫學資料中,常遇到一些定性指標,如臨床療效的評價、疾病的臨床分期、病症嚴重程度的臨床分級等,對這些指標常採用分成若干個等級然後分類計數的辦法來解決它的量化問題,這樣的資料統計上稱為等級資料。
統計方法的選擇:
統計資料豐富且錯綜復雜,要想做到合理選用統計分析方法並非易事。對於同一 個資料,若選擇不同的統計分析方法處理,有時其結論是截然不同的。
正確選擇統計方法的依據是:
①根據研究的目的,明確研究試驗設計類型、研究因素與水平數;
②確定數據特徵(是否正態分布等)和樣本量大小;
③ 正確判斷統計資料所對應的類型(計量、計數和等級資料),同時應根據統計方法的適宜條件進行正確的統計量值計算;
最後,還要根據專業知識與資料的實際情況,結合統計學原則,靈活地選擇統計分析方法。
㈣ 如何正確選擇統計方法(to be continued)
資料類型設計方案實驗分組檢驗條件
單變數資料差異比較的分析方法小結
11種形式的列聯表
雙變數(多變數)資料的關聯性分析方法小結
二、計量資料分析常見的統計問題
2.1 忽視t檢驗的前提條件
文題:重症急性胰腺炎並發肝功能不全的臨床研究。實驗數據見表5。原文作者用t檢驗分析此資料。請問:這樣做正確嗎?
辨析:
1.對表5數據進行方差齊性檢驗,可發現兩組患者的血清澱粉酶和肌酐指標不能滿足方差齊性的要求,故不能採用t檢驗進行分析。
正確的做法:採用變數變換使數據服從正態分布且方差齊,然後進行t檢驗,否則,採用非參數檢驗。
2.給出確切的統計量和P值。
2.2 誤用成組設計資料的t檢驗分析配對設計資料
辯析: 1.考慮到對數據進行變換是正確的。但是如果採用成組t檢驗,還需要兩總體方差齊性。 但本研究是配對設計,如果採用成組t檢驗,會降低檢驗效率。應該採用配對t檢驗進行分析。注意配對t檢驗的條件:要對每對數據的差值(d)進行正態性檢驗。如果不滿足,改用Wilcoxon符號秩檢驗。2.應給出確切的統計量和P值。
2.3 忽視方差分析的前提條件
文題:姜黃素抑制晶狀體上皮細胞增殖的信號轉導機制。
問題:作者取健康小牛眼晶狀體的混合消化液消化後,收集細胞,進行傳代培養,取第三代細胞進行實驗。
實驗分3組:空白對照組、模型組、姜黃素組,每組設6個樣本。
請問:採用方差分析正確嗎?
辨析:此實驗分3組,應為單因素三水平設計定量資料,應首先進行「獨立性」、「正態性」和「方差齊性」檢驗,如果滿足方差分析的3個前提條件則用方差分析;如果不滿足,則採用變數變換或秩和檢驗。如果P<0.05,則進行多組均數間的多重比較。
給出確切的統計量和P值。
2.4 誤用t檢驗分析等級資料
文題:止痛如神湯保留灌腸治療CNUP:雙盲隨機安慰劑對照試驗
表4 兩組臨床主要症狀和結腸鏡腸粘膜病變評分
※:與對照組(G2)比較,P>0.05,組間差異無統計學意義;△:與治療前比較,P<0.05,組內差異有統計學意義;▲:與對照組(G2)比較,P<0.05,組間差異有統計學意義。
辨析:
對於腹痛、腹瀉、膿血便、下墜感、充血、水腫、粘膜糜爛、粘膜潰瘍的單項評分組間比較,不宜用t檢驗。因為每項評分為1、2、3等不連續的賦值,數據資料不服從正態分布。應將數據整理成分組無序指標有序的等級資料,宜採用秩和檢驗。
分析「總評分」時,應對數據進行正態性和方差齊性檢驗後,決定選用t檢驗或秩和檢驗。
與對照組(G2)比較,P>0.05,組間差異無統計學意義,不必在備注中表示。
應寫出確切的統計量和P值
2.5 誤用t檢驗處理重復測量的兩因素試驗設計
文題:益氣活血法預防老年患者髖部術後下肢深靜脈血栓形成
統計學處理:採用SPSS10.0統計軟體,兩組間計量資料比較用t檢驗。
辨析:本研究設計類型為:兩因素(處理和時間)重復測量設計資料。
在資料滿足「獨立性」、「正態性」和「方差齊性」的前提條件下,及進行球對稱檢驗,應選用兩因素設計的重復測量的方差分析,選用t檢驗分析該資料是不妥的。
文題:復方苦參注射液對惡性腫瘤患者伽瑪刀放射治療後T淋巴細胞亞群的影響。
設計:作者選取60例惡性腫瘤患者,隨機分成2組。試驗組在伽瑪刀放射治療的同時給予復方苦參注射液20ml加入生理鹽水500ml,靜脈滴注,1次/d,10d為1個療程;對照組僅給予伽瑪刀放射治療。試驗結果見表7。
請問:統計分析方法選用t檢驗正確嗎?
辨析:
1.統計分析錯誤
本試驗中,每位受試者在試驗前、後兩個不同的時間點上被重復測量了同一個指標的數值,試驗前與試驗後的數據並不相互獨立,這種試驗設計類型屬於具有重復測量的試驗設計,時間是一個與重復測量有關的試驗因素。原作者用t檢驗進行兩兩比較,則割裂了整體設計,不能准確地估計和控制誤差,因而不能得到可靠的結論。
正確的做法:應將表7的形式改成重復測量試驗設計的標准形式,採用與之對應的方差分析進行數據處理。
2.6 誤用配對設計資料的t檢驗處理單因素k(k>3)水平設計的資料
原文題目:「莪術對大鼠在體子宮肌電活動的影響及其機制研究」,文章為觀察莪術水煎劑對未孕大鼠子宮肌電活動的影響,40隻大鼠被隨機分成4組,對照組:按10ml/kg鼠重灌服生理鹽水,莪術組:按10ml/kg鼠重分別灌服25% 、50% 、100%莪術水煎液分成3組。觀察每個大鼠子宮肌電爆發波的峰面積、持續時間和個數。原作者應用配對設計定量資料的t檢驗進行統計處理,資料見表4。
表 莪術水煎劑對大鼠子宮肌電活動的影響(均數±標准差)
辨析:
沒有交待將大鼠按體重等重要的非實驗因素作為配伍條件進行隨機區組。
本資料有四個劑量,屬於單因素四水平設計的定量資料,不可以用成組設計或配對設計的t檢驗。
措施:如果滿足正態性和方差齊性兩個前提條件,應用單因素四水平設計定量資料的方差分析,在得出有統計學意義的結論後,還可進一步採用Dunnett t檢驗或LSD檢驗。
如果在專業上有必要對3項指標同時進行考察,還應選用該設計的定量資料的三元方差分析對資料進行處理。
三、計數資料分析方法的常見問題
3.1 計算相對數時分母太小
文題:疏肝利膽中葯防治膽固醇結石形成的實驗研究。實驗數據見表4。請問:在表達資料方面有何不妥之處?
辨析:
計算相對數時,分母過小,相對數很不穩定,易失真,不但不能正確反映事實真相,還往往會造成錯覺。
在表4中,各組樣本例數都小於20,樣本例數偏小,不宜計算率,直接給出例數就可以。
3.2 誤用χ2 檢驗分析結果變數為有序變數的資料
某醫生用A、B兩葯治療某病各240例,其療效分為四個等級:痊癒、顯效、好轉、無效,見表4。經R×C表χ2檢驗,χ2=53.33 ,P <0.01 ,認為兩組療效之間的差異有統計學意義。
辨析:
本資料屬於單項有序的R×C表,臨床療效有等級之分,對於等級資料可採用Ridit分析或秩和檢驗。而不應用R×C的χ2檢驗,R×C表χ2 檢驗只能檢驗兩組內部構成是否相同或頻數的分布是否相同,不能檢驗療效有無差別。不難看出,若對表4資料任意兩列數字進行對換,可以清楚地發現,χ2值仍為53.33,不會有改變。
3.3 誤用χ2檢驗回答相關性問題
表 不同年齡冠狀動脈粥樣硬化程度的分布
上述資料用χ2檢驗得:χ2 =163.01,P<0.005,結論為:可認為冠狀動脈硬化的程度與年齡有關,結合本資料可見冠狀動脈硬化等級有隨年齡增高而增加的趨勢。
問:處理此資料所用的統計分析方法以及所得出的結論有何不妥之處?
辨析1:
本資料為「雙向有序且屬性不同的二維列聯表資料」,處理這種資料有3個目的,因此,就對應著3套不同的統計分析方法。
分析不同年齡組患者冠狀動脈硬化等級之間有無差別:看作單向有序資料,選用秩和檢驗。
分析年齡與冠脈硬化等級間有無相關關系:選用等級相關。
分析兩者間是否存在線性變化趨勢則應用線性趨勢檢驗。
作者欲考察「兩個有序變數之間是否呈相關關系」,而χ2檢驗結果是P<0.05,說明冠狀動脈硬化患者在不同年齡組的人數分布是不同的。
事實上,若將表中任何兩行的頻數互換或將任何兩列的頻數互換,所得的χ2檢驗的統計量數值是不會變化的,說明χ2檢驗用於處理有序變數形成的二維列聯表資料是不合適的。
辨析2:
欲考察「兩個有序變數之間是否呈相關關系」,應選用分析定性資料的相關分析方法,如:Spearman秩相關分析,Kendall秩相關分析或典型相關分析。
本例採用Spearman秩相關分析,得:rs=0.53215,P<0.0001。
結論為:表中兩個有序變數之間呈正相關關系,即隨著年齡的增加冠狀動脈硬化等級也逐漸增大,兩者之間的相關關系具有統計學意義。
3.4 多值有序變數的高維列聯表資料
3.5 不滿足連續性χ2檢驗條件時未做校正
3.6 十一種形式的列聯表
3.7 誤用χ2檢驗取代Fisher精確檢驗
3.8 對R×C表直接分割進行兩兩比較
四、統計分析方法表述問題
(1)在統計學方法中註明「採用SPSS軟體進行統計學處理」。此表述正確嗎?
辨析:
從該表述中只能得知原作者採用了什麼統計分析軟體處理數據,沒有交代清楚軟體的版本和序列號;更未體現出文中資料所對應的實驗設計類型和所採用的具體統計分析方法。
(2)在統計學方法中註明「計量資料採用方差分析」。請問:此表述正確嗎?
辨析:
從該表述中只能得知作者處理定量資料用了方差分析,至於這些統計分析方法的選用是否正確,則不得而知。
通常情況下,比較各平均值之間的差別是否具有統計學意義,可能會用到的t檢驗有3種,方差分析有10種之多,他們之間的本質區別體現在定量資料所對應的「實驗設計類型」上。
在表述統計學方法時,應將所用方法寫完整,即在統計分析方法前冠以實驗設計名稱,如配對設計定量資料的t檢驗、成組(或單因素兩水平)設計定量資料的t檢驗或兩因素析因設計定量資料的方差分析。
(3)定性資料一律採用χ2檢驗,對嗎?
辨析:
事實上,定性資料通常可以編製成11種形式的列聯表。在進行統計分析時,應針對不同形式的列聯表、統計分析目的和資料實際具備的前提條件,選用相應的統計分析方法,不可隨意盲目選用,更不應將χ2檢驗視為處理定性資料的萬能工具。
(4)許多論文中,當統計數據經假設檢驗後,P值僅僅列出P >0.05或P<0.05 、P<0.01便稱結果無顯著差異,或結果非常顯著。
假設檢驗結果正確的表達方法是:
應寫出描述性統計量,如樣本均數、率、相關系數、回歸系數、相對危險度、半數效量等,及其可信區間、檢驗統計量,如χ2、t、u、F 值等)、P值;然後根據P值大小作出統計學推斷,並作出相應的醫學專業結論。
舉例:
SPSS實現多組率的兩兩比較
pearson卡方
SPSS對原始數據是頻數表的,需進行加權處理(讓軟體橫著看數據)後卡方檢驗。
條件:(1)pearson卡方要求總例數大於40;(2)0 個單元格 (0.0%) 的期望計數小於 5。最小期望計數為 15.25。
資料收集整理來自網路文庫
㈤ 統計學的研究方法有哪些
統計學作為一門方法論科學,具有自己完善的方法體系。統計研究的具體方法有很多,這將在後續課程中學習,而從大的方面看,其基本研究方法有:
一、大量觀察法
這是統計活動過程中搜集數據資料階段(即統計調查階段)的基本方法:即要對所研究現象總體中的足夠多數的個體進行觀察和研究,以期認識具有規律性的總體數量特徵。大量觀察法的數理依據是大數定律,大數定律是指雖然每個個體受偶然因素的影響作用不同而在數量上幾存有差異,但對總體而言可以相互抵消而呈現出穩定的規律性,因此只有對足夠多數的個體進行觀察,觀察值的綜合結果才會趨向穩定,建立在大量觀察法基礎上的數據資料才會給出一般的結論。統計學的各種調查方法都屬於大量觀察法。
二、統計分組法
由於所研究現象本身的復雜性、差異性及多層次性,需要我們對所研究現象進行分組或分類研究,以期在同質的基礎上探求不同組或類之間的差異性。統計分組在整個統計活動過程中都佔有重要地位,在統計調查階段可通過統計分組法來搜集不同類的資料,並可使抽樣調查的樣本代表性得以提高(即分層抽樣方式);在統計整理階段可以通過統計分組法使各種數據資料得到分門別類的加工處理和儲存,並為編制分布數列提供基礎;在統計分析階段則可以通過統計分組法來劃分現象類型、研究總體內在結構、比較不同類或組之間的差異(顯著性檢驗)和分析不同變數之間的相關關系。統計學中的統計分組法有傳統分組法、判別分析法和聚類分析法等。
三、綜合指標法
統計研究現象的數量方面的特徵是通過統計綜合指標來反映的。所謂綜合指標,是指用來從總體上反映所研究現象數量特徵和數量關系的范疇及其數值,常見的有總量指標、相對指標,平均指標和標志變異指標等。綜合指標法在統計學、尤其是社會經濟統計學中佔有十分重要的地位,是描述統計學的核心內容。如何最真實客觀地記錄、描述和反映所研究現象的數量特徵和數量關系,是統計指標理論研究的一大課題。
四、統計模型法
在以統計指標來反映所研究現象的數量特徵的同時,我們還經常需要對相關現象之間的數量變動關系進行定量研究,以了解某一(些)現象數量變動與另一(些)現象數量變動之間的關系及變動的影響程度。在研究這種數量變動關系時,需要根據具體的研究對象和一定的假定條件,用合適的數學方程來進行模擬,這種方法就叫做統計模型法。
五、統計推斷法
在統計認識活動中,我們所觀察的往往只是所研究現象總體中的一部分單位,掌握的只是具有隨機性的樣本觀察數據,而認識總體數量特徵是統計研究的目的,這就需要我們根據概率論和樣本分布理論,運用參數估計或假設檢驗的方法,由樣本觀測數據來推斷總體數量特徵。這種由樣本來推斷總體的方法就叫統計推斷法。統計推斷法已在統計研究的許多領域得到應用,除了最常見的總體指標推斷外,統計模型參數的估計和檢驗、統計預測中原時間序列的估計和檢驗等,也都屬於統計推斷的范疇,都存在著誤差和置信度的問題。在實踐中這是一種有效又經濟的方法,其應用范圍很廣泛,發展很快,統計推斷法已成為現代統計學的基本方法。
㈥ 統計學簡答題統計研究的具體方法有哪些
統計研究的具體方法有以下5種,具體為:
1、大量觀察法:即對研究總體的全部或足夠多數的單位進行調查並進行綜合分析。
2、統計分組法:應用分組來研究總體內部差異的方法。
3、統計指標法:應用統計指標來反映和研究現象總體的數量狀況。
4、歸納推斷法:以一定的置信標准,根據樣本數據來判斷總體數量特徵。
5、實驗設計:即對實驗進行科學合理的安排,以達到最好的實驗效果。
統計學其他情況簡介。
統計學是一門很古老的科學,一般認為其學理研究始於古希臘的亞里士多德時代,迄今已有兩千三百多年的歷史。它起源於研究社會經濟問題,在兩千多年的發展過程中,統計學至少經歷了「城邦政情」、「政治算數」和「統計分析科學」三個發展階段。
所謂「數理統計」並非獨立於統計學的新學科,確切地說,它是統計學在第三個發展階段所形成的所有收集和分析數據的新方法的一個綜合性名詞。概率論是數理統計方法的理論基礎,但是它不屬於統計學的范疇,而是屬於數學的范疇。