⑴ 統計學中的分類方法
介紹
理解不同的數據類型,是探索性數據分析(Exploratory Data Analysis,EDA)所需的關鍵預備知識,同時也有助於你選擇正確的可視化方法。你可以將數據類型看成歸類不同類型變數的方式。我們將討論主要的變數類型,以及相應的示例。有時我們會稱其為測量尺度(measurement scale)。
類別數據
類別數據(categrorical data)表示特性,例如一個人的性別,所說的語言,等等。類別數據同樣可以使用數值(例如:1表示雌性,0表示雄性)。
名目數據
名目值(nominal value)指用於標記變數的定性離散單元。你可以直接把它們想像成「標簽」。注意名目數據是無序的。因此,如果你改變名目值的順序,其語義並不會改變。下面是一些名目特徵的例子:
性別:雌性、雄性。
語言:英語、法語、德語、西班牙語。
上面的性別特徵也被稱為「二分(dichotomous)」值,因為它只包含兩個類別。
次序數據
次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數據一樣。例如,教育背景可以用次序值來表示:
初中
高中
大學
研究生
注意,其實初中、高中之間的差別,和高中、大學之間的差別,是不一樣的。這是次序數據的主要限制,次序值之間的差別是未知的。因此,次序值通常用於衡量非數值特徵,例如愉悅程度、客戶滿意度。
數值數據
離散數據
離散數據(discrete data)的值是不同而分散的,換句話說,只能接受一些特定值。這類數據無法測量但可以計數。它基本上用來表示可以分類的信息。例如,拋100次硬幣正面向上的次數。
你可以通過以下兩個問題檢查你處理的是否是離散數據:你可以對其計數嗎?它可以被切分成越來越小的部分嗎?
相反,如果數據可以測量但無法計數,那就是連續數據。
連續數據
連續數據(continuous data)表示測量。例如身高。
連續數據可以分為等距數據(interval data)和等比數據(ratio data)。
等距值指間隔相等的有序單元,也就是說,等距變數包含有序數值,並且我們知道這些數值之間的間隔。例如,用等距數據表示溫度:
-10
-5
0
+5
+10
+15
等距值的問題在於,它們沒有「真正的零」。拿上面的例子來說,0度不是絕對零度。另外,我們可以加減等距值,而不能乘除等距值或計算比率。由於沒有「真正的零」,無法應用許多描述統計學或推論統計學的方法。
等比值具有等距值的所有特性,同時也有絕對的零。因此,不僅可以加減,還可以乘除。高度、重量、長度、絕對溫度等都屬於等比值。
數據類型為什麼重要?
數據類型是一個非常重要的概念,因為統計學方法只能應用於特定的數據類型。你需要使用不同的方式分析連續數據和類別數據。因此,理解你處理的數據的類型,讓你能夠選擇正確的分析方法。
下面我們將重新查看上面提到的每種數據類型,了解它們可以應用什麼樣的統計學方法。為了理解我們將討論的一些性質,你需要對描述性統計學有所了解。如果你對此不熟悉,可以先看下我寫的描述性統計學介紹。
統計學方法
名目數據
處理名目數據時,你通過下述方式收集信息:
頻數 在一段時間內或整個數據集中出現的次數。
比例 頻數除以所有事件的頻數之和,即可得到比例。
百分比 我想這無需解釋了吧。
眾數 出現次數最多,也就是頻數最高的數據。
可視化方法 你可以使用餅圖或直方圖可視化名目數據。
統計學常用數據類型
左:餅圖;右:直方圖
次序數據
當你處理次序數據時,你可以使用以上用於名目數據的方法,不過,除此之外,你還可以使用一些額外的工具。也就是說,你可以使用頻數、比例、百分比、眾數概括次序數據,也可以使用餅圖、直方圖可視化次序數據。除此之外,你還可以使用:
百分位數 計算由小到大排列的次序數據的累計百分位,某一百分位對應的數據值就稱為這一百分位的百分位數。百分位數可以用來描述數據的離散趨勢。
中位數 即第50百分位數,它將數據分為相等的上下兩部分。中位數可以用來描述數據的中間趨勢。例如,如果我們用次序數據表示星巴克咖啡的容量:中杯、大杯、特大杯。那麼,其中位數為大杯(也就是說,真正的中杯是大杯)。
四分位距 第75百分位數與第25百分位數之差即為四分位距。四分位距可以簡要概述數據的離散趨勢。
連續數據
大多數統計學方法都可以用於連續數據。你可以使用百分位數、中位數、四分位距、均值、眾數、標准差、區間。
你可以使用矩形圖或箱形圖可視化連續數據。從矩形圖上可以看到分布的中間趨勢、離散程度、形態和峰態。注意,矩形圖不體現離散值,因此我們有時使用箱形圖。
⑵ 常用的統計方法
常用的數據統計方法與工具
統計方法:
1、聚類分析(Cluster Analysis)
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
2、因子分析(Factor Analysis)
因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。
因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值,採用不同的共同性□2估值。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。
3、相關分析(Correlation Analysis)
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。
4、對應分析(Correspondence Analysis)
對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
5、回歸分析
研究一個隨機變數Y對另一個(X)或一組(X1,X2,…,Xk)變數的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。
6、方差分析(ANOVA/Analysis of Variance)
又稱「變異數分析」或「F檢驗」,是R.A.Fisher發明的,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。這個 還需要具體問題具體分析。
統計工具:
一、 SAS統計軟體
SAS 是英文Statistical Analysis System的縮寫,翻譯成漢語是統計分析系統,最初由美國北卡羅來納州立大學兩名研究生開始研製,1976 年創立SAS公司, 2003年全球員工總數近萬人,統計軟體採用按年租用制,年租金收入近12億美元。SAS系統具有十分完備的數據訪問、數據管理、數據分析功能。 在國際上, SAS被譽為數據統計分析的標准軟體。SAS系統是一個模塊組合式結構的軟體系統,共有三十多個功能模塊。SAS是用匯編語言編寫而成的,通常使用SAS 需要編寫程序, 比較適合統計專業人員使,而對於非統計專業人員學習SAS比較困難。SAS最新版為9.0版。網址:http://www.sas.com/。
SAS是美國SAS(賽仕)軟體研究所研製的一套大型集成應用軟體系統,具有比較完備的數據存取、數據管理、數據分析和數據展現的系列功能。尤其是它的創業產品—統計分析系統部分,由於具有強大的數據分析能力,一直是業界中比較著名的應用軟體,在數據處理方法和統計分析領域,被譽為國際上的標准軟體和最具權威的優秀統計軟體包,SAS系統中提供的主要分析功能包括統計分析、經濟計量分析、時間序列分析、決策分析、財務分析和全面質量管理工具等。
SAS系統是一個組合的軟體系統,它由多個功能模塊配合而成,其基本部分是BASE SAS模塊。BASE SAS模塊是SAS系統的核心,承擔著主要的數據管理任務,並管理著用戶使用環境,進行用戶語言的處理,調用其他SAS模塊和產品。也就是說,SAS系統的運行,首先必須啟動BASE SAS模塊,它除了本身所具有數據管理、程序設計及描述統計計算功能以外,還是SAS系統的中央調度室。它除了可單獨存在外,也可與其他產品或模塊共同構成一個完整的系統。各模塊的安裝及更新都可通過其安裝程序比較方便地進行。
SAS系統具有比較靈活的功能擴展介面和強大的功能模塊,在BASE SAS的基礎上,還可以增加如下不同的模塊而增加不同的功能:SAS/STAT(統計分析模塊)、SAS/GRAPH(繪圖模塊)、SAS/QC(質量控制模塊)、SAS/ETS(經濟計量學和時間序列分析模塊)、SAS/OR(運籌學模塊)、SAS/IML(互動式矩陣程序設計語言模塊)、SAS /FSP(快速數據處理的互動式菜單系統模塊)、SAS/AF(互動式全屏幕軟體應用系統模塊)等等。
SAS提供的繪圖系統,不僅能繪各種統計圖,還能繪出地圖。SAS提供多個統計過程,每個過程均含有極豐富的任選項。用戶還可以通過對數據集的一連串加工,實現更為復雜的統計分析。此外,SAS還提供了各類概率分析函數、分位數函數、樣本統計函數和隨機數生成函數,使用戶能方便地實現特殊統計要求。
目前SAS軟體對Windows和Unix兩種平台都提供支持,最新版本分別為8.X和6.X。與以往的版本比較,6.X版的SAS系統除了在功能和性能方面得到增加和提高外,GUI界面也進一步加強。在6.12版中,SAS系統增加了一個PC平台和三個新的UNIX平台,使SAS系統這一支持多硬體廠商,跨平台的大家族又增加了新成員。SAS 6.12的另一個顯著特徵是通過對ODBC、OLE和MailAPIs等業界標準的支持,大大加強了SAS系統和其它軟體廠商的應用系統之間相互操作的能力,為各應用系統之間的信息共享和交流奠定了堅實的基礎。
雖然在我國SAS的逐步應用還是近幾年的事,但是隨著計算機應用的普及和信息事業的不斷發展,越來越多的單位採用了SAS軟體。尤其在教育、科研領域等大型機構,SAS軟體已成為專業研究人員實用的進行統計分析的標准軟體。
然而,由於SAS系統是從大型機上的系統發展而來,其操作至今仍以編程為主,人機對話界面不太友好,系統地學習和掌握SAS,需要花費一定的精力。而對大多數實際部門工作者而言,需要掌握的僅是如何利用統計分析軟體來解決自己的實際問題,因此往往會與大型SAS軟體系統失之交臂。但不管怎樣,SAS作為專業統計分析軟體中的巨無霸,現在鮮有軟體在規模系列上與之抗衡。
二、 SPSS統計軟體
SPSS是英文Statistical package for the social science 的縮寫,翻譯成漢語是社會學統計程序包,20世紀60年代末由美國斯坦福大學的三位研究生研製,1975年在芝加哥組建SPSS總部。SPSS系統特點是操作比較方便,統計方法比較齊全,繪制圖形、表格較有方便,輸出結果比較直觀。SPSS是用FORTRAN語言編寫而成。適合進行從事社會學調查中的數據分析處理。最新版為13.0版。網址:http://www.spss.com/。
SPSS原名社會科學統計軟體包,現已改名為統計解決方案服務軟體。是世界著名的統計分析軟體之一。
20世紀60年代末,美國斯坦福大學的三位研究生研製開發了最早的統計分析軟體SPSS,同時成立了SPSS公司,並於1975年在芝加哥組建了 SPSS總部。20世紀80年代以前,SPSS統計軟體主要應用於企事業單位。1984年SPSS總部首先推出了世界第一套統計分析軟體微機版本 SPSS/PC+,開創了SPSS微機系列產品的先河,從而確立了個人用戶市場第一的地位。
同時SPSS公司推行本土化策略,目前已推出9個語種版本。SPSS/PC+的推出,極大地擴充了它的應用范圍,使其能很快地應用於自然科學、技術科學、社會科學的各個領域,世界上許多有影響的報刊雜志紛紛就SPSS的自動統計繪圖、數據深入分析、使用靈活方便、功能設計齊全等方面給予了高度的評價與稱贊。目前已經在國內廣泛流行起來。它使用Windows的窗口方式展示各種管理和分析數據方法的功能,使用對話框展示出各種功能選擇項,只要是掌握一定的 Windows操作技能,粗通統計分析原理,就可以使用該軟體進行各種數據分析,為實際工作服務。
SPSS for Windows是一個組合式軟體包,目前已經開發出SPSS12版本,它集數據整理、分析功能於一身。用戶可以根據實際需要和計算機的功能選擇模塊,以降低對系統硬碟容量的要求,有利於該軟體的推廣應用。SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪制各種統計圖形和地圖。
SPSS for Windows的分析結果清晰、直觀、易學易用,而且可以直接讀取EXCEL及DBF數據文件,現已推廣到多種操作系統的計算機上,最新的版採用 DAA(Distributed Analysis Architecture,分布式分析系統),全面適應互聯網,支持動態收集、分析數據和HTML格式報告,領先於諸多競爭對手。
方便易用是SPSS for Windows的主要優點,同時也是SPSS不夠全面的原因所在。
三、 BMDP統計軟體
BMDP是英文Biomedical computer programs 的縮寫,翻譯成漢語是生物醫學計算程序,美國加州大學於1961年研製,是世界上最早的統計分析軟體。特點是統計方法齊全,功能強大。但1991年的 7.0版後沒有新的版本推出,使用不太普及,最後被SPSS公司收購。
四、 Stata統計軟體
Stata統計軟體由美國計算機資源中心(Computer Resource Center)1985年研製。 特點是採用命令操作,程序容量較小,統計分析方法較齊全,計算結果的輸出形式簡潔,繪出的圖形精美。不足之處是數據的兼容性差,占內存空間較大,數據管理功能需要加強。最新版為8.0版。網址:http://www.stata.com/。
五、 EPINFO軟體
EPINFO是英文Statistics program for epidemiology on microcomputer 的縮寫,翻譯成漢語是流行病學統計程序。美國疾病控制中心CDC和WHO共同研製,為完全免費軟體。特點是數據錄入非常直觀,操作方便,並有一定的統計功能,但方法比較簡單,主要應用於流行病學領域中的數據錄入和管理工作。最新版為Epidata 2.0版及EPINFO2000版。
六、 Minitab
Minitab由美國賓州大學研製。其特點是簡單易懂,很方便進行試驗設計及質量控制功能。在國外大學統計學系開設的統計軟體課程中,Minitab與SAS、BMDP並列,根據沒有SPSS的份。最新版本為14.0版,網址:http://www.minitab.com/。
七、 Statistica
Statistica為一套完整的統計資料分析、圖表、資料管理、應用程式發展系統;美國StatSoft公司開發。能提供使用者所有需要的統計及制圖程序,制圖功能強大,能夠在圖表視窗中顯示各種統計分析和作圖技術。
八、 SPLM統計軟體
SPLM是英文Statistical program for linear modeling 的縮寫,翻譯成漢語是線性模型擬合統計軟體程序。1988年由解放軍第四醫學大學統計教研室研製。系統特點是採用線性模型的方法,實現各種統計方法的計算。統計方法比較齊全,功能比較強大。SPLM採用FORTRAN語言編寫完成。但1999年推出3.0版後無新的產品推出。
九、 CHISS統計軟體
CHISS 是英文Chinese High Intellectualized Statistical Software的縮寫,翻譯成漢語是中華高智統計軟體, 由北京元義堂科技公司研製,解放軍總醫院、首都醫科大學、中國中醫研究院等參加協作完成。1997年開始研發,2001年推出第一版。CHISS是一套具有數據信息管理、圖形製作和數據分析的強大功能,並具有一定智能化的中文統計分析軟體。CHISS的主要特點是操作簡單直觀,輸出結果簡潔。既可以採用游標點菜單式也可採用編寫程序來完成各種任務。CHISS用C++語言、 FORTRAN語言和delphi 開發集成,採用模塊組合式結構,已開發十個模塊。 CHISS可以用於各類學校、科研所等從事統計學的教學和科研工作。最新版為CHISS2004版。網址:http://www.chiss.cn。
十、 SASD統計軟體
SASD是英文package for Statistical analysis of stochastic data 的縮寫,翻譯成漢語是隨機數據統計分析程序包。它是由中國科學院計算中心研製。系統特點是以FORTRAN源程序形式向用戶提供大量的子程序可供用戶進行二次開發,統計方法比較齊全,功能比較強大。SASD採用FORTRAN語言編寫完成,比較適合從事統計專業人員使用。但無新版推出。
十一、 PEMS統計軟體
PEMS是英文package for encyclopaedia of medical statistics漢語是中國醫學網路全書-醫學統計學軟體包。它以<中國醫學網路全書>一書為藍本,開發的一套統計軟體。系統特點是實現各種統計方法的計算。統計方法比較齊全,功能比較強大。PEMS採用TURBOC和TURBOBASIC語言編寫完成,比較適合從事醫學工作的非統計專業人員使用。最新版為PEMS3.0版。網址:http://www.pems888.com/。
十二、 EXCEL電子表格與統計功能
EXCEL電子表格是Microsoft公司推出的Office系列產品之一,是一個功能強大的電子表格軟體。特點是對表格的管理和統計圖製作功能強大,容易操作。Excel的數據分析插件XLSTAT,也能進行數據統計分析,但不足的是運算速度慢,統計方法不全。
十三、 DAS統計軟體
DAS是英文Drug and Statistics的縮寫,翻譯成漢語是葯理學計算軟體,由孫瑞元等開發。特點是內容涵蓋基礎葯理學、臨床葯理學,葯學,醫學統計學。能多種處理結果同時顯現。EXCEL平台使用方便,智能化,圖表直接插入文檔。網址:http://www.drugchina.net/。
十四、 SDAS統計軟體
DAS是英文Statisticaldesign and analysis system的縮寫,翻譯成漢語是統計設計和分析系統。1992年由解放軍總醫院醫學統計教研室開發。特點是窗口操作,操作方便,圖表簡明,與國內醫學統計學教材一致。但只有DOS版,1995年後沒新的版本。
十五、 Nosa統計軟體
Nosa是非典型數據分析系統,1999年由解放軍四軍醫大學醫學統計教研室夏結來教授開發。特點是採用廣義線性模型建模,從數據錄入與管理、統計分析、繪圖,到結果管理嵌入了當代數據處理技術。但只有DOS系統下使用。
十六 S-PLUS(此部分摘自廠家的軟體宣傳資料)
Insightful公司是世界著名的商務智能軟體提供商,產品涵蓋分析統計、數據挖掘、知識獲取、決策支持等多個領域。公司總部設在美國西雅圖。
S-PLUS作為一個工業數據分析工具與數據分析應用開發平台,在各行各業已經有較長的使用歷史。並曾獲得著名的「美國計算機協會優秀軟體獎。
S-PLUS提供了方便、靈活、交互、可視化的操作環境,幫助您找出數據之間的關系和趨勢,讓您做出更好地決策。在科學研究、市場營銷、產品研發、質量保證、財務分析、金融證券、資料統計等各個方面,S-PLUS都有廣泛的應用。
S-PLUS有流暢、直觀的操作界面,廣泛的輸入輸出功能,不論您的數據在何處、數據的格式如何,都可以輕松地存取,生成的結果可以以任意格式進行輸出 (圖形、文檔、表格、網頁)。特別是:S-PLUS的操作界面與Microsoft Office完全一致,用滑鼠輕松點擊,就可以把S-PLUS 的分析結果嵌入到Word文檔和PowerPoint文檔中;S-PLUS與Excel無縫集成,您可以在S-PLUS 環境中隨意操作Excel數據,也可以在Excel環境中使用S-PLUS功能,無需花時間在Excel及S-PLUS之間,將數據來回轉換;S- PLUS可以在Internet環境中進行數據分析和結果發布。
S-PLUS領先於業界的探索式圖形技術,使得您可以直觀地展現隱藏在數據中的關系和趨勢,不致迷失在簡單的統計數值及文字報表中。S-PLUS提供超過80種的二維和三維圖形庫,您可以輕松修改每一層圖形的細節,包括線條、顏色、字體等,產生您想要的圖形。
S-PLUS提供超過4200種統計分析函數,包含了傳統和現代的統計分析、數據挖掘、預測分析的演算法。軟體所有的分析功能都是向導式的,使您輕松完成數據的分析任務。S-PLUS的開放性,允許您自己開發新的演算法,集成到S-PLUS軟體中。您也可以從S-PLUS網站或者其它統計網站上免費下載演算法,集成到S-PLUS軟體中。
通過S-PLUS的腳本語言,可以記錄和存儲分析過程;或者,用滑鼠拖拉對象(如按鈕、菜單等等)到命令窗口,會立即產生相應的執行指令;反之,拖拉指令到工具列上,會產生相應的功能按鈕。使得您的分析過程可以進行存儲、共享和重復執行,大大減少您的重復工作量。
S-PLUS還提供強大的編程語言——S語言,您可以使用它來開發專門適合於您的個性化系統,也可以建立企業級的應用系統。而且,S-PLUS幾乎可以集成到其它任何系統中,如:在Unix系統上,S-PLUS的CONNECT/Java介面,可以讓S-PLUS集成到Java程序中。在Windows系統上,S-PLUS的CONNECT/C++介面,可以在您開發的C++程序內使用全部的S-PLUS分析方法。另外S-PLUS的DDE及OLE介面,可以讓您集成S-PLUS到其他Windows應用程序中,允許您從Excel或Visual Basic應用程序中執行S-PLUS功能。
⑶ 數理統計方法有哪些
1、統計表
統計表是反映統計資料的表格。是對統計指標加以合理敘述的形式,它使統計資料條理化,簡明清晰,便於檢查數字的完整性和准確性,以及對比分析。
統計表從形式上看,由標題、橫行、縱欄、數字等部分所組成。從內容上看,由主辭和賓辭兩部分所組成。
主辭是統計表所要說明的對象,是由總體、總體各組、總體各單位的名稱所構成。賓辭是說明主辭的統計指標的名稱及數字資料。
2、統計圖
統計圖是根據統計數字,用幾何圖形、事物形象和地圖等繪制的各種圖形。它具有直觀、形象、生動、具體等特點。
統計圖可以使復雜的統計數字簡單化、通俗化、形象化,使人一目瞭然,便於理解和比較。因此,統計圖在統計資料整理與分析中佔有重要地位,並得到廣泛應用。
在解答資料分析測驗中有關統計圖的試題時,既要考察圖的直觀形象,又要注意核對數據,不要被表面形象所迷惑。
3、概率論
概率論,是研究隨機現象數量規律的數學分支。隨機現象是相對於決定性現象而言的,在一定條件下必然發生某一結果的現象稱為決定性現象。
例如在標准大氣壓下,純水加熱到100℃時水必然會沸騰等。隨機現象則是指在基本條件不變的情況下,每一次試驗或觀察前,不能肯定會出現哪種結果,呈現出偶然性。例如,擲一硬幣,可能出現正面或反面。
隨機現象的實現和對它的觀察稱為隨機試驗。隨機試驗的每一可能結果稱為一個基本事件,一個或一組基本事件統稱隨機事件,或簡稱事件。典型的隨機試驗有擲骰子、扔硬幣、抽撲克牌以及輪盤游戲等。
事件的概率是衡量該事件發生的可能性的量度。雖然在一次隨機試驗中某個事件的發生是帶有偶然性的,但那些可在相同條件下大量重復的隨機試驗卻往往呈現出明顯的數量規律。
4、中位數
中位數(又稱中值,英語:Median),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。
對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
5、集合論
集合論,是數學的一個基本的分支學科,研究對象是一般集合。集合論在數學中佔有一個獨特的地位,它的基本概念已滲透到數學的所有領域。
集合論或集論是研究集合(由一堆抽象物件構成的整體)的數學理論,包含了集合、元素和成員關系等最基本的數學概念。
在大多數現代數學的公式化中,集合論提供了要如何描述數學物件的語言。集合論和邏輯與一階邏輯共同構成了數學的公理化基礎,以未定義的「集合」與「集合成員」等術語來形式化地建構數學物件。
在樸素集合論中,集合被當做一堆物件構成的整體之類的自證概念。
在公理化集合論中,集合和集合成員並不直接被定義,而是先規范可以描述其性質的一些公理。在此一想法之下,集合和集合成員是有如在歐式幾何中的點和線,而不被直接定義。
參考資料來源:網路——統計
⑷ 統計學方法有哪些
一、描述統計
描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變數之間關系進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。
集中趨勢分析:集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。例如被試的平均成績多少?是正偏分布還是負偏分布?
離中趨勢分析:離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變數關系的統計量)、標准差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。
相關分析:相關分析探討數據之間是否具有統計學上的關聯性。這種關系既包括兩個數據之間的單一相關關系——如年齡與個人領域空間之間的關系,也包括多個數據之間的多重相關關系——如年齡、抑鬱症發生率、個人領域空間之間的關系;既包括A大B就大(小),A小B就小(大)的直線相關關系,也可以是復雜相關關系(A=Y-B*X);既可以是A、B變數同時增大這種正相關關系,也可以是A變數增大時B變數減小這種負相關,還包括兩變數共同變化的緊密程度——即相關系數。實際上,相關關系唯一不研究的數據關系,就是數據協同變化的內在根據——即因果關系。獲得相關系數有什麼用呢?簡而言之,有了相關系數,就可以根據回歸方程,進行A變數到B變數的估算,這就是所謂的回歸分析,因此,相關分析是一種完整的統計研究方法,它貫穿於提出假設,數據研究,數據分析,數據研究的始終。
例如,我們想知道對監獄情景進行什麼改造,可以降低囚徒的暴力傾向。我們就需要將不同的囚舍顏色基調、囚舍綠化程度、囚室人口密度、放風時間、探視時間進行排列組合,然後讓每個囚室一種實驗處理,然後用因素分析法找出與囚徒暴力傾向的相關系數最高的因素。假定這一因素為囚室人口密度,我們又要將被試隨機分入不同人口密度的十幾個囚室中生活,繼而得到人口密度和暴力傾向兩組變數(即我們討論過的A、B兩列變數)。然後,我們將人口密度排入X軸,將暴力傾向分排入Y軸,獲得了一個很有價值的圖表,當某典獄長想知道,某囚舍擴建到N人/間囚室,暴力傾向能降低多少。我們可以當前人口密度和改建後人口密度帶入相應的回歸方程,算出擴建前的預期暴力傾向和擴建後的預期暴力傾向,兩數據之差即典獄長想知道的結果。
推論統計:
推論統計是統計學乃至於心理統計學中較為年輕的一部分內容。它以統計結果為依據,來證明或推翻某個命題。具體來說,就是通過分析樣本與樣本分布的差異,來估算樣本與總體、同一樣本的前後測成績差異,樣本與樣本的成績差距、總體與總體的成績差距是否具有顯著性差異。例如,我們想研究教育背景是否會影響人的智力測驗成績。可以找100名24歲大學畢業生和100名24歲初中畢業生。採集他們的一些智力測驗成績。用推論統計方法進行數據處理,最後會得出類似這樣兒的結論:「研究發現,大學畢業生組的成績顯著高於初中畢業生組的成績,二者在0.01水平上具有顯著性差異,說明大學畢業生的一些智力測驗成績優於中學畢業生組。」
其中,如果用EXCEL 來求描述統計。其方法是:工具-載入宏-勾選"分析工具庫",然後關閉Excel然後重新打開,工具菜單就會出現"數據分析"。描述統計是「數據分析」內一個子菜單,在做的時候,記得要把方格輸入正確。最好直接點選。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、假設檢驗
1、參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗。
1)U驗 :使用條件:當樣本含量n較大時,樣本值符合正態分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布
A 單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;
B 配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。
A 雖然是連續數據,但總體分布形態未知或者非正態;
B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
三、信度分析
介紹:信度(Reliability)即可靠性,它是指採用同樣的方法對同一對象重復測量時所得結果的一致性程度。信度指標多以相關系數表示,大致可分為三類:穩定系數(跨時間的一致性),等值系數(跨形式的一致性)和內在一致性系數(跨項目的一致性)。信度分析的方法主要有以下四種:重測信度法、復本信度法、折半信度法、α信度系數法。
方法:(1)重測信度法編輯:這一方法是用同樣的問卷對同一組被調查者間隔一定時間重復施測,計算兩次施測結果的相關系數。顯然,重測信度屬於穩定系數。重測信度法特別適用於事實式問卷,如性別、出生年月等在兩次施測中不應有任何差異,大多數被調查者的興趣、愛好、習慣等在短時間內也不會有十分明顯的變化。如果沒有突發事件導致被調查者的態度、意見突變,這種方法也適用於態度、意見式問卷。由於重測信度法需要對同一樣本試測兩次,被調查者容易受到各種事件、活動和他人的影響,而且間隔時間長短也有一定限制,因此在實施中有一定困難。
(2)復本信度法編輯:讓同一組被調查者一次填答兩份問卷復本,計算兩個復本的相關系數。復本信度屬於等值系數。復本信度法要求兩個復本除表述方式不同外,在內容、格式、難度和對應題項的提問方向等方面要完全一致,而在實際調查中,很難使調查問卷達到這種要求,因此採用這種方法者較少。
(3)折半信度法編輯:折半信度法是將調查項目分為兩半,計算兩半得分的相關系數,進而估計整個量表的信度。折半信度屬於內在一致性系數,測量的是兩半題項得分間的一致性。這種方法一般不適用於事實式問卷(如年齡與性別無法相比),常用於態度、意見式問卷的信度分析。在問卷調查中,態度測量最常見的形式是5級李克特(Likert)量表(李克特量表(Likert scale)是屬評分加總式量表最常用的一種,屬同一構念的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、"同意"、"不一定"、"不同意"、"非常不同意"五種回答,分別記為5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。)。進行折半信度分析時,如果量表中含有反意題項,應先將反意題項的得分作逆向處理,以保證各題項得分方向的一致性,然後將全部題項按奇偶或前後分為盡可能相等的兩半,計算二者的相關系數(rhh,即半個量表的信度系數),最後用斯皮爾曼-布朗(Spearman-Brown)公式:求出整個量表的信度系數(ru)。
(4)α信度系數法編輯:Cronbach
α信度系數是目前最常用的信度系數,其公式為:
α=(k/(k-1))*(1-(∑Si^2)/ST^2)
其中,K為量表中題項的總數, Si^2為第i題得分的題內方差, ST^2為全部題項總得分的方差。從公式中可以看出,α系數評價的是量表中各題項得分間的一致性,屬於內在一致性系數。這種方法適用於態度、意見式問卷(量表)的信度分析。
總量表的信度系數最好在0.8以上,0.7-0.8之間可以接受;分量表的信度系數最好在0.7以上,0.6-0.7還可以接受。Cronbach 's alpha系數如果在0.6以下就要考慮重新編問卷。
檢査測量的可信度,例如調查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
四、列聯表分析
列聯表是觀測數據按兩個或更多屬性(定性變數)分類時所列出的頻數表。
簡介:一般,若總體中的個體可按兩個屬性A、B分類,A有r個等級A1,A2,…,Ar,B有c個等級B1,B2,…,Bc,從總體中抽取大小為n的樣本,設其中有nij個個體的屬性屬於等級Ai和Bj,nij稱為頻數,將r×c個nij排列為一個r行c列的二維列聯表,簡稱r×c表。若所考慮的屬性多於兩個,也可按類似的方式作出列聯表,稱為多維列聯表。
列聯表又稱交互分類表,所謂交互分類,是指同時依據兩個變數的值,將所研究的個案分類。交互分類的目的是將兩變數分組,然後比較各組的分布狀況,以尋找變數間的關系。
用於分析離散變數或定型變數之間是否存在相關。
列聯表分析的基本問題是,判明所考察的各屬性之間有無關聯,即是否獨立。如在前例中,問題是:一個人是否色盲與其性別是否有關?在r×с表中,若以pi、pj和pij分別表示總體中的個體屬於等級Ai,屬於等級Bj和同時屬於Ai、Bj的概率(pi,pj稱邊緣概率,pij稱格概率),「A、B兩屬性無關聯」的假設可以表述為H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知參數pij、pi、pj的最大似然估計(見點估計)分別為行和及列和(統稱邊緣和)
為樣本大小。根據K.皮爾森(1904)的擬合優度檢驗或似然比檢驗(見假設檢驗),當h0成立,且一切pi>0和pj>0時,統計量的漸近分布是自由度為(r-1)(с-1) 的Ⅹ分布,式中Eij=(ni·nj)/n稱為期望頻數。當n足夠大,且表中各格的Eij都不太小時,可以據此對h0作檢驗:若Ⅹ值足夠大,就拒絕假設h0,即認為A與B有關聯。在前面的色覺問題中,曾按此檢驗,判定出性別與色覺之間存在某種關聯。
需要注意:
若樣本大小n不很大,則上述基於漸近分布的方法就不適用。對此,在四格表情形,R.A.費希爾(1935)提出了一種適用於所有n的精確檢驗法。其思想是在固定各邊緣和的條件下,根據超幾何分布(見概率分布),可以計算觀測頻數出現任意一種特定排列的條件概率。把實際出現的觀測頻數排列,以及比它呈現更多關聯跡象的所有可能排列的條件概率都算出來並相加,若所得結果小於給定的顯著性水平,則判定所考慮的兩個屬性存在關聯,從而拒絕h0。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。
列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
五、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
3、偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
3、多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布。
2、多元線性回歸分析
使用條件:分析多個自變數與因變數Y的關系,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布 。
1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態分布
B 強影響點判斷:尋找方式一般分為標准誤差法、Mahalanobis距離法
C 共線性診斷:
• 診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特徵根判定法、條件指針CI、方差比例
• 處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變數是連續的正態分布變里,且自變數和因變數呈線性關系,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
八、聚類分析
聚類與分類的不同在於,聚類所要求劃分的類是未知的。
聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習演算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。
從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他演算法(如分類和定性歸納演算法)的預處理步驟。
定義:
依據研究對象(樣品或指標)的特徵,對其進行分類的方法,減少研究對象的數目。
各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。
各指標之間具有一定的相關關系。
聚類分析(cluster
analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。聚類分析區別於分類分析(classification
analysis) ,後者是有監督的學習。
變數類型:定類變數、定量(離散和連續)變數
樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
1、性質分類:
Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理,又稱指標聚類分析使用相似系數作為統計量衡量相似度,相關系數、列聯系數等
2、方法分類:
1)系統聚類法:適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類
2)逐步聚類法:適用於大樣本的樣本聚類
3)其他聚類法:兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
2、與聚類分析區別
1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類
3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別准則來分類,即樣本與哪個類的距離最短就分到哪一類,適用於兩類判別;
以概率為判別准則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於
適用於多類判別。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;
十、主成分分析
介紹:主成分分析(Principal
Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。
在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息。
原理:在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,將重復的變數(關系緊密的變數)刪去多餘,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。
設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的綜合變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。
缺點: 1、在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變數降維後的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。
2、主成分的解釋其含義一般多少帶有點模糊性,不像原始變數的含義那麼清楚、確切,這是變數降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變數個數p(除非p本身較小),否則維數降低的「利」可能抵不過主成分含義不如原始變數清楚的「弊」。
十一、因子分析
一種旨在尋找隱藏在多變數數據中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
與主成分分析比較:
相同:都能夠起到治理多個原始變數內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關系,是比主成分分析更深入的一種多元統計方法
用途:
1)減少分析變數個數
2)通過對變數間相關關系探測,將原始變數進行分類
十二、時間序列分析
動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。
主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
時間序列是指同一變數按事件發生的先後順序排列起來的一組觀察值或記錄值。構成時間序列的要素有兩個:其一是時間,其二是與時間相對應的變數水平。實際數據的時間序列能夠展示研究對象在一定時期內的發展變化趨勢與規律,因而可以從時間序列中找出變數變化的特徵、趨勢以及發展規律,從而對變數的未來變化進行有效地預測。
時間序列的變動形態一般分為四種:長期趨勢變動,季節變動,循環變動,不規則變動。
時間序列預測法的應用:
系統描述:根據對系統進行觀測得到的時間序列數據,用曲線擬合方法對系統進行客觀的描述;
系統分析:當觀測值取自兩個以上變數時,可用一個時間序列中的變化去說明另一個時間序列中的變化,從而深入了解給定時間序列產生的機理;
預測未來:一般用ARMA模型擬合時間序列,預測該時間序列未來值;
決策和控制:根據時間序列模型可調整輸入變數使系統發展過程保持在目標值上,即預測到過程要偏離目標時便可進行必要的控制。
特點:
假定事物的過去趨勢會延伸到未來;
預測所依據的數據具有不規則性;
撇開了市場發展之間的因果關系。
①時間序列分析預測法是根據市場過去的變化趨勢預測未來的發展,它的前提是假定事物的過去會同樣延續到未來。事物的現實是歷史發展的結果,而事物的未來又是現實的延伸,事物的過去和未來是有聯系的。市場預測的時間序列分析法,正是根據客觀事物發展的這種連續規律性,運用過去的歷史數據,通過統計分析,進一步推測市場未來的發展趨勢。市場預測中,事物的過去會同樣延續到未來,其意思是說,市場未來不會發生突然跳躍式變化,而是漸進變化的。
時間序列分析預測法的哲學依據,是唯物辯證法中的基本觀點,即認為一切事物都是發展變化的,事物的發展變化在時間上具有連續性,市場現象也是這樣。市場現象過去和現在的發展變化規律和發展水平,會影響到市場現象未來的發展變化規律和規模水平;市場現象未來的變化規律和水平,是市場現象過去和現在變化規律和發展水平的結果。
需要指出,由於事物的發展不僅有連續性的特點,而且又是復雜多樣的。因此,在應用時間序列分析法進行市場預測時應注意市場現象未來發展變化規律和發展水平,不一定與其歷史和現在的發展變化規律完全一致。隨著市場現象的發展,它還會出現一些新的特點。因此,在時間序列分析預測中,決不能機械地按市場現象過去和現在的規律向外延伸。必須要研究分析市場現象變化的新特點,新表現,並且將這些新特點和新表現充分考慮在預測值內。這樣才能對市場現象做出既延續其歷史變化規律,又符合其現實表現的可靠的預測結果。
②時間序列分析預測法突出了時間因素在預測中的作用,暫不考慮外界具體因素的影響。時間序列在時間序列分析預測法處於核心位置,沒有時間序列,就沒有這一方法的存在。雖然,預測對象的發展變化是受很多因素影響的。但是,運用時間序列分析進行量的預測,實際上將所有的影響因素歸結到時間這一因素上,只承認所有影響因素的綜合作用,並在未來對預測對象仍然起作用,並未去分析探討預測對象和影響因素之間的因果關系。因此,為了求得能反映市場未來發展變化的精確預測值,在運用時間序列分析法進行預測時,必須將量的分析方法和質的分析方法結合起來,從質的方面充分研究各種因素與市場的關系,在充分分析研究影響市場變化的各種因素的基礎上確定預測值。
需要指出的是,時間序列預測法因突出時間序列暫不考慮外界因素影響,因而存在著預測誤差的缺陷,當遇到外界發生較大變化,往往會有較大偏差,時間序列預測法對於中短期預測的效果要比長期預測的效果好。因為客觀事物,尤其是經濟現象,在一個較長時間內發生外界因素變化的可能性加大,它們對市場經濟現象必定要產生重大影響。如果出現這種情況,進行預測時,只考慮時間因素不考慮外界因素對預測對象的影響,其預測結果就會與實際狀況嚴重不符。
⑸ 問卷調查所能用的統計方法有哪些
1. 調查的樣本量太小,計算出的結論可靠性不高。
例如看到一些研究生的論文,只發了幾十份問卷調查表,就根據統計到的百分比寫下十分肯定的結論。其實,是有問題的。
例如:調查「你對××活動喜歡的程度」,調查了45人。調查結果:非常喜歡2人,喜歡5人,一般10人,不太喜歡13人,不喜歡15人。作者統計出:喜歡和非常喜歡的共7人占調查人數45人的15.5%,不太喜歡和不喜歡的共28人,佔62.2%。並根據15.5%和62.2%來進一步寫結論。
但是,他忽略了調查的樣本計算出率以後,還應該計算率的標准誤和置信區間。如本例喜歡率為15.5%。還應該計算率的標准誤Sp。
_________ _________________
本例,喜歡率的標准誤 Sp =√P(1-P)/n = √15.5(100-15.5)/45 = 5.39 %
按樣本量n,查t值表上, n-1的t0.01和t0.05 的值,查得t0.05=2.02 , t0.01=2.69, 根據喜歡率15.5 %、標准誤5.39 % 和t0.05的值,可計算出:
95% 置信區間:15.5±2.02×5.39=4.6%~26.4%。(置信區間上下限的差值高達21.8%)。
95% 置信區間的含義是,如果用樣本的喜歡率15.5%來估計總體的喜歡率時,有95%的可能是在4.6%~26.4%的區間之間。這樣高達21.8%的區間意味著15.5%是不太可信的。
但是,如果擴大樣本量到450人,4500人,而統計出的喜歡率也是15.5%。由於調查的樣本量擴大了,標准誤 Sp會縮小,計算出的95% 置信區間也就縮小為12.2%~18.8%和14.4%~16.6%。這時用樣本率估計總體率時,上下限的差值很接近15.5%,才是可信的。
2. 調查數據的統計分析過於簡單。
目前看到的調查數據統計分析大都比較簡單。只是計算各個問卷指標的百分比,如上面舉例的喜歡率15.5%等等。
要避免統計分析過於簡單,首先,在做調查表設計時,就事先要考慮好調查數據的統計分析方法。例如同樣是調查「你對××活動喜歡的程度」,除了要擴大調查樣本量外,在調查表中增加調查性別和年齡。這樣就可以採用一種較為復雜的方法——交叉分析。交叉分析是分析「年齡」、 「性別」和「對××活動喜歡程度」三個變數之間的關系。假設不分類統計時,喜歡率是15.5%。交叉分析後就會發現由於性別的不同,年齡段的不同喜歡率是不同的。
例如:2005年國民體質監測問卷調查中,對「睡眠時間」的統計分析,如果只是簡單地計算某市成年男子2473人的問卷,只能統計出:睡眠6小時以下的人為13.4%,睡眠6~9小時的73.6%,睡眠9小時以上的13%。但是,如果增加年齡因素,分年齡段進行統計就可以看到,各年齡段的百分比是不同的(統計表略)。利用分年齡段的百分比還可以畫出折線圖(圖略)。從圖上更可以清楚的顯示出:隨著年齡增加,睡眠時間逐漸減少的趨勢。
上述統計分析方法比較簡單。但是,僅靠簡單的統計方法來處理問卷調查數據是十分可惜的,因為大量的數據信息還沒有充分利用。所以,設計問卷時,就應該注意到,讓收集到的調查數據能做多因素統計分析(如:回歸分析,因子分析等)。下面是我幫助或指導有關單位做過的統計分析實例:
例1:2005年國民體質監測的調查問卷內容中,包括了各人的文化程度,職業,工作、生活和體育鍛煉等方面的許多問題。為了分析這些調查內容和各人的體質有什麼關系,找出哪些因素對體質的好壞特別有關?在進行統計分析時,就需要把體質監測的指標和問卷調查的內容聯系起來進行統計。
在成年組調查問卷內容中可進行計算的12個問題是:受教育程度,職業,平均每周工作時間,平均每天睡眠時間,睡眠質量,平均每天步行時間,平均每天坐姿活動時間,吸煙狀況,運動感受,平均每周鍛煉次數,平均每次鍛煉時間,堅持鍛煉時間。把這些作為X1, X2, ……X12,再把每個人體質監測中的體質總分作為Y,就可以進行逐步回歸分析計算。
某省成年男甲組4242人的數據用逐步回歸分析計算結果是:從12個指標中依次選出了X 1 (受教育程度),X12 (堅持鍛煉時間), X10(平均每周鍛煉次數),X7(平均每天坐姿活動時間) 4個指標。得到回歸方程:
Y = 21.85+ 1.02 X 1 -0.20 X7+ 0.34 X10 + 0.28 X12 F=101.92 (P<0.01)
復相關系數 R= 0.296
根據回歸方程的系數就可以知道:受教育程度高,平均每周鍛煉次數多,堅持鍛煉時間長,平均每天坐姿活動時間少的人體質總分就高。反之就低。而這個結論只做一般的調查表百分比統計,是得不到的。
例2:某市開展《超重與肥胖人群運動與營養綜合干預實驗研究》12周後,對參加者進行了問卷調查,內容有:每天進餐情況(分為:五分飽,八分飽,十分飽),每周快走次數(分為:3次以下,3次,4次,5次及以上),每次快走時間(分為:30分鍾以內,30~60分鍾,60~90分鍾,90分鍾以上),每次快走距離(分為:3公里以下,3~4公里,5公里及以上)等。
如果僅統計各個問卷內容的百分比,只能計算出如:每次快走時間30分鍾以內的29人佔22.1%,30~60分鍾的47人佔35.9%,60~90分鍾的19人佔14.5%,90分鍾以上的36人佔27.5% 等等,這樣的統計結果並不能說明什麼問題。更無法分析出哪些是對減肥有效果的因素。
但是,把問卷調查的內容與參加12周實驗後各人體重下降值聯系起來統計,情況就不同了。如可以分別計算出:每周快走次數、每次快走時間等指標與體重下降值的相關系數。當計算出以上指標都和體重下降值呈中度或低度相關時,還可以進一步用回歸分析的方法計算出標准回歸系數或偏回歸平方和來分析各指標對體重下降的作用大小。
本例有131人參加實驗,為了用數學表達式來描述:飲食、運動量和降體重的關系。把調查表內容轉換成數字後,選擇了X1(每天進餐情況)、X2(每周快走次數)、X3(每次快走距離)與Y(體重下降值)計算出三元回歸方程:
Y= 1.26-1.30 X1 +0.59 X2 +1.70 X3 F =13.855 (P<0.01)
復相關系數 R = 0.4966
從回歸方程可以看到,在吃八分飽的情況下,增加每周快走次數和每次快走距離,降體重的效果更好。
可見,當採用了多元回歸分析方法後,可以充分利用調查表裡的信息從而獲得比簡單的統計百分比更多的研究結果。
例3:某市對學生體質下降原因進行調研時,設計的調查表內容包括:學生、家長、學校等方面30多項指標。為了分析調查的各指標對學生身體素質影響的主次關系,從調查表中選出可進行因子分析計算的26個指標進行了R型因子分析計算。
R型因子分析通過計算,可找出控制著所有指標的幾個主要因素。計算後,原來的許多指標重新組合成較少的幾個新的綜合指標──公因子。這些公因子相互獨立而且反映了原來指標的絕大部分信息。通過R型因子分析的結果,可以看出哪些指標是同一類的,每一個指標以哪一公因子為主,其他公因子所佔比例如何,從而分析該指標的特點。還可根據貢獻率較大的幾個公因子中所包括的指標,來分析出各指標的主次關系。
對3699名中學生的調查數據作R型因子分析計算後,從貢獻率最大的5個公因子所包括的調查指標看,歸入第1公因子的7個指標,都和參加體育活動有關,因此把第一公因子命名為體育活動因子,歸入第2公因子的2個指標,是反映學生家長文化水平的學歷,歸入第3公因子的2個指標,是反映學生是否關心自己體質、健康的指標,歸入第4公因子的2個指標,是反映學校是否關心和組織學生體育活動的指標,歸入第5公因子的2個指標,是反映學生家長對體育運動的態度的指標。
從而可以分析出,對學生體質影響最大的第一因素是學生參加體育活動的情況,第二因素是家長的文化水平高低,第三因素是學生自己是否關心自己的體質、健康情況。第四因素是學校是否關心和組織學生參加體育活動,第五因素是家長是否喜愛體育活動是否支持學生參加體育活動。
因子分析的優點在於用一個或少數幾個綜合指標概括原始數據中盡量多的信息,它能夠實現對問題的高度概括,並揭示出一般的特徵和規律。本例通過因子分析的統計方法,從學生填在26個調查問卷中的信息,分析出了對學生體質影響的幾個主要因素。
⑹ 數學有幾種統計方法
要從樣本中抽樣調查,可以分為概率抽樣和非概率抽樣。
概率抽樣方法又分為 簡單隨機抽樣,分層抽樣,系統抽樣,整群抽樣,多階段抽樣。
而非概率抽樣分為:方便抽樣。判斷抽樣,配額抽樣,滾雪球抽樣。
簡單隨機抽樣,也叫純隨機抽樣。就是從總體中不加任何分組、劃類、排隊等,完全隨機地抽取調查單位。特點是:每個樣本單位被抽中的概率相等,樣本的每個單位完全獨立,彼此間無一定的關聯性和排斥性。簡單隨機抽樣是其它各種抽樣形式的基礎。通常只是在總體單位之間差異程度較小和數目較少時,才採用這種方法。
分層抽樣,適用於總體量大、差異程度較大的情況。先將總體單位按其差異程度或某一特徵分類、分層,然後在各類或每層中再隨機抽取樣本單位。分層抽樣實際上是科學分組、或分類與隨機原則的結合。分層抽樣有等比抽樣和不等比抽樣之分,當總數各類差別過大時,可採用不等比抽樣。除了分層或分類外,其組織方式與簡單隨機抽樣和等距抽樣相同。
系統抽樣,將總體各單位按摩椅標志順序排隊,然後按照一定時間隔抽取樣本單位。如總體共有N個單位,從中抽取的樣本為n個單位,將總體單位數N除以樣本單位數n,便是等距抽樣的間隔距離。讓後在第一組中先隨即抽取一個單位,再每隔k個單位抽一個,直到抽滿n個單位為止。
整群抽樣,在全及總體中以群(或組)為單位,按純隨機方式或等距抽樣方式,抽取若干群(或組),然後對所有抽中的各群(或各組)中的全部單位一一進行調查。
多階段抽樣,將多個抽樣程序分成若干階段,然後逐階段進行抽樣,以完成整個抽樣過程。
適用范圍:總體包括的單位很多,而且分布很廣,通過一次抽樣抽選出樣本是很困難的,這時使用多階段抽樣。
多階段抽樣的一個例子
例:對我國的農產量進行抽樣調查。
抽樣方法是:先由省抽縣,由抽中的縣內再抽鄉、村,由抽中的鄉、村抽地塊,最後才由抽中的地塊再抽樣本單位。
⑺ 常見的數據統計方法有什麼
常見的數據統計方法有:表格、折線統計圖、條形統計圖、扇形統計圖。舉一個例子來具體分說明一下,比如說:我在淘寶開了個童裝店,為了方便統計每半個月的銷售額,現在用以上這四種統計方法來演示一下。
1.表格就是通過畫格子的方式來統計數據,在這里可以畫三行橫線,得到兩條細長的格子,再把這兩行均勻的分為15個上下格子。橫一為日期,橫二為銷售額,半個月下來都填進去就一目瞭然。
2.折線是通過畫點,把15天的銷售額都連成一條折線,通過上下起伏來看波動的數據。先畫一「L」形,橫線作日期,豎線作銷售額,銷售額可以自己寫一個數,一直往上數與數之間相差一樣。均勻的把橫豎線分為15份,每個日期對應多少銷售額,就在「L」的半框里,以對應的日期和銷售畫橫線和豎線,交叉的位置取一點。然後每天如此,再用直線連接這15個點,就能清楚的看到這半個月哪一天銷售最好,哪一天銷售墊底。
3.條形統計圖作出的是條狀的數據統計圖,和折線統計圖一樣,畫「L」,橫為日期豎為銷售額。只不過這里不畫點點,畫倒立的長方形,然後通過高高低低的條形圖來分析半個月的銷售額。
4.扇形統計圖就是把一個圓形,平均分為15份,一個月下來把所有的日銷售額加起來,用當天的數據除以總數,乘以百分數。每一分里寫上日期和當天銷售額占總數的百分比,用這個百分數來統計半個月的數據。每個圖的做法都不一樣,但表達的意思都是同樣的,這就是日常生活中最常見的幾種數據統計。
⑻ 如何統計大學生的成績
用表格軟體啊 ,將每個認得成績輸進去,在按學分的公式在結果欄把函數關系列好,將所有的成績都輸入後,將游標放到第一個結果欄的右下角,會顯示一個+。然後按住滑鼠左鍵向下拖動,下面的成績的平均學分績點就一次出來了啊。然後再按結果欄由高到低的順序排序就ok了。希望能幫到你。
⑼ 國家開放大學統計學原理:統計分布的4種只要表達方式是什麼
法
將統計分布以統計表的形式表示出來。
二、圖示法
在列表法的基礎上,繪制分布圖來表示統計分布,以便更直觀地顯示統計分布的特徵。
常用的圖有:直方圖、折線圖、曲線圖和餅圖。
1.直方圖
對於一個定量數據,直方圖是一個常見的而且非常重要的圖形。它的橫坐標代表變數分組,縱坐標代表各變數值出現的頻數,這樣,各組與相應的頻數就形成了一個矩形,即直方圖。
直方圖的每個條形的寬度表示組距寬度,高度表示各組頻數或頻率。
直方圖與條形圖或柱形圖的區別:直方圖一般來描述一組數據的組距式分組,而用條形圖或柱形圖來描述一組數據的單項式分組。
2.折線圖
依次連接各組組中值上方的高度等於頻數或頻率的點而形成的圖形。
折線圖兩端點應與橫軸連線,連線的方法應從折線端點連到橫軸兩邊組距的中點位置上。
3.曲線圖
當數列的組數非常多,組距非常小時,折線就會近似地表現為一條平滑的曲線,這樣就會形成統計分布的曲線圖。
使用頻率較高的是「正態分布曲線」,其特徵:以標志變數的平均值為中心,沿對稱軸向兩邊發展,越接近中心,分配的次數越多,離中心越遠,分配的次數越小。
⑽ 數學統計方法有哪些
統計分析 方法 以數學為基礎,具有嚴密的結構,需要遵循特定的程序和規范,從確立選題、提出假設、進行抽樣、具體實施,一直到分析解釋數據,得出結論,都須符合一定的邏輯和標准。下面我給大家整理了關於數學統計方法有哪些,希望對你有幫助!
1數學統計方法有哪些
數學統計方法有哪些?掌握、了解統計分析的基本特徵,對於我們進行統計分析具有重要的意義。採用統計分析方法進行研究,是研究達到高水平的客觀要求,應用統計分析方法進行科學研究。
2統計分析方法特徵
直觀性:現實世界是復雜多樣的,其本質和規律難以直接把握,統計分析方法從現實情境中收集數據,通過次序、頻數等直觀、淺顯的量化數字及簡明的圖表表現出來,這些數據的處理,將我們的調研與客觀世界緊密相連,從而提示和洞悉現實世界的本質及其規律。
科學性:統計分析方法以數學為基礎,具有嚴密的結構,需要遵循特定的程序和規范,從確立選題、提出假設、進行抽樣、具體實施,一直到分析解釋數據,得出結論,都須符合一定的邏輯和標准。
可重復性:可重復性是衡量研究質量與水平高低的一個客觀尺度,用統計分析方法進行的研究皆是可重復的。從課題的選取、抽樣的設計,到數據的收集與處理,皆可在相同的條件下進行重復,並能對研究所得的結果進行驗證。
3數學統計圖介紹
條形統計圖:用一個單位長度表示一定的數量,根據數量的多少畫成長短不同的直條,然後把這些直線按照一定的順序排列起來。優點:很容易看出各種數量的多少。注意:畫條形統計圖時,直條的寬窄必須相同。取一個單位長度表示數量的多少要根據具體情況而確定; 復式條形統計圖中表示不同項目的直條,要用不同的線條或顏色區別開,並在制圖日期下面註明圖例。製作條形統計圖的一般步驟:
(1)根據圖紙的大小,畫出兩條互相垂直的射線。
(2)在水平射線上,適當分配條形的位置,確定直線的寬度和間隔。
(3)在與水平射線垂直的深線上根據數據大小的具體情況,確定單位長度表示多少。
(4)按照數據的大小畫出長短不同的直條,並註明數量。
折線統計圖「用一個單位長度表示一定的數量,根據數量的多少描出各點,然後把各點用線段順次連接起來。優點:不但可以表示數量的多少,而且能夠清楚地表示出數量增減變化的情況。注意:折線統計圖的橫軸表示不同的年份、月份等時間時,不同時間之間的距離要根據年份或月份的間隔來確定。製作折線統計圖的一般步驟:
(1)根據圖紙的大小,畫出兩條互相垂直的射線。
(2)在水平射線上,適當分配折線的位置,確定直線的寬度和間隔。
(3)在與水平射線垂直的深線上根據數據大小的具體情況,確定單位長度表示多少。
(4)按照數據的大小描出各點,再用線段順次連接起來,並註明數量。
扇形統計圖:用整個圓的面積表示總數,用扇形面積表示各部分所佔總數的百分數。優點:很清楚地表示出各部分同總數之間的關系。制扇形統計圖的一般步驟:
1)先算出各部分數量占總量的百分之幾。
2)再算出表示各部分數量的扇形的圓心角度數。
3)取適當的半徑畫一個圓,並按照上面算出的圓心角的度數,在圓里畫出各個扇形。
4)在每個扇形中標明所表示的各部分數量名稱和所佔的百分數,並用不同顏色或條紋把各個扇形區別開。
4數學的統計方法
統計表:統計調查所得來的原始資料,經過整理,得到說明社會現象及其發展過程的數據,把這些數據按一定的順序排列在表格中,就形成「統計表
統計圖:統計圖是根據統計數字,用幾何圖形、事物形象和地圖等繪制的各種圖形。它具有直觀、形象、生動、具體等特點。統計圖可以使復雜的統計數字簡單化、通俗化、形象化,使人一目瞭然,便於理解和比較。
條形統計圖:條形統計圖是用一個單位長度表示一定的數量,根據數量的多少畫成長短不同的直條,然後把這些直條按一定的順序排列起來。從條形統計圖中很容易看出各種數量的多少。
2)扇形統計圖:扇形統計圖是用整個圓表示總數(單位「1」),用圓內各個扇形的大小表示各部分量占總量的百分之幾,扇形統計圖中各部分的百分比之和是單位「1」。
3)折線統計圖:以折線的上升或下降來表示統計數量的增減變化的統計圖,叫作折線統計圖。(折線變化幅度越大,數量關系變化越大)與條形統計圖比較,折線統計圖不僅可以表示數量的多少,而且可以反映數據的增減變化情況,。
數學統計方法有哪些相關 文章 :
★ 數學教學方法有哪些
★ 常用的數學教學方法有哪些
★ 有效的數學教學方法有哪些
★ 數學十大速算技巧
★ 最新小學數學有哪些教學方法
★ 初中數學的學習方法有哪些
★ 數學思維方法有哪些
★ 數學常用的教學方法有哪些
★ 小學數學教學方法有哪些?
★ 小學數學教法方法有哪些