㈠ 濡備綍鐢╯pss鍒嗘瀽涓ょ粍鏁版嵁鐨勭浉鍏蟲э紵
鐢╯pss鍒嗘瀽涓ょ粍鏁版嵁鐨勭浉鍏蟲фラゅ備笅錛
1銆佺涓姝ワ紝鐢佃剳瀹夎SPSS杞浠鍖咃紝鏈濂戒嬌鐢ㄦ渶鏂扮増鏈錛屽姛鑳芥瘮杈冮綈鍏ㄣ傛墦寮SPSS杞浠訛紝瀵煎叆浣犻渶瑕佸垎鏋愮殑鏁版嵁錛岃繖閲屼互excel鏁版嵁涓轟緥瀛愩備緷嬈$偣鍑匯愭枃浠躲-銆愭墦寮銆-銆愭暟鎹銆戙
榪欐牱灝卞畬鎴愪簡鐢╯pss鍒嗘瀽涓ょ粍鏁版嵁鐨勭浉鍏蟲с
㈡ 簡述變數間的相關分析有哪些方法
《變數間的相關關系》的主要內容為採用定性和定量相結合的方法研究變數之間的相關關系,主要研究線性相關關系.主要概念有「相關關系」、「散點圖」、「回歸直線和回歸直線方程」、「相關系數」等。
變數之間除了函數關系外,還有相關關系。
例:
(1)商品銷售收入與廣告支出經費之間的關系
(2)糧食產量與施肥量之間的關系
(3)人體內脂肪含量與年齡之間的關系 不同點:函數關系是一種確定的關系;而 相關關系是一種非確定關系。
分類
按相關的形式分為線性相關和非線性相關
1、一種現象的一個數值和另一現象相應的數值在指教坐標系中確定為一個點,稱為線性相關。
2、按影響因素的多少分為單相關和復相關
3、如果研究的是一個結果標志同某一因素標志相關,就稱單相關。
4、如果分析若干因素標志對結果標志的影響,稱為復相關或多元相關。
以上內容參考:網路-相關分析
㈢ SPSS常用的相關性分析方法解析(轉載)
相關性分析旨在分析兩組數據之間是否相互影響,彼此是否獨立的變動。SPSS內部提供了多種分析數據相關性的方法:卡方檢驗(Chi-SquareTest),Pearson相關系數計算,Spearman相關系數計算和Kendall的tau-b(K)相關系數計算。這四種分析方法適用於不同的數據類型,下面向大家介紹常用的SPSS相關性分析方法。
1.卡方檢驗(Chi-SquareTest)
卡方檢驗(Chi-SquareTest)是由Pearson提出的一種統計方法,在一定的置信水平和自由度下,通過比較卡方統計量和卡方分布函數概率值,判斷實際概率與期望概率是否吻合,進而分析兩個分類變數的相關性。
卡方檢驗(Chi-SquareTest)適用於不服從正態分布的數據,兩組變數是無序的。使用SPSS進行卡方檢驗的操作方法,大家可以登錄SPSS中文網站進行學習,這里僅作原理性的介紹。如圖1是某種葯物單獨使用和葯物與放療同時使用時,治療是否有效的卡方檢驗結果。
圖1某地某種疾病發病人數統計
個案處理摘要顯示了有效數據和無效數據的數量。VAR00001*VAR00002交叉表顯示各變數對應的頻數,VAR00001列1代表單獨使用葯物,2代表葯物與放療同時使用,VAR00002行1代表有療效的人數,2代表無療效的人數。
行列變數為各為二組,自由度為(2-1)×(2-1)=1,Pearsonχ2值為22.475,顯著性數值為0.000小於0.05,有顯著性差異,不能接受無關假設,即單獨使用葯物與葯物放療同時進行有顯著性差異。
2.Pearson相關系數計算
Pearson相關系數用於評估兩組數據是否符合線性關系,不能用於符合曲線關系的數據,線性相關越強,Pearson相關系數就越接近1(線性遞增)或-1(線性遞減)。圖2為一組數據的線性相關性檢驗,可以看出,Peason相關系數0.984,表明兩者有較強的線性相關性,一般認為<0.3無相關性,0.3~0.7弱相關性,>0.7較強的相關性。
圖2Pearson檢驗結果
3.Spearman相關系數計算
Spearman相關系數適用於不滿足線性關系,且不滿足正態分布的數據,如圖3所示,實際這是兩組隨機產生的數據,用Spearman相關系數計算時,結果為0.257,<0.3無相關性,與Pearson相關系數類似,<0.3不相關,0.3~0.7為弱相關,>0.7為強相關。
圖3Spearman相關系數計算
4.Kendall的tau-b(K)相關系數計算
進行Kendall的tau-b(K)相關分析,需要滿足下列3個條件:
1.兩個變數是有序分類變數;
2.兩個變數相對應的研究對象是一定的。
例如調查工資與學歷之間的關系,兩個變數學歷和收入都是等級變數,符合條件1;兩個變數均對應同一研究對象:一個區域內的所有工作的成年人。符合條件2。收入等級分別為1高收入,2中收入,3低收入,學歷等級分別為1高學歷,2中等學歷,3低學歷。結果分析如圖4所示。相關系數為0.480,有弱的相關性。
圖4Kendalltau-b系數計算
對於不同種類的數據,應採用不同的統計方法進行相關性分析,SPSS內置了豐富的統計計算功能,可以充分滿足不同統計數據的使用需求。
㈣ 怎樣分析數據的相關性
在做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對於不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。
相關性分析是指對兩個或多個具備相關性的變數元素進行分析,相關性不等於因果性。
一、離散與離散變數之間的相關性
1、卡方檢驗
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。
它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
(1)假設燃改,多個變數之間不相關
(2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差別,計算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,變數相關的可能性越大,當P<=0.05,否定原假設,認為變數相關。
2、信息增益 和 信息增益率
在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。
信息熵,就是一個隨機變數的不確定性程度。
條件熵,就是在一個條件下,隨機變數的不確定性。
(1)信息增益:熵 - 條件熵
在一個條件下,信息不確定性減少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益蔽段宴越大,表示引入條件X之後,不純度減少得越多。信息增益越大,則兩個變數之間的相關性越大。
(2)信息增益率
假設,某個變數存在大量的不同值,例如ID,引入ID後,每個子節點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變數的取值數量差別很大時,引入取值多的變數,信息增益更大。因此,使用信息增益率,考慮到分支個數的影響。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、連續與連續變數之間的相關性
1、協方差
協方差,表達了兩個隨機變數的協同變化關系。如果兩個變數不相關,則協方差為0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
協方差只能對宏銀兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。
協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。
2、線性相關系數
也叫Pearson相關系數, 主要衡量兩個變數線性相關的程度。
r=cov(X,Y)/(D(X)D(Y))
相關系數是用協方差除以兩個隨機變數的標准差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。
線性相關系數必須建立在因變數與自變數是線性的關系基礎上,否則線性相關系數是無意義的。
三、連續與離散變數之間的相關性
1、連續變數離散化
將連續變數離散化,然後,使用離散與離散變數相關性分析的方法來分析相關性。
2、箱形圖
使用畫箱形圖的方法,看離散變數取不同值,連續變數的均值與方差及取值分布情況。
如果,離散變數取不同值,對應的連續變數的箱形圖差別不大,則說明,離散變數取不同值對連續變數的影響不大,相關性不高;反之,相關性高。