『壹』 相關性用什麼檢驗方法
一.線性相關分析:研究兩個變數間線性關系的程度
用相關系數r來描述,關於r的解讀:
(1)正相關:如果x,y變化的方向一致,如身高與體重的關系,r>0;一般地,
·|r|>0.95 存在顯著性相關;
·|r|≥0.8 高度相關;
·0.5≤|r|<0.8 中度相關;
·0.3≤|r|<0.5 低度相關;
·|r|<0.3 關系極弱,認為不相關
(2)負相關:如果x,y變化的方向相反,如吸煙與肺功能的關系,r<0;
(3)無線性相關:r=0。
如果變數Y與X間是函數關系,則r=1或r=-1;如果變數Y與X間是統計關系,則-1<r<1。
(4)r的計算有三種:
①Pearson相關系數:對定距連續變數的數據進行計算。
②Spearman和Kendall相關系數:對分類變數的數據或變數值的分布明顯非正態或分布不明時,計算時先對離散數據進行排序或對定距變數值排(求)秩。
實際上,對任何類型的變數,都可以使用相應的指標進行相關分析。也就是,有各種參數,對適合它們的變數進行分析。
『貳』 濡備綍閫夋嫨鍚堥傜殑媯楠屾柟娉曟潵榪涜岀浉鍏崇郴鏁版楠岋紵
鍦ㄨ繘琛岀浉鍏崇郴鏁版楠屾椂錛岄夋嫨鍚堥傜殑媯楠屾柟娉曟槸闈炲父閲嶈佺殑銆備互涓嬫槸涓浜涢夋嫨鍚堥傛楠屾柟娉曠殑姝ラわ細
1.紜瀹氬彉閲忕被鍨嬶細棣栧厛錛岄渶瑕佺『瀹氭墍鐮旂┒鐨勫彉閲忔槸榪炵畫鍨嬪彉閲忚繕鏄紱繪暎鍨嬪彉閲忋傚逛簬榪炵畫鍨嬪彉閲忥紝鍙浠ヤ嬌鐢ㄧ毊灝旈婄浉鍏崇郴鏁版垨鏂鐨灝旀浖絳夌駭鐩稿叧緋繪暟錛涘逛簬紱繪暎鍨嬪彉閲忥紝鍙浠ヤ嬌鐢ㄧ偣浜屽垪鐩稿叧緋繪暟鎴栧崱鏂圭浉鍏崇郴鏁般
2.紜瀹氭牱鏈澶у皬錛氭牱鏈澶у皬涔熸槸閫夋嫨鍚堥傛楠屾柟娉曠殑閲嶈佸洜緔犮傚傛灉鏍鋒湰杈冨皬錛屽彲浠ラ夋嫨浣跨敤t媯楠屾垨F媯楠屾潵姣旇緝涓や釜鍙橀噺涔嬮棿鐨勫樊寮傦紱濡傛灉鏍鋒湰杈冨ぇ錛屽彲浠ヤ嬌鐢ㄥ崱鏂規楠屾垨鏂瑰樊鍒嗘瀽鏉ユ瘮杈冨氫釜鍙橀噺涔嬮棿鐨勫樊寮傘
3.紜瀹氭暟鎹鍒嗗竷錛氭暟鎹鍒嗗竷涔熸槸閫夋嫨鍚堥傛楠屾柟娉曠殑閲嶈佸洜緔犮傚傛灉鏁版嵁鍛堟f佸垎甯冿紝鍙浠ヤ嬌鐢ㄥ弬鏁版楠屾柟娉曪紝濡倀媯楠屻丗媯楠屽拰鏂瑰樊鍒嗘瀽錛涘傛灉鏁版嵁涓嶅憟姝f佸垎甯冿紝鍙浠ヤ嬌鐢ㄩ潪鍙傛暟媯楠屾柟娉曪紝濡俉ilcoxon絎﹀彿縐╂楠屻丮ann-WhitneyU媯楠屽拰Kruskal-WallisH媯楠屻
4.紜瀹氱爺絀剁洰鐨勶細鏈鍚庯紝闇瑕佺『瀹氱爺絀剁殑鐩鐨勬槸浠涔堛傚傛灉鐮旂┒鐨勭洰鐨勬槸姣旇緝涓や釜鍙橀噺涔嬮棿鐨勭浉鍏蟲э紝鍙浠ラ夋嫨浣跨敤鐨灝旈婄浉鍏崇郴鏁版垨鏂鐨灝旀浖絳夌駭鐩稿叧緋繪暟錛涘傛灉鐮旂┒鐨勭洰鐨勬槸姣旇緝澶氫釜鍙橀噺涔嬮棿鐨勭浉鍏蟲э紝鍙浠ラ夋嫨浣跨敤涓繪垚鍒嗗垎鏋愭垨鍥犲瓙鍒嗘瀽絳夊氬厓緇熻″垎鏋愭柟娉曘
鎬諱箣錛岄夋嫨鍚堥傜殑媯楠屾柟娉曢渶瑕佽冭檻澶氫釜鍥犵礌錛屽寘鎷鍙橀噺綾誨瀷銆佹牱鏈澶у皬銆佹暟鎹鍒嗗竷鍜岀爺絀剁洰鐨勭瓑銆傚湪瀹為檯搴旂敤涓錛岄渶瑕佹牴鎹鍏蜂綋鎯呭喌榪涜岀患鍚堣冭檻錛屽苟緇撳悎涓撲笟鐭ヨ瘑鍜岀粡楠岃繘琛岄夋嫨銆
『叄』 相關性分析有哪幾種方法
在做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對於不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。
相關性分析是指對兩個或多個具備相關性的變數元素進行分析,相關性不等於因果性。
一、離散與離散變數之間的相關性
1、卡方檢驗
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。
它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
(1)假設,多個變數之間不相關
(2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差別,計算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,變數相關的可能性越大,當P<=0.05,否定原假設,認為變數相關。
2、信息增益 和 信息增益率
在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。
信息熵,就是一個隨機變數的不確定性程度。
條件熵,就是在一個條件下,隨機變數的不確定性。
(1)信息增益:熵 - 條件熵
在一個條件下,信息不確定性減少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益越大,表示引入條件X之後,不純度減少得越多。信息增益越大,則兩個變數之間的相關性越大。
(2)信息增益率
假設,某個變數存在大量的不同值,例如ID,引入ID後,每個子節點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變數的取值數量差別很大時,引入取值多的變數,信息增益更大。因此,使用信息增益率,考慮到分支個數的影響。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、連續與連續變數之間的相關性
1、協方差
協方差,表達了兩個隨機變數的協同變化關系。如果兩個變數不相關,則協方差為0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。
協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。
2、線性相關系數
也叫Pearson相關系數, 主要衡量兩個變數線性相關的程度。
r=cov(X,Y)/(D(X)D(Y))
相關系數是用協方差除以兩個隨機變數的標准差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。
線性相關系數必須建立在因變數與自變數是線性的關系基礎上,否則線性相關系數是無意義的。
三、連續與離散變數之間的相關性
1、連續變數離散化
將連續變數離散化,然後,使用離散與離散變數相關性分析的方法來分析相關性。
2、箱形圖
使用畫箱形圖的方法,看離散變數取不同值,連續變數的均值與方差及取值分布情況。
如果,離散變數取不同值,對應的連續變數的箱形圖差別不大,則說明,離散變數取不同值對連續變數的影響不大,相關性不高;反之,相關性高。