⑴ 相關性分析有哪幾種方法
在做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對於不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。
相關性分析是指對兩個或多個具備相關性的變數元素進行分析,相關性不等於因果性。
一、離散與離散變數之間的相關性
1、卡方檢驗
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。
它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。
(1)假設,多個變數之間不相關
(2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差別,計算得到卡方值 及 自由度
df=(C-1)(R-1)
(3)查卡方表,求p值
卡方值越大,P值越小,變數相關的可能性越大,當P<=0.05,否定原假設,認為變數相關。
2、信息增益 和 信息增益率
在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。
信息熵,就是一個隨機變數的不確定性程度。
條件熵,就是在一個條件下,隨機變數的不確定性。
(1)信息增益:熵 - 條件熵
在一個條件下,信息不確定性減少的程度。
Gain(Y,X)=H(Y)-H(Y|X)
信息增益越大,表示引入條件X之後,不純度減少得越多。信息增益越大,則兩個變數之間的相關性越大。
(2)信息增益率
假設,某個變數存在大量的不同值,例如ID,引入ID後,每個子節點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變數的取值數量差別很大時,引入取值多的變數,信息增益更大。因此,使用信息增益率,考慮到分支個數的影響。
Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)
二、連續與連續變數之間的相關性
1、協方差
協方差,表達了兩個隨機變數的協同變化關系。如果兩個變數不相關,則協方差為0。
Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。
協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。
2、線性相關系數
也叫Pearson相關系數, 主要衡量兩個變數線性相關的程度。
r=cov(X,Y)/(D(X)D(Y))
相關系數是用協方差除以兩個隨機變數的標准差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。
線性相關系數必須建立在因變數與自變數是線性的關系基礎上,否則線性相關系數是無意義的。
三、連續與離散變數之間的相關性
1、連續變數離散化
將連續變數離散化,然後,使用離散與離散變數相關性分析的方法來分析相關性。
2、箱形圖
使用畫箱形圖的方法,看離散變數取不同值,連續變數的均值與方差及取值分布情況。
如果,離散變數取不同值,對應的連續變數的箱形圖差別不大,則說明,離散變數取不同值對連續變數的影響不大,相關性不高;反之,相關性高。
⑵ 5種相關分析方法
相關分析(Analysis of Correlation)是網站分析中經常使用的分析方法之一。通過對不同特徵或數據間的關系進行分析,發現業務運營中的關鍵影響及驅動因素。並對業務的發展進行預測。本篇文章將介紹5種常用的分析方法。在開始介紹相關分析之前,需要特別說明的是相關關系不等於因果關系。
相關分析的方法很多,初級的方法可以快速發現數據之間的關系,如正相關,負相關或不相關。中級的方法可以對數據間關系的強弱進行度量,如完全相關,不完全相關等。高級的方法可以將數據間的關系轉化為模型,並通過模型對未來的業務發展進行預測。下面我們以一組廣告的成本數據和曝光量數據對每一種相關分析方法進行介紹。
以下是每日廣告曝光量和費用成本的數據,每一行代表一天中的花費和獲得的廣告曝光數量。憑經驗判斷,這兩組數據間應該存在聯系,但僅通過這兩組數據我們無法證明這種關系真實存在,也無法對這種關系的強度進行度量。因此我們希望通過相關分析來找出這兩組數據之間的關系,並對這種關系進度度量。
1,圖表相關分析(折線圖及散點圖)
第一種相關分析方法是將數據進行可視化處理,簡單的說就是繪制圖表。單純從數據的角度很難發現其中的趨勢和聯系,而將數據點繪製成圖表後趨勢和聯系就會變的清晰起來。對於有明顯時間維度的數據,我們選擇使用折線圖。
為了更清晰的對比這兩組數據的變化和趨勢,我們使用雙坐標軸折線圖,其中主坐標軸用來繪制廣告曝光量數據,次坐標軸用來繪制費用成本的數據。通過折線圖可以發現,費用成本和廣告曝光量兩組數據的變化和趨勢大致相同,從整體的大趨勢來看,費用成本和廣告曝光量兩組數據都呈現增長趨勢。從規律性來看費用成本和廣告曝光量數據每次的最低點都出現在同一天。從細節來看,兩組數據的短期趨勢的變化也基本一致。
經過以上這些對比,我們可以說廣告曝光量和費用成本之間有一些相關關系,但這種方法在整個分析過程和解釋上過於復雜,如果換成復雜一點的數據或者相關度較低的數據就會出現很多問題。
比折線圖更直觀的是散點圖。散點圖去除了時間維度的影響,只關注廣告曝光量和費用成本這里兩組數據間的關系。在繪制散點圖之前,我們將費用成本標識為X,也就是自變數,將廣告曝光量標識為y,也就是因變數。下面是一張根據每一天中廣告曝光量和費用成本數據繪制的散點圖,X軸是自變數費用成本數據,Y軸是因變數廣告曝光量數據。從數據點的分布情況可以發現,自變數x和因變數y有著相同的變化趨勢,當費用成本的增加後,廣告曝光量也隨之增加。
折線圖和散點圖都清晰的表示了廣告曝光量和費用成本兩組數據間的相關關系,優點是對相關關系的展現清晰,缺點是無法對相關關系進行准確的度量,缺乏說服力。並且當數據超過兩組時也無法完成各組數據間的相關分析。若要通過具體數字來度量兩組或兩組以上數據間的相關關系,需要使用第二種方法:協方差。
2,協方差及協方差矩陣
第二種相關分析方法是計算協方差。協方差用來衡量兩個變數的總體誤差,如果兩個變數的變化趨勢一致,協方差就是正值,說明兩個變數正相關。如果兩個變數的變化趨勢相反,協方差就是負值,說明兩個變數負相關。如果兩個變數相互獨立,那麼協方差就是0,說明兩個變數不相關。以下是協方差的計算公式:
下面是廣告曝光量和費用成本間協方差的計算過程和結果,經過計算,我們得到了一個很大的正值,因此可以說明兩組數據間是正相關的。廣告曝光量隨著費用成本的增長而增長。在實際工作中不需要按下面的方法來計算,可以通過Excel中COVAR()函數直接獲得兩組數據的協方差值。
協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。下面是三組數據x,y,z,的協方差矩陣計算公式。
協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。,
3,相關系數
第三個相關分析方法是相關系數。相關系數(Correlation coefficient)是反應變數之間關系密切程度的統計指標,相關系數的取值區間在1到-1之間。1表示兩個變數完全線性相關,-1表示兩個變數完全負相關,0表示兩個變數不相關。數據越趨近於0表示相關關系越弱。以下是相關系數的計算公式。
其中rxy表示樣本相關系數,Sxy表示樣本協方差,Sx表示X的樣本標准差,Sy表示y的樣本標准差。下面分別是Sxy協方差和Sx和Sy標准差的計算公式。由於是樣本協方差和樣本標准差,因此分母使用的是n-1。
Sxy樣本協方差計算公式:
Sx樣本標准差計算公式:
Sy樣本標准差計算公式:
下面是計算相關系數的過程,在表中我們分別計算了x,y變數的協方差以及各自的標准差,並求得相關系數值為0.93。0.93大於0說明兩個變數間正相關,同時0.93非常接近於1,說明兩個變數間高度相關。
在實際工作中,不需要上面這么復雜的計算過程,在Excel的數據分析模塊中選擇相關系數功能,設置好x,y變數後可以自動求得相關系數的值。在下面的結果中可以看到,廣告曝光量和費用成本的相關系數與我們手動求的結果一致。
相關系數的優點是可以通過數字對變數的關系進行度量,並且帶有方向性,1表示正相關,-1表示負相關,可以對變數關系的強弱進行度量,越靠近0相關性越弱。缺點是無法利用這種關系對數據進行預測,簡單的說就是沒有對變數間的關系進行提煉和固化,形成模型。要利用變數間的關系進行預測,需要使用到下一種相關分析方法,回歸分析。,
4,一元回歸及多元回歸
第四種相關分析方法是回歸分析。回歸分析(regression analysis)是確定兩組或兩組以上變數間關系的統計方法。回歸分析按照變數的數量分為一元回歸和多元回歸。兩個變數使用一元回歸,兩個以上變數使用多元回歸。進行回歸分析之前有兩個准備工作,第一確定變數的數量。第二確定自變數和因變數。我們的數據中只包含廣告曝光量和費用成本兩個變數,因此使用一元回歸。根據經驗廣告曝光量是隨著費用成本的變化而改變的,因此將費用成本設置為自變數x,廣告曝光量設置為因變數y。
以下是一元回歸方程,其中y表示廣告曝光量,x表示費用成本。b0為方程的截距,b1為斜率,同時也表示了兩個變數間的關系。我們的目標就是b0和b1的值,知道了這兩個值也就知道了變數間的關系。並且可以通過這個關系在已知成本費用的情況下預測廣告曝光量。
這是b1的計算公式,我們通過已知的費用成本x和廣告曝光量y來計算b1的值。
以下是通過最小二乘法計算b1值的具體計算過程和結果,經計算,b1的值為5.84。同時我們也獲得了自變數和因變數的均值。通過這三個值可以計算出b0的值。
以下是b0的計算公式,在已知b1和自變數與因變數均值的情況下,b0的值很容易計算。
將自變數和因變數的均值以及斜率b1代入到公式中,求出一元回歸方程截距b0的值為374。這里b1我們保留兩位小數,取值5.84。
在實際的工作中不需要進行如此繁瑣的計算,Excel可以幫我們自動完成並給出結果。在Excel中使用數據分析中的回歸功能,輸入自變數和因變數的范圍後可以自動獲得b0(Intercept)的值362.15和b1的值5.84。這里的b0和之前手動計算獲得的值有一些差異,因為前面用於計算的b1值只保留了兩位小數。
這里還要單獨說明下R Square的值0.87。這個值叫做判定系數,用來度量回歸方程的擬合優度。這個值越大,說明回歸方程越有意義,自變數對因變數的解釋度越高。
將截距b0和斜率b1代入到一元回歸方程中就獲得了自變數與因變數的關系。費用成本每增加1元,廣告曝光量會增加379.84次。通過這個關系我們可以根據成本預測廣告曝光量數據。也可以根據轉化所需的廣告曝光量來反推投入的費用成本。獲得這個方程還有一個更簡單的方法,就是在Excel中對自變數和因變數生成散點圖,然後選擇添加趨勢線,在添加趨勢線的菜單中選中顯示公式和顯示R平方值即可。
以上介紹的是兩個變數的一元回歸方法,如果有兩個以上的變數使用Excel中的回歸分析,選中相應的自變數和因變數范圍即可。下面是多元回歸方程。
5,信息熵及互信息
最後一種相關分析方法是信息熵與互信息。前面我們一直在圍繞消費成本和廣告曝光量兩組數據展開分析。實際工作中影響最終效果的因素可能有很多,並且不一定都是數值形式。比如我們站在更高的維度來看之前的數據。廣告曝光量只是一個過程指標,最終要分析和關注的是用戶是否購買的狀態。而影響這個結果的因素也不僅僅是消費成本或其他數值化指標。可能是一些特徵值。例如用戶所在的城市,用戶的性別,年齡區間分布,以及是否第一次到訪網站等等。這些都不能通過數字進行度量。
度量這些文本特徵值之間相關關系的方法就是互信息。通過這種方法我們可以發現哪一類特徵與最終的結果關系密切。下面是我們模擬的一些用戶特徵和數據。在這些數據中我們忽略之前的消費成本和廣告曝光量數據,只關注特徵與狀態的關系。
對於信息熵和互信息具體的計算過程請參考我前面的文章《 決策樹分類和預測演算法的原理及實現 》,這里直接給出每個特徵的互信息值以及排名結果。經過計算城市與購買狀態的相關性最高,所在城市為北京的用戶購買率較高。
到此為止5種相關分析方法都已介紹完,每種方法各有特點。其中圖表方法最為直觀,相關系數方法可以看到變數間兩兩的相關性,回歸方程可以對相關關系進行提煉,並生成模型用於預測,互信息可以對文本類特徵間的相關關系進行度量。
⑶ 簡述變數間的相關分析有哪些方法
《變數間的相關關系》的主要內容為採用定性和定量相結合的方法研究變數之間的相關關系,主要研究線性相關關系.主要概念有「相關關系」、「散點圖」、「回歸直線和回歸直線方程」、「相關系數」等。
變數之間除了函數關系外,還有相關關系。
例:
(1)商品銷售收入與廣告支出經費之間的關系
(2)糧食產量與施肥量之間的關系
(3)人體內脂肪含量與年齡之間的關系 不同點:函數關系是一種確定的關系;而 相關關系是一種非確定關系。
分類
按相關的形式分為線性相關和非線性相關
1、一種現象的一個數值和另一現象相應的數值在指教坐標系中確定為一個點,稱為線性相關。
2、按影響因素的多少分為單相關和復相關
3、如果研究的是一個結果標志同某一因素標志相關,就稱單相關。
4、如果分析若干因素標志對結果標志的影響,稱為復相關或多元相關。
以上內容參考:網路-相關分析
⑷ 如何進行相關性分析 進行相關性分析的方法
1、線性相關系數也叫Pearson相關系數, 主要衡量兩個變數線性相關的程度。r=cov(X,Y)/(D(X)D(Y))相關系數是用協方差除以兩個隨機變數的標准差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。線性相關系數必須建立在因變數與自變數是線性的關系基礎上,否則線性相關系數是無意義的。
2、連續與離散變數之間的相關性,連續變數離散化將連續變數離散化,然後,使用離散與離散變數相關性分析的方法來分析相關性。使用畫箱形圖的方法,看離散變數取不同值,連續變數的均值與方差及取值分布情況。
3、相關分析相當於先檢驗一下眾多的自變數和因變數之間是否存在相關性,當然通過相關分析求得相關系數沒有回歸分析的准確。如果相關分析時各自變數跟因變數之間沒有相關性 ,就沒有必要再做回歸分析;如果有一定的相關性了,然後再通過回歸分析進一步驗證他們之間的准確關系。同時 相關分析還有一個目的,可以查看一下 自變數之間的共線性程度如何,如果自變數間的相關性非常大,可能表示存在共線性。
⑸ 相關性分析的概念及方法
相關分析就是根據一個因素(變數)與另一個因素(變數)的相關系數是否大於臨界值,判斷兩個因素是否相關。在相關的因素之間,根據相關系數大小判斷兩個因素關系的密切程度,相關系數越大,說明兩者關系越密切(何曉群,2002)。這種方法從總體上對問題可以有一個大致認識,但卻很難在錯綜復雜的關系中把握現象的本質,找出哪些是主要因素,哪些是次要因素,有時甚至得出錯誤結論。為此,提出使用數學上的偏相關分析與逐步回歸相結合的辦法來解決這類問題。
偏相關性分析基本原理是,若眾多因素都對某一因素都存在影響,當分析某一因素的影響大小時,把其他因素都限制在某一水平范圍內,單獨分析該因素對某一因素所帶來的影響,從而消除其他因素帶來的干擾。比如分析壓實作用(或埋深)對孔隙度和滲透率的影響時,便把岩石成分、粒度、膠結類型等都限制在一定范圍來單獨討論壓實作用,而數學上的偏相關分析恰恰就是解決這類問題的方法,偏相關系數的大小就代表了這種影響程度。結合多因素邊引入、邊剔除的逐步回歸分析方法,也可消除多個因素(自變數)間的相互干擾和多個因素對因變數的重復影響,保留其中的有用信息,挑選出對因變數影響較顯著的因素,剔除了一些次要因素,被挑選出的主要因素的標准回歸系數和偏回歸平方和的大小反映了各參數對因變數(充滿度)的影響大小。因此根據各因素(自變數)與因變數間的偏相關系數大小,結合標准回歸系數和偏回歸平方和,便可以將各因素對因變數的影響大小進行定量排序。其基本步驟如下:
第一步,找出所有可能對因變數產生影響的因素(或參數),同時對一些非數值型參數進行量化處理;
第二步,計算因變數與各參數間的簡單相關系數,根據這些簡單相關系數的大小,初步分析它們與因變數間的簡單相關關系;
第三步,計算因變數與各參數間的偏相關系數、標准回歸系數和偏回歸平方和;
第四步,根據偏相關系數的大小,再結合標准回歸系數和偏回歸平方和,綜合分析因變數與各參數間的關系密切程度,其值越大,關系越密切,影響越大,反之亦然。
⑹ 在解決實際問題時常用的分析方法有哪些
目前在實際工作中,通常採用的分析方法有五種:
1、對比分析法
也叫比較分析法,是通過實際數與基數的對比來提示實際數與基數之間的差異,藉以了解經濟活動的成績和問題的一種分析方法。在科學探究活動中,常常用到對比分析法,這種分析法與等效替代法相似。對比法,戲劇常用的一種主要藝術手法。一般有三種對比:人物對比、場面對比、細節對比。
2、因素分析法
又稱經驗分析法,是一種定性分析方法。該方法主要指根據價值工程對象選擇應考慮的各種因素,憑借分析人員的知識和經驗集體研究確定選擇對象。該方法簡單易行,要求價值工程人員對產品熟悉,經驗豐富,在研究對象彼此相差較大或時間緊迫的情況下比較適用,缺點是無定量分析、主觀影響大。
因素分析法是利用統計指數體系分析現象總變動中各個因素影響程度的一種統計分析方法,包括連環替代法、差額分析法、指標分解法等。因素分析法是現代統計學中一種重要而實用的方法,它是多元統計分析的一個分支。使用這種方法能夠使研究者把一組反映事物性質、狀態、特點等的變數簡化為少數幾個能夠反映出事物內在聯系的、固有的、決定事物本質特徵的因素。
因素分析法的最大功用,就是運用數學方法對可觀測的事物在發展中所表現出的外部特徵和聯系進行由表及裡、由此及彼、去粗取精、去偽存真的處理,從而得出客觀事物普遍本質的概括。其次,使用因素分析法可以使復雜的研究課題大為簡化,並保持其基本的信息量。
3、相關分析法
揭示某一礦區鑽孔自然彎曲趨勢的另一方法是進行相關分析,又稱回歸分析,即利用數理統計原理,求出反映鑽孔自然彎曲趨勢的回歸方程。通常設孔深為自變數,頂角和方位角為因變數,建立相關關系式這兩個相關關系式就代表鑽孔頂角和鑽孔方位角隨孔深而變化的規律。
4、差額計演算法
確定引起某個經濟指標變動的各個因素的影響程度的一種計算方法。與"連續替代法"內容相同。在幾個相互聯系的因素共同影響著某一個經濟指標的情況下,可應用這一方法計算各個因素對該經濟指標發生變動的影響程度。在衡量某一因素對於一個經濟指標的影響時,假定只有這一因素變動,而其餘因素不變。確定各個因素替代順序,然後按照這一順序進行替代計算。這種方法是假定各個因素依照一定的順序發生變動而進行替代計算的,因此分析出來的結果具有一定程度的假定性。
5、比例法
比例法亦稱「間接計演算法」。它是利用過去兩個相關經濟指標之間長期形成的穩定比率來推算確定計劃期有關指標的一種方法。
(6)相關分析的方法有哪些擴展閱讀
分析法是「綜合法」的對稱。把復雜的經濟現象分解成許多簡單組成部分,分別進行研究的方法。其實質是:通過調查研究,找出事物的內在矛盾,並對矛盾的各個方面進行深入研究。剔除那些偶然的、非本質的東西,抽象出必然的、本質的因素,並由此得出一些反映本質的簡單規定,以把握矛盾的各個方面的特殊性。
分析法所提供的只是對於經濟現象的片面理解,它還不能從總體上、從各個部分之間的相互聯繫上來把握經濟現象。因此,在分析的基礎上,還必須運用綜合的方法,使分析得到的各個方面的本質規定,按照經濟現象內在的邏輯聯系,形成有機的體系,這樣才能全面、深刻地認識經濟現象,提出解決問題的有效辦法。
適用范圍:不易直接證明結論;從結論很顯然能推出明顯正確的條件。
⑺ 5種常用的相關分析方法
初級的方法可以快速發現數據之間的關系,如正相關,負相關或不相關。
中級的方法可以對數據間關系的強弱進行度量,如完全相關,不完全相關等。
高級的方法可以將數據間的關系轉化為模型,並通過模型對未來的業務發展進行預測。
折線圖、散點圖
協方差
相關系數(相關系數的取值區間在1到-1之間)
R Square的值叫做判定系數,用來度量回歸方程的擬合優度。這個值越大,說明回歸方程越有意義,自變數對因變數的解釋度越高。
最後一種相關分析方法是信息熵與互信息。可能是一些特徵值。例如用戶所在的城市,用戶的性別,年齡區間分布,以及是否第一次到訪網站等等。這些都不能通過數字進行度量。度量這些文本特徵值之間相關關系的方法就是互信息。
⑻ SPSS常用的相關性分析方法解析(轉載)
相關性分析旨在分析兩組數據之間是否相互影響,彼此是否獨立的變動。SPSS內部提供了多種分析數據相關性的方法:卡方檢驗(Chi-SquareTest),Pearson相關系數計算,Spearman相關系數計算和Kendall的tau-b(K)相關系數計算。這四種分析方法適用於不同的數據類型,下面向大家介紹常用的SPSS相關性分析方法。
1.卡方檢驗(Chi-SquareTest)
卡方檢驗(Chi-SquareTest)是由Pearson提出的一種統計方法,在一定的置信水平和自由度下,通過比較卡方統計量和卡方分布函數概率值,判斷實際概率與期望概率是否吻合,進而分析兩個分類變數的相關性。
卡方檢驗(Chi-SquareTest)適用於不服從正態分布的數據,兩組變數是無序的。使用SPSS進行卡方檢驗的操作方法,大家可以登錄SPSS中文網站進行學習,這里僅作原理性的介紹。如圖1是某種葯物單獨使用和葯物與放療同時使用時,治療是否有效的卡方檢驗結果。
圖1某地某種疾病發病人數統計
個案處理摘要顯示了有效數據和無效數據的數量。VAR00001*VAR00002交叉表顯示各變數對應的頻數,VAR00001列1代表單獨使用葯物,2代表葯物與放療同時使用,VAR00002行1代表有療效的人數,2代表無療效的人數。
行列變數為各為二組,自由度為(2-1)×(2-1)=1,Pearsonχ2值為22.475,顯著性數值為0.000小於0.05,有顯著性差異,不能接受無關假設,即單獨使用葯物與葯物放療同時進行有顯著性差異。
2.Pearson相關系數計算
Pearson相關系數用於評估兩組數據是否符合線性關系,不能用於符合曲線關系的數據,線性相關越強,Pearson相關系數就越接近1(線性遞增)或-1(線性遞減)。圖2為一組數據的線性相關性檢驗,可以看出,Peason相關系數0.984,表明兩者有較強的線性相關性,一般認為<0.3無相關性,0.3~0.7弱相關性,>0.7較強的相關性。
圖2Pearson檢驗結果
3.Spearman相關系數計算
Spearman相關系數適用於不滿足線性關系,且不滿足正態分布的數據,如圖3所示,實際這是兩組隨機產生的數據,用Spearman相關系數計算時,結果為0.257,<0.3無相關性,與Pearson相關系數類似,<0.3不相關,0.3~0.7為弱相關,>0.7為強相關。
圖3Spearman相關系數計算
4.Kendall的tau-b(K)相關系數計算
進行Kendall的tau-b(K)相關分析,需要滿足下列3個條件:
1.兩個變數是有序分類變數;
2.兩個變數相對應的研究對象是一定的。
例如調查工資與學歷之間的關系,兩個變數學歷和收入都是等級變數,符合條件1;兩個變數均對應同一研究對象:一個區域內的所有工作的成年人。符合條件2。收入等級分別為1高收入,2中收入,3低收入,學歷等級分別為1高學歷,2中等學歷,3低學歷。結果分析如圖4所示。相關系數為0.480,有弱的相關性。
圖4Kendalltau-b系數計算
對於不同種類的數據,應採用不同的統計方法進行相關性分析,SPSS內置了豐富的統計計算功能,可以充分滿足不同統計數據的使用需求。
⑼ 關聯分析的常用方法
方法如下:
1、圖標分析
將數據進行可視化處理,簡單的說就是繪制圖表。單純從數據的角度很難發現其中的趨勢和聯系,而將數據點繪製成圖表後趨勢和聯系就會變的清晰起來。對於有明顯時間維度的數據,我們選擇使用折線圖。
2、協方差及協方差矩陣分析
第二種相關分析方法是計算協方差。協方差用來衡量兩個變數的總體誤差,如果兩個變數的變化趨勢一致,協方差就是正值,說明兩個變數正相關。如果兩個變數的變化趨勢相反,協方差就是負值,說明兩個變數負相關。如果兩個變數相互獨立,那麼協方差就是0,說明兩個變數不相關。
3、相關系數分析
第三個相關分析方法是相關系數。相關系數(Correlation coefficient)是反應變數之間關系密切程度的統計指標,相關系數的取值區間在1到-1之間。1表示兩個變數完全線性相關,-1表示兩個變數完全負相關,0表示兩個變數不相關。數據越趨近於0表示相關關系越弱。
特點說明
第一,以自然群體為材料,無須構建作圖群體,極大縮短了基因定位的周期。第二,通過統計群體的多個性狀信息和基因組信息,可實現多個基因定位,而連鎖作圖只能定位某一相對性狀。第三,關聯分析作圖群體的群體結構具備豐富的遺傳多樣性,使得定位更加精確,檢測出小效應的位點。但由於群體結構的存在,關聯分析往往會出現假陽性的結果。