導航:首頁 > 研究方法 > 分析因變數關系的方法

分析因變數關系的方法

發布時間:2023-04-06 02:19:06

1. 如何分析兩個變數之間的關系

1、首先,大家平時理解的變數是單緯的,而不是你說的多維的。因此,對spss而言,X1、X2、X3、Y1、Y2、Y3分別是6個變數。
2、spss的相關性分析中可以分別統計這6個變數間的相關性。通過他們之間相關性的計算,你或許可以得到你所說的X與Y之間的相關性,但這種相關性只是你推測的定性描述而已,是不能定量描述的。
3、主成分分析,目的是將分析對象的多個維度簡化為少數幾個維度,方便分析,這樣做的前提是維度很多且其中的多個維度之間有較強的相關性。而不是你想像的可以把X1、X2、X3降維成一個變數,因為只有三個維度,已經很少了,這三個維度可以做降維分析的可能性幾乎沒有。
4、回歸分析,只有一個因變數,可以有多個自變數,最終算得因變數與自變數間的回歸關系。
估計你只是自己想像了一個例子,實際中一般是不會有這樣的分析案例的。

2. 相關性分析的概念及方法

相關分析就是根據一個因素(變數)與另一個因素(變數)的相關系數是否大於臨界值,判斷兩個因素是否相關。在相關的因素之間,根據相關系數大小判斷兩個因素關系的密切程度,相關系數越大,說明兩者關系越密切(何曉群,2002)。這種方法從總體上對問題可以有一個大致認識,但卻很難在錯綜復雜的關系中把握現象的本質,找出哪些是主要因素,哪些是次要因素,有時甚至得出錯誤結論。為此,提出使用數學上的偏相關分析與逐步回歸相結合的辦法來解決這類問題。

偏相關性分析基本原理是,若眾多因素都對某一因素都存在影響,當分析某一因素的影響大小時,把其他因素都限制在某一水平范圍內,單獨分析該因素對某一因素所帶來的影響,從而消除其他因素帶來的干擾。比如分析壓實作用(或埋深)對孔隙度和滲透率的影響時,便把岩石成分、粒度、膠結類型等都限制在一定范圍來單獨討論壓實作用,而數學上的偏相關分析恰恰就是解決這類問題的方法,偏相關系數的大小就代表了這種影響程度。結合多因素邊引入、邊剔除的逐步回歸分析方法,也可消除多個因素(自變數)間的相互干擾和多個因素對因變數的重復影響,保留其中的有用信息,挑選出對因變數影響較顯著的因素,剔除了一些次要因素,被挑選出的主要因素的標准回歸系數和偏回歸平方和的大小反映了各參數對因變數(充滿度)的影響大小。因此根據各因素(自變數)與因變數間的偏相關系數大小,結合標准回歸系數和偏回歸平方和,便可以將各因素對因變數的影響大小進行定量排序。其基本步驟如下:

第一步,找出所有可能對因變數產生影響的因素(或參數),同時對一些非數值型參數進行量化處理;

第二步,計算因變數與各參數間的簡單相關系數,根據這些簡單相關系數的大小,初步分析它們與因變數間的簡單相關關系;

第三步,計算因變數與各參數間的偏相關系數、標准回歸系數和偏回歸平方和;

第四步,根據偏相關系數的大小,再結合標准回歸系數和偏回歸平方和,綜合分析因變數與各參數間的關系密切程度,其值越大,關系越密切,影響越大,反之亦然。

3. 相關性分析有哪幾種方法

在做數據分析時,為了提煉觀點,相關性分析是必不可少,而且尤為重要的一個環節。但是,對於不同類型的數據,相關性分析的方法都各不相同。本文,主要按照不同的數據類型,來對各種相關性分析方法進行梳理總結。

相關性分析是指對兩個或多個具備相關性的變數元素進行分析,相關性不等於因果性。

一、離散與離散變數之間的相關性
1、卡方檢驗

卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非參數檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。

它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

(1)假設,多個變數之間不相關

(2)根據假設計算得出每種情況的理論值,根據理論值與實際值的差別,計算得到卡方值 及 自由度

df=(C-1)(R-1)

(3)查卡方表,求p值

卡方值越大,P值越小,變數相關的可能性越大,當P<=0.05,否定原假設,認為變數相關。

2、信息增益 和 信息增益率

在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。

信息熵,就是一個隨機變數的不確定性程度。

條件熵,就是在一個條件下,隨機變數的不確定性。

(1)信息增益:熵 - 條件熵

在一個條件下,信息不確定性減少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大,表示引入條件X之後,不純度減少得越多。信息增益越大,則兩個變數之間的相關性越大。

(2)信息增益率

假設,某個變數存在大量的不同值,例如ID,引入ID後,每個子節點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變數的取值數量差別很大時,引入取值多的變數,信息增益更大。因此,使用信息增益率,考慮到分支個數的影響。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、連續與連續變數之間的相關性
1、協方差

協方差,表達了兩個隨機變數的協同變化關系。如果兩個變數不相關,則協方差為0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

當 cov(X, Y)>0時,表明 X與Y 正相關;

當 cov(X, Y)<0時,表明X與Y負相關;

當 cov(X, Y)=0時,表明X與Y不相關。

協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。

協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。

2、線性相關系數

也叫Pearson相關系數, 主要衡量兩個變數線性相關的程度。

r=cov(X,Y)/(D(X)D(Y))

相關系數是用協方差除以兩個隨機變數的標准差。相關系數的大小在-1和1之間變化。再也不會出現因為計量單位變化,而數值暴漲的情況了。

線性相關系數必須建立在因變數與自變數是線性的關系基礎上,否則線性相關系數是無意義的。

三、連續與離散變數之間的相關性
1、連續變數離散化

將連續變數離散化,然後,使用離散與離散變數相關性分析的方法來分析相關性。

2、箱形圖

使用畫箱形圖的方法,看離散變數取不同值,連續變數的均值與方差及取值分布情況。

如果,離散變數取不同值,對應的連續變數的箱形圖差別不大,則說明,離散變數取不同值對連續變數的影響不大,相關性不高;反之,相關性高。

4. 運用什麼模型能具體分析變數和因數的關系

回歸分析方法可以!所謂回歸分析法,是在掌握蔽滾大量觀察數據的基礎上,利用數理統計方法建立因變數與自變數稿消之間的回歸關系函數表達式(稱回歸方程式)。回歸分析中,當研究的因果關系只涉及因變數和一個自鍵並知變數時,叫做一元回歸分析;當研究的因果

5. spss分析多個因變數的關系是什麼

spss的相關性分析中可以分別統計這6個變數間的相關性,通過他們之間相關性的計算,這種相關性只是你推測的定性描述而已,是不能定量描述的。

自變數之間存在共線性,說明自變數枝物所提供的信息是重疊的,可以刪除不重要的自變數減少重復信息,但從模型中刪去自變數時應該注意:從實際經濟分析確定為相對不重要並從偏相關系數檢驗證實為共線性原因的那些變數中刪除,如果刪除不當,會產生模型設定誤差,造成雹搭春參數估計嚴重有偏的後果。

多重共線性問題的實質是樣本信息的不充分而導致模型參數的不能精確估計,因此追加樣本信息是解決該問題的一條有效途徑。但是,由於資料收集及調查的困難,要追加樣本信息在實踐中有時並不容源耐易。

兩連續變數線性回歸模型的適用條件:

(1)線性趨勢:自變數與因變數之間為線性關系,可通過散點圖判斷。

(2)獨立性:因變數Y的值是相互獨立的,它們之間沒有聯系。即殘差必須相互獨立且不存在自相關;否則,應採用自回歸模型。

(3)正態性:因變數Y服從正態分布,即殘差要求服從正態分布。

6. spss中的定類變數(自變數)與定距變數(因變數)之間的關系分析。

一般分類自變數與連續因變數的關系分析 也就是用方差分析,特別是像你這個數據 分類自變數只有兩類,用均值t檢驗也可以了。
當然凡可以使用獨立樣本t檢驗的 自然也可以採用方差分析,所以你使用方差分析也沒錯,
從你的結果中看兩組的方差不齊,此時在方差分析的選項中有一項是當方差不齊時選用的方法。

建議你直接採用獨立樣本t檢驗就好了,結果會輸出方差齊性和不齊性兩種結果

7. 簡述變數間的相關分析有哪些方法

《變數間的相關關系》的主要內容為採用定性和定量相結合的方法研究變數之間的相關關系,主要研究線性相關關系.主要概念有「相關關系」、「散點圖」、「回歸直線和回歸直線方程」、「相關系數」等。

變數之間除了函數關系外,還有相關關系。

例:

(1)商品銷售收入與廣告支出經費之間的關系

(2)糧食產量與施肥量之間的關系

(3)人體內脂肪含量與年齡之間的關系 不同點:函數關系是一種確定的關系;而 相關關系是一種非確定關系。

分類

按相關的形式分為線性相關和非線性相關

1、一種現象的一個數值和另一現象相應的數值在指教坐標系中確定為一個點,稱為線性相關。

2、按影響因素的多少分為單相關和復相關

3、如果研究的是一個結果標志同某一因素標志相關,就稱單相關。

4、如果分析若干因素標志對結果標志的影響,稱為復相關或多元相關。

以上內容參考:網路-相關分析

8. 5種相關分析方法

相關分析(Analysis of Correlation)是網站分析中經常使用的分析方法之一。通過對不同特徵或數據間的關系進行分析,發現業務運營中的關鍵影響及驅動因素。並對業務的發展進行預測。本篇文章將介紹5種常用的分析方法。在開始介紹相關分析之前,需要特別說明的是相關關系不等於因果關系。

相關分析的方法很多,初級的方法可以快速發現數據之間的關系,如正相關,負相關或不相關。中級的方法可以對數據間關系的強弱進行度量,如完全相關,不完全相關等。高級的方法可以將數據間的關系轉化為模型,並通過模型對未來的業務發展進行預測。下面我們以一組廣告的成本數據和曝光量數據對每一種相關分析方法進行介紹。

以下是每日廣告曝光量和費用成本的數據,每一行代表一天中的花費和獲得的廣告曝光數量。憑經驗判斷,這兩組數據間應該存在聯系,但僅通過這兩組數據我們無法證明這種關系真實存在,也無法對這種關系的強度進行度量。因此我們希望通過相關分析來找出這兩組數據之間的關系,並對這種關系進度度量。

1,圖表相關分析(折線圖及散點圖)

第一種相關分析方法是將數據進行可視化處理,簡單的說就是繪制圖表。單純從數據的角度很難發現其中的趨勢和聯系,而將數據點繪製成圖表後趨勢和聯系就會變的清晰起來。對於有明顯時間維度的數據,我們選擇使用折線圖。

為了更清晰的對比這兩組數據的變化和趨勢,我們使用雙坐標軸折線圖,其中主坐標軸用來繪制廣告曝光量數據,次坐標軸用來繪制費用成本的數據。通過折線圖可以發現,費用成本和廣告曝光量兩組數據的變化和趨勢大致相同,從整體的大趨勢來看,費用成本和廣告曝光量兩組數據都呈現增長趨勢。從規律性來看費用成本和廣告曝光量數據每次的最低點都出現在同一天。從細節來看,兩組數據的短期趨勢的變化也基本一致。

經過以上這些對比,我們可以說廣告曝光量和費用成本之間有一些相關關系,但這種方法在整個分析過程和解釋上過於復雜,如果換成復雜一點的數據或者相關度較低的數據就會出現很多問題。

比折線圖更直觀的是散點圖。散點圖去除了時間維度的影響,只關注廣告曝光量和費用成本這里兩組數據間的關系。在繪制散點圖之前,我們將費用成本標識為X,也就是自變數,將廣告曝光量標識為y,也就是因變數。下面是一張根據每一天中廣告曝光量和費用成本數據繪制的散點圖,X軸是自變數費用成本數據,Y軸是因變數廣告曝光量數據。從數據點的分布情況可以發現,自變數x和因變數y有著相同的變化趨勢,當費用成本的增加後,廣告曝光量也隨之增加。

折線圖和散點圖都清晰的表示了廣告曝光量和費用成本兩組數據間的相關關系,優點是對相關關系的展現清晰,缺點是無法對相關關系進行准確的度量,缺乏說服力。並且當數據超過兩組時也無法完成各組數據間的相關分析。若要通過具體數字來度量兩組或兩組以上數據間的相關關系,需要使用第二種方法:協方差。

2,協方差及協方差矩陣

第二種相關分析方法是計算協方差。協方差用來衡量兩個變數的總體誤差,如果兩個變數的變化趨勢一致,協方差就是正值,說明兩個變數正相關。如果兩個變數的變化趨勢相反,協方差就是負值,說明兩個變數負相關。如果兩個變數相互獨立,那麼協方差就是0,說明兩個變數不相關。以下是協方差的計算公式:

下面是廣告曝光量和費用成本間協方差的計算過程和結果,經過計算,我們得到了一個很大的正值,因此可以說明兩組數據間是正相關的。廣告曝光量隨著費用成本的增長而增長。在實際工作中不需要按下面的方法來計算,可以通過Excel中COVAR()函數直接獲得兩組數據的協方差值。

協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。下面是三組數據x,y,z,的協方差矩陣計算公式。

協方差通過數字衡量變數間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變數時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數。,

3,相關系數

第三個相關分析方法是相關系數。相關系數(Correlation coefficient)是反應變數之間關系密切程度的統計指標,相關系數的取值區間在1到-1之間。1表示兩個變數完全線性相關,-1表示兩個變數完全負相關,0表示兩個變數不相關。數據越趨近於0表示相關關系越弱。以下是相關系數的計算公式。

其中rxy表示樣本相關系數,Sxy表示樣本協方差,Sx表示X的樣本標准差,Sy表示y的樣本標准差。下面分別是Sxy協方差和Sx和Sy標准差的計算公式。由於是樣本協方差和樣本標准差,因此分母使用的是n-1。

Sxy樣本協方差計算公式:

Sx樣本標准差計算公式:

Sy樣本標准差計算公式:

下面是計算相關系數的過程,在表中我們分別計算了x,y變數的協方差以及各自的標准差,並求得相關系數值為0.93。0.93大於0說明兩個變數間正相關,同時0.93非常接近於1,說明兩個變數間高度相關。

在實際工作中,不需要上面這么復雜的計算過程,在Excel的數據分析模塊中選擇相關系數功能,設置好x,y變數後可以自動求得相關系數的值。在下面的結果中可以看到,廣告曝光量和費用成本的相關系數與我們手動求的結果一致。

相關系數的優點是可以通過數字對變數的關系進行度量,並且帶有方向性,1表示正相關,-1表示負相關,可以對變數關系的強弱進行度量,越靠近0相關性越弱。缺點是無法利用這種關系對數據進行預測,簡單的說就是沒有對變數間的關系進行提煉和固化,形成模型。要利用變數間的關系進行預測,需要使用到下一種相關分析方法,回歸分析。,

4,一元回歸及多元回歸

第四種相關分析方法是回歸分析。回歸分析(regression analysis)是確定兩組或兩組以上變數間關系的統計方法。回歸分析按照變數的數量分為一元回歸和多元回歸。兩個變數使用一元回歸,兩個以上變數使用多元回歸。進行回歸分析之前有兩個准備工作,第一確定變數的數量。第二確定自變數和因變數。我們的數據中只包含廣告曝光量和費用成本兩個變數,因此使用一元回歸。根據經驗廣告曝光量是隨著費用成本的變化而改變的,因此將費用成本設置為自變數x,廣告曝光量設置為因變數y。

以下是一元回歸方程,其中y表示廣告曝光量,x表示費用成本。b0為方程的截距,b1為斜率,同時也表示了兩個變數間的關系。我們的目標就是b0和b1的值,知道了這兩個值也就知道了變數間的關系。並且可以通過這個關系在已知成本費用的情況下預測廣告曝光量。

這是b1的計算公式,我們通過已知的費用成本x和廣告曝光量y來計算b1的值。

以下是通過最小二乘法計算b1值的具體計算過程和結果,經計算,b1的值為5.84。同時我們也獲得了自變數和因變數的均值。通過這三個值可以計算出b0的值。

以下是b0的計算公式,在已知b1和自變數與因變數均值的情況下,b0的值很容易計算。

將自變數和因變數的均值以及斜率b1代入到公式中,求出一元回歸方程截距b0的值為374。這里b1我們保留兩位小數,取值5.84。

在實際的工作中不需要進行如此繁瑣的計算,Excel可以幫我們自動完成並給出結果。在Excel中使用數據分析中的回歸功能,輸入自變數和因變數的范圍後可以自動獲得b0(Intercept)的值362.15和b1的值5.84。這里的b0和之前手動計算獲得的值有一些差異,因為前面用於計算的b1值只保留了兩位小數。

這里還要單獨說明下R Square的值0.87。這個值叫做判定系數,用來度量回歸方程的擬合優度。這個值越大,說明回歸方程越有意義,自變數對因變數的解釋度越高。

將截距b0和斜率b1代入到一元回歸方程中就獲得了自變數與因變數的關系。費用成本每增加1元,廣告曝光量會增加379.84次。通過這個關系我們可以根據成本預測廣告曝光量數據。也可以根據轉化所需的廣告曝光量來反推投入的費用成本。獲得這個方程還有一個更簡單的方法,就是在Excel中對自變數和因變數生成散點圖,然後選擇添加趨勢線,在添加趨勢線的菜單中選中顯示公式和顯示R平方值即可。

以上介紹的是兩個變數的一元回歸方法,如果有兩個以上的變數使用Excel中的回歸分析,選中相應的自變數和因變數范圍即可。下面是多元回歸方程。

5,信息熵及互信息

最後一種相關分析方法是信息熵與互信息。前面我們一直在圍繞消費成本和廣告曝光量兩組數據展開分析。實際工作中影響最終效果的因素可能有很多,並且不一定都是數值形式。比如我們站在更高的維度來看之前的數據。廣告曝光量只是一個過程指標,最終要分析和關注的是用戶是否購買的狀態。而影響這個結果的因素也不僅僅是消費成本或其他數值化指標。可能是一些特徵值。例如用戶所在的城市,用戶的性別,年齡區間分布,以及是否第一次到訪網站等等。這些都不能通過數字進行度量。

度量這些文本特徵值之間相關關系的方法就是互信息。通過這種方法我們可以發現哪一類特徵與最終的結果關系密切。下面是我們模擬的一些用戶特徵和數據。在這些數據中我們忽略之前的消費成本和廣告曝光量數據,只關注特徵與狀態的關系。

對於信息熵和互信息具體的計算過程請參考我前面的文章《 決策樹分類和預測演算法的原理及實現 》,這里直接給出每個特徵的互信息值以及排名結果。經過計算城市與購買狀態的相關性最高,所在城市為北京的用戶購買率較高。

到此為止5種相關分析方法都已介紹完,每種方法各有特點。其中圖表方法最為直觀,相關系數方法可以看到變數間兩兩的相關性,回歸方程可以對相關關系進行提煉,並生成模型用於預測,互信息可以對文本類特徵間的相關關系進行度量。

9. 5種常用的相關分析方法

初級的方法可以快速發現數據之間的關系,如正相關,負相關或不相關。

中級的方法可以對數據間關系的強弱進行度量,如完全相關,不完全相關等。

高級的方法可以將數據間的關系轉化為模型,並通過模型對未來的業務發展進行預測。

折線圖、散點圖

協方差

相關系數(相關系數的取值區間在1到-1之間)

R Square的值叫做判定系數,用來度量回歸方程的擬合優度。這個值越大,說明回歸方程越有意義,自變數對因變數的解釋度越高。

最後一種相關分析方法是信息熵與互信息。可能是一些特徵值。例如用戶所在的城市,用戶的性別,年齡區間分布,以及是否第一次到訪網站等等。這些都不能通過數字進行度量。度量這些文本特徵值之間相關關系的方法就是互信息。

閱讀全文

與分析因變數關系的方法相關的資料

熱點內容
手機支架方法圖片 瀏覽:248
排氣管漏水怎麼辦最簡單的方法 瀏覽:276
尼龍乾熱收縮率檢測方法 瀏覽:10
女生發燒有哪些退燒方法 瀏覽:746
提肌訓練方法大全 瀏覽:955
氧化鋁原料檢測方法及儀器 瀏覽:708
先天性畸形治療方法 瀏覽:849
流式細胞儀使用方法 瀏覽:537
哪裡有修煉的方法 瀏覽:804
側方30公分線最佳找點方法 瀏覽:709
夾布條的最佳方法 瀏覽:992
做事方法分析 瀏覽:831
紅石電路密室教學方法 瀏覽:403
地下水滅蟻靈的檢測方法 瀏覽:717
纖維長度測量方法 瀏覽:455
草席上的油漬怎麼去除最快方法 瀏覽:706
碘131治療甲亢方法 瀏覽:416
通草與作用及食用方法 瀏覽:285
結巴的治療方法 瀏覽:499
電腦虛擬值在哪裡設置方法 瀏覽:843