❶ 急求《應用多元統計分析方法》的中文版!!!
1. 因子分析模型
因子分析法是從研究變數內部相關的依賴關系出發,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。它的基本思想是將觀測變數進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變數之間的相關性則較低,那麼每一類變數實際上就代表了一個基本結構,即公共因子。對於所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
因子分析的基本思想:
把每個研究變數分解為幾個影響因素變數,將每個原始變數分解成兩部分因素,一部分是由所有變數共同具有的少數幾個公共因子組成的,另一部分是每個變數獨自具有的因素,即特殊因子
因子分析模型描述如下:
(1)X = (x1,x2,…,xp)¢是可觀測隨機向量,均值向量E(X)=0,協方差陣Cov(X)=∑,且協方差陣∑與相關矩陣R相等(只要將變數標准化即可實現)。
(2)F = (F1,F2,…,Fm)¢ (m<p)是不可測的向量,其均值向量E(F)=0,協方差矩陣Cov(F) =I,即向量的各分量是相互獨立的。
(3)e = (e1,e2,…,ep)¢與F相互獨立,且E(e)=0, e的協方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:
x1 = a11F1+ a12F2 +…+a1mFm + e1
x2 = a21F1+a22F2 +…+a2mFm + e2
………
xp = ap1F1+ ap2F2 +…+apmFm + ep
稱為因子分析模型,由於該模型是針對變數進行的,各因子又是正交的,所以也稱為R型正交因子模型。
其矩陣形式為: x =AF + e .
其中:
x=,A=,F=,e=
這里,
(1)m £ p;
(2)Cov(F,e)=0,即F和e是不相關的;
(3)D(F) = Im ,即F1,F2,…,Fm不相關且方差均為1;
D(e)=,即e1,e2,…,ep不相關,且方差不同。
我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。
A = (aij),aij為因子載荷。數學上可以證明,因子載荷aij就是第i變數與第j因子的相關系數,反映了第i變數在第j因子上的重要性。
2. 模型的統計意義
模型中F1,F2,…,Fm叫做主因子或公共因子,它們是在各個原觀測變數的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變數。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協方差,也是xi與Fj的相關系數,它表示xi依賴Fj的程度。可將aij看作第i個變數在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對於xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統計量十分重要,即變數共同度和公共因子的方差貢獻。
因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變數xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變數xi的影響。hi2大表明x的第i個分量xi對於F的每一分量F1,F2,…,Fm的共同依賴程度大。
將因子載荷矩陣A的第j列( j =1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對於x的每一分量xi(i= 1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2 ( j =1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。
3. 因子旋轉
建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解後,各個主因子的典型代表變數不很突出,還需要進行因子旋轉,通過適當的旋轉得到比較滿意的主因子。
旋轉的方法有很多,正交旋轉(orthogonal rotation)和斜交旋轉(oblique rotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。
4.因子得分
因子分析模型建立後,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立後,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用變數的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。
設公共因子F由變數x表示的線性組合為:
Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m
該式稱為因子得分函數,由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變數代入上式即可算出每個樣品的因子得分F1和F2,並將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數據進行更深入的研究。
但因子得分函數中方程的個數m小於變數的個數p,所以並不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。
(1)回歸估計法
F = X b = X (X ¢X)-1A¢ = XR-1A¢ (這里R為相關陣,且R = X ¢X )。
(2)Bartlett估計法
Bartlett估計因子得分可由最小二乘法或極大似然法導出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X
(3)Thomson估計法
在回歸估計法中,實際上是忽略特殊因子的作用,取R = X ¢X,若考慮特殊因子的作用,此時R = X ¢X+W,於是有:
F = XR-1A¢ = X (X ¢X+W)-1A¢
這就是Thomson估計的因子得分,使用矩陣求逆演算法(參考線性代數文獻)可以將其轉換為:
F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢
5. 因子分析的步驟
因子分析的核心問題有兩個:一是如何構造因子變數;二是如何對因子變數進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。
(i)因子分析常常有以下四個基本步驟:
(1)確認待分析的原變數是否適合作因子分析。
(2)構造因子變數。
(3)利用旋轉方法使因子變數更具有可解釋性。
(4)計算因子變數得分。
(ii)因子分析的計算過程:
(1)將原始數據標准化,以消除變數間在數量級和量綱上的不同。
(2)求標准化數據的相關矩陣;
(3)求相關矩陣的特徵值和特徵向量;
(4)計算方差貢獻率與累積方差貢獻率;
(5)確定因子:
設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低於80%時,可取前m個因子來反映原評價指標;
(6)因子旋轉:
若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。
(7)用原指標的線性組合來求各因子得分:
採用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
(8)綜合得分
以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉前或旋轉後因子的方差貢獻率。
(9)得分排序:利用綜合得分可以得到得分名次。
在採用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:
· 簡化系統結構,探討系統內核。可採用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變數最佳的子集合,從子集合所包含的信息描述多變數的系統結果及各個因子對系統的影響。「從樹木看森林」,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。
· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變數系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用於預報控制的模型有兩大類。一類是預測預報模型,通常採用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常採用聚類分析的建模技術。
· 進行數值分類,構造分類模式。在多變數系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特徵。進行數值分類,構造分類模式一般採用聚類分析和判別分析技術。
如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然後應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變數之間的相關性,選擇最佳的變數子集合;在此基礎上構造預報模型,最後對模型進行診斷和優化處理,並應用於生產實際。
Rotated Component Matrix,就是經轉軸後的因子負荷矩陣,
當你設置了因子轉軸後,便會產生這結果。
轉軸的是要得到清晰的負荷形式,以便研究者進行因子解釋及命名。
SPSS的Factor Analysis對話框中,有個Rotation鈕,點擊便會彈出Rotation對話框,
其中有5種因子旋轉方法可選擇:
1.最大變異法(Varimax):使負荷量的變異數在因子內最大,亦即,使每個因子上具有最高載荷的變數數最少。
2.四次方最大值法(Quartimax):使負荷量的變異數在變項內最大,亦即,使每個變數中需要解釋的因子數最少。
3.相等最大值法(Equamax):綜合前兩者,使負荷量的變異數在因素內與變項內同時最大。
4.直接斜交轉軸法(Direct Oblimin):使因素負荷量的差積(cross-procts)最小化。
5.Promax 轉軸法:將直交轉軸(varimax)的結果再進行有相關的斜交轉軸。因子負荷量取2,4,6次方以產生接近0但不為0的值,藉以找出因子間的相關,但仍保有最簡化因素的特性。
上述前三者屬於「直交(正交)轉軸法」(Orthogonal Rotations),在直交轉軸法中,因子與因子之間沒有相關,因子軸之間的夾角等於90 度。後兩者屬於「斜交轉軸」(oblique rotations),表示因子與因子之間彼此有某種程度的相關,因素軸之間的夾角不是90度。
直交轉軸法的優點是因子之間提供的訊息不會重疊,受訪者在某一個因子的分數與在其他因子的分數,彼此獨立互不相關;缺點是研究迫使因素之間不相關,但這種情況在實際的情境中往往並不常存在。至於使用何種轉軸方式,須視乎研究題材、研究目的及相關理論,由研究者自行設定。
在根據結果解釋因子時,除了要看因子負荷矩陣中,因子對哪些變數呈高負荷,對哪些變數呈低負荷,還須留意之前所用的轉軸法代表的意義。
2,主成分分析(principal component analysis)
將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法。又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
(1)主成分分析的原理及基本思想。
原理:設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
基本思想:主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
(2)步驟
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣∑的特徵值多對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0 。
進行主成分分析主要步驟如下:
1. 指標數據標准化(SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名;
選用以上兩種方法時的注意事項如下:
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變數的線性組合。
2、主成分分析的重點在於解釋個變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這中區分不是絕對的。
總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變數簡化。(rece dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
在演算法上,主成分分析和因子分析很類似,不過,在因子分析中所採用的協方差矩陣的對角元素不在是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。
(1)了解如何通過SPSS因子分析得出主成分分析結果。首先,選擇SPSS中Analyze-Data Rection-Factor…,在Extraction…對話框中選擇主成分方法提取因子,選擇好因子提取個數標准後點確定完成因子分析。打開輸出結果窗口後找到Total Variance Explained表和Component Matrix表。將Component Matrix表中第一列數據分別除以Total Variance Explained表中第一特徵根值的開方得到第一主成分表達式系數,用類似方法得到其它主成分表達式。打開數據窗口,點擊菜單項的Analyze-Descriptive Statistics-Descriptives…,在打開的新窗口下方構選Save standardized values as variables,選定左邊要分析的變數。點擊Options,只構選Means,點確定後既得待分析變數的標准化新變數。
選擇菜單項Transform-Compute…,在Target Variable中輸入:Z1(主成分變數名,可以自己定義),在Numeric Expression中輸入例如:0.412(剛才主成分表達式中的系數)*Z人口數(標准化過的新變數名)+0.212*Z第一產業產值+…,點確定即得到主成分得分。通過對主成分得分的排序即可進行各個個案的綜合評價。很顯然,這里的過程分為四個步驟:
Ⅰ.選主成分方法提取因子進行因子分析。
Ⅱ.計算主成分表達式系數。
Ⅲ.標准化數據。
Ⅳ.計算主成分得分。
我們的程序也將依該思路展開開發。
(2)對為何要將Component Matrix表數據除以特徵根開方的解釋
我們學過主成分分析和因子分析後不難發現,原來因子分析時的因子載荷矩陣就是主成分分析特徵向量矩陣乘以對應特徵根開方值的對角陣。而Component Matrix表輸出的恰是因子載荷矩陣,所以求主成分特徵向量自然是上面描述的逆運算。
成功啟動程序後選定分析變數和主成分提取方法即可在數據窗口輸出得分和在OUTPUT窗口輸出主成分表達式。
3,聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術 。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
4.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。
5.對應分析(Correspondence Analysis)
對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。
❷ 醫用多元統計分析方法實際中用處大嗎
xxjxjxxjjxjzjjxjx
❸ 多元統計分析可以通過計量分析做嗎
多元統計分析可以通過計量分析做。
多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點,主要內容包括多元正態分布及其抽樣分布、多元正態總體的均值向量和協方差陣的假設檢驗、多元方差分析、直線回歸與相關、多元線性回歸與相關主成分分析與因子分析、判別分析與聚類分析、信息量及其應用。
多元統計分析
研究客觀事物中多個變數或多個因素之間相互依賴的統計規律性,在它的重要基礎之一是多元正態分析,又稱多元分析,如果每個個體有多個觀測數據,或者從數學上說,如果個體的觀測數據能表為維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析。
❹ 《實用多元統計分析》pdf下載在線閱讀,求百度網盤雲資源
《實用多元統計分析》電子書網盤下載免費在線閱讀
鏈接:
書名:實用多元統計分析
豆瓣評分:8.9
出版社:清華大學出版社
出版年份:2008-11
頁數:595
內容簡介:
《實用多元統計分析(第6版)》多元統計分析是統計學中內容十分豐富、應用范圍極為廣泛的一個分支。在自然科學和社會科學的許多學科中,研究者都有可能需要分析處理有多個變數的數據的問題。能否從表面上看起來雜亂無章的數據中發現和提煉出規律性的結論,不僅需要對所研究的專業領域有很好的訓練,而且要掌握必要的統計分析工具。對研究者來說,《實用多元統計分析》是學習掌握多元統計分析的各種模型和方法的一本有價值的參考書:首先,它做到了「淺入深出」,既可供初學者入門,又能使有較深基礎的人受益;其次,它既側重於應用,又兼顧必要的推理論證,使學習者既能學到「如何」做,又能在一定程度上了解「為什麼」這樣做;最後,它內涵豐富、全面,不僅基本包括各種在實際中常用的多元統計分析方法,而且對現代統計學的最新思想和進展有所介紹。
作者簡介:
作者:(美國)約翰遜 (Johnson.R.A.) (美國)威客恩 (Wichern.D.W.) 譯者:陳旋 葉俊
❺ 多元統計分析法主要包括
多元統計分析方法主要包括線性回歸分析方法、判別分析方法、聚類分析方法、主成份分析方法、因子分析方法、對應分析方法、典型相關分析方法以及片最小二乘回歸分析方法等。
《多元統計分析方法》是2009年上海格致出版社出版的圖書,作者是(德)巴克豪斯。本書主要講解了多元統計分析中最常見的九種方法。
簡介
多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點。主要內容包括多元正態分布及其抽樣分布、多元正態總體的均值向量和協方差陣的假設檢驗。
多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量及其應用。簡稱多元分析。當總體的分布是多維(多元)概率分布時,處理該總體的數理統計理論和方法。數理統計學中的一個重要的分支學科。
❻ 多元統計分析在處理數據什麼方面有用
多元統計分析是針對復雜多變數 構建多元模型的,其中包括很多多元統計模型,比如多元回歸、因子分析、logistic回歸、對應分析等很多多元分析方法,以用來解決在實際當中的可能存在的不同的數據模型
❼ 多元統計分析的簡介
multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的統計規律性。它的重要基礎之一是多元正態分析。又稱多元分析 。 如果每個個體有多個觀測數據,或者從數學上說, 如果個體的觀測數據能表為 P維歐幾里得空間的點,那麼這樣的數據叫做多元數據,而分析多元數據的統計方法就叫做多元統計分析 。 它是數理統計學中的一個重要的分支學科。20世紀30年代,R.A.費希爾,H.霍特林,許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、圖像處理、經濟分析等許多領域得到了廣泛的應用 ,同時也促進了理論的發展。各種統計軟體包如SAS,SPSS等,使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重回歸分析(簡稱回歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。
早在19世紀就出現了處理二維正態總體(見正態分布)的一些方法,但系統地處理多維概率分布總體的統計分析問題,則開始於20世紀。人們常把1928年維夏特分布的導出作為多元分析成為一個獨立學科的標志。20世紀30年代,R.A.費希爾、H.霍特林、許寶祿以及S.N.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些應用。由於應用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標准化、生物、圖像處理、經濟分析等許多領域得到了廣泛的應用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分布由兩組參數,即均值向量μ(見數學期望)和協方差矩陣(簡稱協差陣)∑ (見矩)所決定,記為Np(μ,∑)(p為分布的維數,故又稱p維正態分布或p 維正態總體)。設X1,X2,…,Xn為來自正態總體Np(μ,∑)的樣本,則μ和∑的無偏估計(見點估計)分別是
和
分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣R 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣S的元素。S的分布是維夏特分布,它是一元統計中的Ⅹ2分布的推廣。
另一典型問題是:假定兩個多維正態分布協差陣相同,檢驗其均值向量是否相同。設樣本X1,X2,…,Xn抽自正態總體Np(μ1,∑),而Y1,Y2,…,Ym抽自Np(μ2,∑),要檢驗假設H 0:μ1=μ2(見假設檢驗)。在一元統計中使用t統計量(見統計量)作檢驗;在多元分析中則用T2統計量,
,其中,
,
·
,T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致F統計量,但在多元分析中可導出許多統計量,最著名的有威爾克斯Λ統計量和最大相對特徵根統計量。研究這些統計量的精確分布和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分布是多元正態分布時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分布之中,特別是推廣到一種稱為橢球等高分布族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。 簡稱回歸分析。其特點是同時處理多個因變數。回歸系數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個回歸系數在此都成為一個向量。因此,關於回歸系數的檢驗要用T2統計量;對回歸方程的顯著性檢驗要用Λ統計量。
回歸分析在地質勘探的應用中發展了一種特殊的形式,稱為趨勢面分析,它以各種元素的含量作為因變數,把它們對地理坐標進行回歸(選用一次、二次或高次的多項式),回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可採的礦位。這一方法在其他領域也有應用。 由 k個不同總體的樣本來構造判別函數,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、天氣預報、圖像識別等方面有廣泛的應用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標X1和X2,點繪如圖 。可用直線A將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用A的垂線方向l=(l1,l2)來建立判別函數
y=l1X1+l2X2,可以求得一常數с,使 y<с 等價於(X1,X2)落在g1,y>с等價於(X1,X2)落在g2。由此得判別規則:若,l1X1+l2X2<c
判,即此人為健康者;若,l1X1+l2X2>C
判,
即此人為心臟病人;若,l1X1+l2X2=c則為待判。此例的判別函數是線性函數,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函數,特別是二次判別函數。建立判別函數和判別規則有不少准則和方法,常用的有貝葉斯准則、費希爾准則、距離判別、回歸方法和非參數方法等。
無論用哪一種准則或方法所建立的判別函數和判別規則,都可能產生錯判,錯判所佔的比率用錯判概率來度量。當總體間區別明顯時,錯判概率較小;否則錯判概率較大。判別函數的選擇直接影響到錯判概率,故錯判概率可用來比較不同方法的優劣。
變數(如上例中的X1和X2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。 又稱數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標准,對 N個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位,要將這N個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。
設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值Xi看成p維空間的一個點,在p維空間中引入「距離」的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種「相似系數」來衡量變數之間的親密程度,按各變數之間相似系數的大小可將變數進行分類。根據實際問題的需要和變數的類型,對距離和相似系數有不同的定義方法。
按距離或相似系數分類,有下列方法。①凝聚法:它是先將每個觀察值{Xi}看成一類,逐步歸並,直至全部觀測值並成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動態聚類法:它是將觀測值先粗糙地分類,然後按適當的目標函數和規定的程序逐步調整,直至不能再調為止。
若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於1958年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、地震等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。 又稱主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,
要求z盡可能多地反映p個變數的信息,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(<p)個互不相關的呈上述形式的主成分來盡可能多地反映原p個變數的信息。用來決定諸系數的原則是,在
的約束下,選擇l1,l2,…,lp使z的方差達到最大。
在根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函數的系數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的「典型」樣品,這種方法在地質結構的分析中常使用。 它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數矩陣A使у=Af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。 它是尋求兩組變數各自的線性函數中相關系數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。各對的相關系數稱為典型相關系數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯系。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。
❽ 簡述多元統計分析方法在spss中的操作步驟,在考試,跪謝
多元線性回歸
1.打開數據,依次點擊:analyse--regression,打開多元線性回歸對話框。
2.將因變數和自變數放入格子的列表裡,上面的是因變數,下面的是自變數。
3.設置回歸方法,這里選擇最簡單的方法:enter,它指的是將所有的變數一次納入到方程。其他方法都是逐步進入的方法。
4.等級資料,連續資料不需要設置虛擬變數。多分類變數需要設置虛擬變數。
虛擬變數ABCD四類,以a為參考,那麼解釋就是b相對於a有無影響,c相對於a有無影響,d相對於a有無影響。
5.選項裡面至少選擇95%CI。
點擊ok。
❾ 多元統計分析是定性分析還是定量分析
簡單的說多元統計分析就是實現作定量分析的有效工具。
多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個對象和多個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點。主要內容包括多元正態分布及其抽樣分布、多元正態總體的均值向量和協方差陣的假設檢驗、多元方差分析、直線回歸與相關、多元線性回歸與相關(Ⅰ)和(Ⅱ)、主成分分析與因子分析、判別分析與聚類分析、Shannon信息量及其應用。
❿ 請問誰有關於統計的論文,具體要求是使用多元統計分析方法分析數據,還有如下:
1. 因子分析模型
因子分析法是從研究變數內部相關的依賴關系出發,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。它的基本思想是將觀測變數進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變數之間的相關性則較低,那麼每一類變數實際上就代表了一個基本結構,即公共因子。對於所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
因子分析的基本思想:
把每個研究變數分解為幾個影響因素變數,將每個原始變數分解成兩部分因素,一部分是由所有變數共同具有的少數幾個公共因子組成的,另一部分是每個變數獨自具有的因素,即特殊因子
因子分析模型描述如下:
(1)X = (x1,x2,…,xp)¢是可觀測隨機向量,均值向量E(X)=0,協方差陣Cov(X)=∑,且協方差陣∑與相關矩陣R相等(只要將變數標准化即可實現)。
(2)F = (F1,F2,…,Fm)¢ (m<p)是不可測的向量,其均值向量E(F)=0,協方差矩陣Cov(F) =I,即向量的各分量是相互獨立的。
(3)e = (e1,e2,…,ep)¢與F相互獨立,且E(e)=0, e的協方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:
x1 = a11F1+ a12F2 +…+a1mFm + e1
x2 = a21F1+a22F2 +…+a2mFm + e2
………
xp = ap1F1+ ap2F2 +…+apmFm + ep
稱為因子分析模型,由於該模型是針對變數進行的,各因子又是正交的,所以也稱為R型正交因子模型。
其矩陣形式為: x =AF + e .
其中:
x=,A=,F=,e=
這里,
(1)m £ p;
(2)Cov(F,e)=0,即F和e是不相關的;
(3)D(F) = Im ,即F1,F2,…,Fm不相關且方差均為1;
D(e)=,即e1,e2,…,ep不相關,且方差不同。
我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。
A = (aij),aij為因子載荷。數學上可以證明,因子載荷aij就是第i變數與第j因子的相關系數,反映了第i變數在第j因子上的重要性。
2. 模型的統計意義
模型中F1,F2,…,Fm叫做主因子或公共因子,它們是在各個原觀測變數的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變數。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協方差,也是xi與Fj的相關系數,它表示xi依賴Fj的程度。可將aij看作第i個變數在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對於xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統計量十分重要,即變數共同度和公共因子的方差貢獻。
因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變數xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變數xi的影響。hi2大表明x的第i個分量xi對於F的每一分量F1,F2,…,Fm的共同依賴程度大。
將因子載荷矩陣A的第j列( j =1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對於x的每一分量xi(i= 1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2 ( j =1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。
3. 因子旋轉
建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解後,各個主因子的典型代表變數不很突出,還需要進行因子旋轉,通過適當的旋轉得到比較滿意的主因子。
旋轉的方法有很多,正交旋轉(orthogonal rotation)和斜交旋轉(oblique rotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。
4.因子得分
因子分析模型建立後,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立後,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用變數的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。
設公共因子F由變數x表示的線性組合為:
Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m
該式稱為因子得分函數,由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變數代入上式即可算出每個樣品的因子得分F1和F2,並將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數據進行更深入的研究。
但因子得分函數中方程的個數m小於變數的個數p,所以並不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。
(1)回歸估計法
F = X b = X (X ¢X)-1A¢ = XR-1A¢ (這里R為相關陣,且R = X ¢X )。
(2)Bartlett估計法
Bartlett估計因子得分可由最小二乘法或極大似然法導出。
F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X
(3)Thomson估計法
在回歸估計法中,實際上是忽略特殊因子的作用,取R = X ¢X,若考慮特殊因子的作用,此時R = X ¢X+W,於是有:
F = XR-1A¢ = X (X ¢X+W)-1A¢
這就是Thomson估計的因子得分,使用矩陣求逆演算法(參考線性代數文獻)可以將其轉換為:
F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢
5. 因子分析的步驟
因子分析的核心問題有兩個:一是如何構造因子變數;二是如何對因子變數進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。
(i)因子分析常常有以下四個基本步驟:
(1)確認待分析的原變數是否適合作因子分析。
(2)構造因子變數。
(3)利用旋轉方法使因子變數更具有可解釋性。
(4)計算因子變數得分。
(ii)因子分析的計算過程:
(1)將原始數據標准化,以消除變數間在數量級和量綱上的不同。
(2)求標准化數據的相關矩陣;
(3)求相關矩陣的特徵值和特徵向量;
(4)計算方差貢獻率與累積方差貢獻率;
(5)確定因子:
設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低於80%時,可取前m個因子來反映原評價指標;
(6)因子旋轉:
若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。
(7)用原指標的線性組合來求各因子得分:
採用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。
(8)綜合得分
以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。
F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )
此處wi為旋轉前或旋轉後因子的方差貢獻率。
(9)得分排序:利用綜合得分可以得到得分名次。
在採用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:
· 簡化系統結構,探討系統內核。可採用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變數最佳的子集合,從子集合所包含的信息描述多變數的系統結果及各個因子對系統的影響。「從樹木看森林」,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。
· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變數系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用於預報控制的模型有兩大類。一類是預測預報模型,通常採用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常採用聚類分析的建模技術。
· 進行數值分類,構造分類模式。在多變數系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特徵。進行數值分類,構造分類模式一般採用聚類分析和判別分析技術。
如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然後應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變數之間的相關性,選擇最佳的變數子集合;在此基礎上構造預報模型,最後對模型進行診斷和優化處理,並應用於生產實際。
Rotated Component Matrix,就是經轉軸後的因子負荷矩陣,
當你設置了因子轉軸後,便會產生這結果。
轉軸的是要得到清晰的負荷形式,以便研究者進行因子解釋及命名。
SPSS的Factor Analysis對話框中,有個Rotation鈕,點擊便會彈出Rotation對話框,
其中有5種因子旋轉方法可選擇:
1.最大變異法(Varimax):使負荷量的變異數在因子內最大,亦即,使每個因子上具有最高載荷的變數數最少。
2.四次方最大值法(Quartimax):使負荷量的變異數在變項內最大,亦即,使每個變數中需要解釋的因子數最少。
3.相等最大值法(Equamax):綜合前兩者,使負荷量的變異數在因素內與變項內同時最大。
4.直接斜交轉軸法(Direct Oblimin):使因素負荷量的差積(cross-procts)最小化。
5.Promax 轉軸法:將直交轉軸(varimax)的結果再進行有相關的斜交轉軸。因子負荷量取2,4,6次方以產生接近0但不為0的值,藉以找出因子間的相關,但仍保有最簡化因素的特性。
上述前三者屬於「直交(正交)轉軸法」(Orthogonal Rotations),在直交轉軸法中,因子與因子之間沒有相關,因子軸之間的夾角等於90 度。後兩者屬於「斜交轉軸」(oblique rotations),表示因子與因子之間彼此有某種程度的相關,因素軸之間的夾角不是90度。
直交轉軸法的優點是因子之間提供的訊息不會重疊,受訪者在某一個因子的分數與在其他因子的分數,彼此獨立互不相關;缺點是研究迫使因素之間不相關,但這種情況在實際的情境中往往並不常存在。至於使用何種轉軸方式,須視乎研究題材、研究目的及相關理論,由研究者自行設定。
在根據結果解釋因子時,除了要看因子負荷矩陣中,因子對哪些變數呈高負荷,對哪些變數呈低負荷,還須留意之前所用的轉軸法代表的意義。
2,主成分分析(principal component analysis)
將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法。又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
(1)主成分分析的原理及基本思想。
原理:設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
基本思想:主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
(2)步驟
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣∑的特徵值多對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0 。
進行主成分分析主要步驟如下:
1. 指標數據標准化(SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名;
選用以上兩種方法時的注意事項如下:
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變數的線性組合。
2、主成分分析的重點在於解釋個變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。
3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。
5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這中區分不是絕對的。
總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變數簡化。(rece dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。
在演算法上,主成分分析和因子分析很類似,不過,在因子分析中所採用的協方差矩陣的對角元素不在是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。
(1)了解如何通過SPSS因子分析得出主成分分析結果。首先,選擇SPSS中Analyze-Data Rection-Factor…,在Extraction…對話框中選擇主成分方法提取因子,選擇好因子提取個數標准後點確定完成因子分析。打開輸出結果窗口後找到Total Variance Explained表和Component Matrix表。將Component Matrix表中第一列數據分別除以Total Variance Explained表中第一特徵根值的開方得到第一主成分表達式系數,用類似方法得到其它主成分表達式。打開數據窗口,點擊菜單項的Analyze-Descriptive Statistics-Descriptives…,在打開的新窗口下方構選Save standardized values as variables,選定左邊要分析的變數。點擊Options,只構選Means,點確定後既得待分析變數的標准化新變數。
選擇菜單項Transform-Compute…,在Target Variable中輸入:Z1(主成分變數名,可以自己定義),在Numeric Expression中輸入例如:0.412(剛才主成分表達式中的系數)*Z人口數(標准化過的新變數名)+0.212*Z第一產業產值+…,點確定即得到主成分得分。通過對主成分得分的排序即可進行各個個案的綜合評價。很顯然,這里的過程分為四個步驟:
Ⅰ.選主成分方法提取因子進行因子分析。
Ⅱ.計算主成分表達式系數。
Ⅲ.標准化數據。
Ⅳ.計算主成分得分。
我們的程序也將依該思路展開開發。
(2)對為何要將Component Matrix表數據除以特徵根開方的解釋
我們學過主成分分析和因子分析後不難發現,原來因子分析時的因子載荷矩陣就是主成分分析特徵向量矩陣乘以對應特徵根開方值的對角陣。而Component Matrix表輸出的恰是因子載荷矩陣,所以求主成分特徵向量自然是上面描述的逆運算。
成功啟動程序後選定分析變數和主成分提取方法即可在數據窗口輸出得分和在OUTPUT窗口輸出主成分表達式。
3,聚類分析(Cluster Analysis)
聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術 。
在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。
4.判別分析(Discriminatory Analysis)
判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。
費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。
距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。
5.對應分析(Correspondence Analysis)
對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。
運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。
這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。