㈠ 因子分析法(FA)
3.2.1.1 技術原理
因子分析是研究相關陣或協方差陣的內部依賴關系,它將多個變數綜合為少數幾個因子,以再現原始變數與因子之間的相關關系。R型因子分析研究變數(指標)之間的相關關系,通過對變數的相關陣或協方差陣內部結構的研究,找出控制所有變數的幾個公共因子(或稱主因子、潛因子),用以對變數或樣品進行分類;Q型因子分析研究樣品之間的相關關系,通過對樣品的相似矩陣內部結構的研究找出控制所有樣品的幾個主要因素(或稱主因子)這兩種因子分析的處理方法一樣,只是出發點不同。R型從變數的相關陣出發,Q型從樣品的相似矩陣出發。對一批觀測數據,可以根據實際問題的需要來決定採用哪一種類型的因子分析。
對多變數的平面數據進行最佳綜合和簡化,即在保證數據信息丟失最少的原則下,對高維變數空間進行降維處理。可以通過下面的數學模型來表示:
地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例
式中:x1,x2,…,xi是p個原有變數,是均值為零、標准差為1的標准化變數,經過降維處理,p個變數可以綜合成m個新指標 F1,F2,…,Fm,且 x 可由 Fm線性表示出,即:x=AF+ε,其中矩陣A=(αij)p×m,為因子載荷矩陣,aij統計學中稱為「權重」。
地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例
式中:A是第i個原有變數在第j個因子變數上的負荷,公共因子矩陣F=(F1,F2,…,Fm),特殊因子矩陣ε=(ε1,ε2,…,εi)T,表示了原有變數不能被因子變數所解釋的部分,相當於多元回歸分析中的殘差部分。
因子載荷矩陣A中各行元素的平方和,稱為變數共同度,是全部公共因子對變數Xi的總方差所作出的貢獻,稱為公因子方差,表明xi對公共因子F1,F2,…,Fm的共同依賴程度。
地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例
因子載荷矩陣A中各列元素的平方和,記為
地下水型飲用水水源地保護與管理:以吳忠市金積水源地為例
式中:
3.2.1.2 技術流程
(1)數據合理性檢驗
因子分析的應用要求原始變數之間有較強的相關關系,因此,在分析之前,首先需要對數據進行相關性分析,最簡單的方法就是計算變數之間的相關系數矩陣。如果相關系數矩陣在進行統計檢驗中,大部分都小於0.3,那麼這些變數就不適合進行因子分析。SPSS常用的統計檢驗方法有巴特利特球形檢驗、反映像相關矩陣檢驗和KMO檢驗。
巴特利特球形檢驗(Bartlett Test of Sphericity),若檢驗統計量較大,則認為原始數據間存在相關性,適合進行因子分析,否則不適合。
反映像相關矩陣檢驗(Anti-image Correlation Matrix),反映像相關矩陣中元素的絕對值比較大,那麼說明這些變數不適合做因子分析。
KMO(Kaiser Meyer Olkin)檢驗如表3.1。
表3.1 KMO檢驗標准表
(2)構造因子變數
構造因子變數的方法有很多種,如基於主成分模型的主成分分析法和基於因子分析模型的主軸因子法、極大似然法、最小二乘法等。
(3)利用旋轉使得因子變數更具有可解釋性
載荷矩陣A中某一行可能有多個aij比較大,說明某個原有變數可能同時與幾個因子有比較大的相關關系;同時載荷矩陣A中某一列中也可能有多個aij較大,說明某個因子變數可能解釋多個原變數的信息,但它只能解釋某個變數一小部分信息,不是任何一個變數的典型代表,會使某個因子變數的含義模糊不清。在實際分析中,希望對因子變數的含義有比較清楚的認識,這時,可以通過因子矩陣的旋轉來進行。旋轉的方式有正交旋轉、斜交旋轉、方差極大法,其中最常用的是方差極大法。
(4)計算因子變數的得分
計算因子得分首先將因子變數表示為原有變數的線性組合,即:
Fm=βm1x1+βm2x2+…+βmixi (3.5)
估計因子得分的方法有回歸法、Bar-tlette法、Anderson-Rubin 法等。默認取特徵值大於1的公因子或累計貢獻率大於85%(70%或90%)的最小正整數的因子(圖3.2)。
圖3.2 技術流程圖
3.2.1.3 適用范圍
因子分析是研究相關陣或協方差陣的內部依賴關系,它將多個變數綜合為少數幾個因子,以再現原始變數與因子之間的相關關系。FA法使用簡單,不需要研究地區優先源的監測數據,在缺乏污染源成分譜的情況下仍可解析,並可廣泛使用統計軟體處理數據。其不足之處在於需要輸入大量數據,而且只能得到各類元素對主因子的相對貢獻百分比。