導航:首頁 > 知識科普 > 不可觀測變數的處理方法有哪些

不可觀測變數的處理方法有哪些

發布時間:2023-01-21 23:44:03

❶ 可疑值如何處理

可疑值也叫離群值,處理方法有:
一、剔除離群值,不追加觀測值;
二、剔除離群值,追加觀測值;或剔除離群值,適宜地插補替代;
三、找到實際原因修正離群值,否則予以保留的。
簡介:
離群值(outlier)是指在數據中有一個或幾個數值與其他數值相比差異較大。
特徵:
發現離群值也可以通過觀察值的頻數表或直方圖來初步判斷,也可通過統計軟體作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數)或頂線Q3(第75百分位數)過遠,如超出箱體高度(四分位數間距)的兩倍以上,則可視該觀測值為離群值。當數據近似正態分布時,有一種較為簡單的方法,可用均數加減2.5s來判斷,如觀測值在此范圍以外,可視為離群值。在統計學上也可用線性回歸的方法來對離群值進行判斷。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數據間無明顯的邏輯錯誤,則可將離群值刪除前後各做一次統計分析,若前後結果不矛盾,則該例觀測值可予以保留。

❷ 研究設計中無關變數的控制方法有哪些

針對無關變數,可採取的控制方法主要有:

1、控制研究者的影響

針對研究者的行為和特點可能對自變數效果造成的混淆,可採用兩種辦法:一是選擇合適的研究者;一是使研究者保持恆定。合適的研究者可通過在研究進行前對其進行培訓達到;而使研究者保持恆定就是說盡量由相同的研究者對不同的群體進行研究。

2、恆定法

有些無關變數,如機體變數無法予以消除,那麼可採用恆定法使其保持不變。這一方法常用在實驗組和控制組設計中。

3、平衡法

平平衡法卻可在無關變數的二個或更多水平上保持不變。當一個研究中的被試變數的水平不同,其個體的數目也不同的情況下,可用平衡法來控制。



無關變數的辨別

由於無關變數可能混雜在自變數中影響因變數的變化,因而可能會對研究結果的內部效度構成威脅。因此,必須要對無關變數的影響加以控制或消除,否則就無法確定因變數變化的根本原因。

一般而言,研究中的無關變數可能包括環境變數、程序變數和機體變數。環境變數和程序變數,主要包括物理環境的特點和由研究者的行為和特點引起的變數。

例如,在關於兩種不同教學方法的效果的對比研究中,農村和城市由於在社會環境、學校教學設施水平上的差異,對教學效果將產生影響,倘若對此不加以控制,就很難確定教學效果是由教學方法的差異引起的,還是教學環境的不同造成的。

此外研究者的動機、個性、期望和社會交往技能等也可能構成研究的無關變數。例如在對中小學生進行有關師生關系的問卷調查時常常委託不同班級的教師協助發放問卷,而教師對師生關系問題的敏感程度,或顧及班級、學校的聲譽,可能會對學生回答問題加以某種暗示,從而產生無關變數。

還有一種無關變數是機體變數,即被試固有的一些機體特徵,如年齡、性別、智力水平等。也可能作為無關變數同自變數的影響發生混淆。

❸ 常用數據分析處理方法有哪些

1、漏斗分析法


漏斗分析法能夠科學反映用戶行為狀態,以及從起點到終點各階段用戶轉化率情況,是一種重要的分析模型。漏斗分析模型已經廣泛應用於網站和APP的用戶行為分析中,例如流量監控、CRM系統、SEO優化、產品營銷和銷售等日常數據運營與數據分析工作中。


2、留存分析法


留存分析法是一種用來分析用戶參與情況和活躍程度的分析模型,考察進行初始行為的用戶中,有多少人會進行後續行為。從用戶的角度來說,留存率越高就說明這個產品對用戶的核心需求也把握的越好,轉化成產品的活躍用戶也會更多,最終能幫助公司更好的盈利。


3、分組分析法


分組分析法是根據數據分析對象的特徵,按照一定的標志(指標),把數據分析對象劃分為不同的部分和類型來進行研究,以揭示其內在的聯系和規律性。


4、矩陣分析法


矩陣分析法是指根據事物(如產品、服務等)的兩個重要屬性(指標)作為分析的依據,進行分類關聯分析,找出解決問題的一種分析方法,也稱為矩陣關聯分析法,簡稱矩陣分析法。

❹ 常用數據分析處理方法有哪些

常用的數據分析方法有:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析。

1、聚類分析:聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
2、因子分析:因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。
3、相關分析:相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系。
4、對應分析:對應分析也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。
5、回歸分析:回歸分析是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析。
6、方差分析:又稱「變異數分析」或「F檢驗」,方差分析是從觀測變數的方差入手,研究諸多控制變數中哪些變數是對觀測變數有顯著影響的變數。

想要了解更多關於數據分析的相關信息,推薦選擇十方融海。十方融海作為技術創新型企業,堅持源頭核心技術創新,為用戶提供聽得懂、學得會、用得上的產品。該機構的解決方案和社會價值獲得了主流媒體報道,與廈門大學、深圳大學、華南理工大學等高校達成校企合作,探索產教融合、成人教育新模式。用科技推動教育改革,讓教育創造美好生活。

❺ spss分析方法-因子分析(轉載)

因子分析就是將大量的彼此可能存在相關關系的變數,轉換成較少的彼此不相關的綜合指標的多元統計方法。。 下面我們主要從下面四個方面來解說:

[if !supportLineBreakNewLine]

[endif]

實際應用

理論思想

建立模型

[if !supportLineBreakNewLine]

[endif]

分析結果

[if !supportLineBreakNewLine]

[endif]

一、實際應用

在市場調研中,研究人員關心的是一些研究指標的集成或者組合,這些概念通常是通過等級評分問題來測量的,如利用李克特量表取得的變數。每一個指標的集合(或一組相關聯的指標)就是一個因子,指標概念等級得分就是因子得分。因子分析在市場調研中有著廣泛的應用,主要包括:(1)消費者習慣和態度研究(U&A)(2) 品牌形象和特性研究(3)服務質量調查(4) 個性測試(5)形象調查(6) 市場劃分識別(7)顧客、產品和行為分類在實際應用中,通過因子得分可以得出不同因子的重要性指標,而管理者則可根據這些指標的重要性來決定首先要解決的市場問題或產品問題。

[if !supportLineBreakNewLine]

[endif]

二、理論思想

因子分析(Factor Analysis)是一種數據簡化的技術。它通過研究眾多變數之間的內部依賴關系,探求觀測數據中的基本結構,並用少數幾個獨立的不可觀測變數來表示其基本的數據結構。這幾個假想變數能夠反映原來眾多變數的主要信息。原始的變數是可觀測的顯式變數,而假想變數是不可觀測的潛在變數,稱為因子。主成分分析利用的是「降維」的思想,利用原始變數的線性組合組成主成分。在信息損失較小的前提下,把多個指標轉化為幾個互補相關的綜合指標。因子分析是主成分分析的擴展和推廣,通過對原始變數的相關系數矩陣內部結構的研究,導出能控制所有變數的少數幾個不可觀測的綜合變數,通過這少數幾個綜合變數去描述原始的多個變數之間的相關關系。。

[if !supportLineBreakNewLine]

[endif]

因子分析的數學模型可以表示為Xp×1=Ap×m·Fm×1+ep×1,其中X為可實測的p維隨機向量,它的每個分量代表一個指標或變數。

F=(F1, F2,...,Fm)T為不可觀測的m維隨機向量,它的各個分量將出現在每個變數之中,所以稱它們為公共因子。矩陣A稱為因子載荷矩陣,矩陣中的每一個元素稱為因子載荷,表示第i個變數在第j個公共因子上的載荷,它們需要由多次觀測X所得到的樣本來估計。

向量e稱為特殊因子,其中包括隨機誤差,它們滿足條件:

(1)Cov(F,e)=0,即F與e不相關。

(2)Cov(Fi,Fj)=0,i≠j ,Var(Fi)=Cov(Fi, Fj)=I ,即向量F的協方差矩陣為m階單位陣。(

3)Cov(ei,ej)=0,i≠j ,Var(ei)=σi2,即向量e的協方差矩陣為p階對角陣。因子分析的基本思想是通過變數的相關系數矩陣內部結構的分析,從中找出少數幾個能控制原始變數的隨機變數Fi(i=1,2,...,m),選取公共因子的原則是使盡可能多地包含原始變數中的信息,建立模型X=A· F+e ,忽略e,以F代替X,用它再現原始變數X的眾多分量之間的相關關系,達到簡化變數降低維數的目的。

[if !supportLineBreakNewLine]

[endif]

三、建立模型

[if !supportLineBreakNewLine]

[endif]

因子分析的基本步驟如下。

對數據進行標准化處理,

估計因子載荷矩陣,

因子旋轉,建立因子分析數學模型的目的不僅要找出公共因子並對變數進行分組,更重要的是要知道每個公共因子的意義,以便對實際問題作出科學分析。當因子載荷矩陣A的結構不便對主因子進行解釋時,可用一個正交陣右乘A(即對A實施一個正交變換)。由線性代數知識,對A施行一個正交變換,對應坐標系就有一次旋轉,便於對因子的意義進行解釋。

估計因子得分以公共因子表示原因變數的線性組合,而得到因子得分函數。我們可以通過因子得分函數計算觀測記錄在各個公共因子上的得分,從而解決公共因子不可觀測的問題。

[if !supportLineBreakNewLine]

[endif]

因子分析案例:

[if !supportLineBreakNewLine]

[endif]

題目:以下給出了中國歷年國民經濟主要指標統計(1992~2000)數據。試用因子分析對這些指標提取公因子並寫出提取的公因子與這些指標之間的表達式。

一、數據輸入

二、操作步驟 1、進入SPSS,打開相關數據文件,選擇「分析」|「降維」|「因子」命令。2、選擇進行因子分析的變數。在對話框的左側列表框中,依次選擇「工業總產值」「國內生產總值」「貨物周轉量」「原煤」「發電量」「原油」進入「變數」列表框。

3、選擇輸出系數相關矩陣。

單擊「因子分析」對話框中的「描述」按鈕,彈出「因子分析:描述」對話框。在「相關性矩陣」選項組中選中「KMO和巴特利特的球形度檢驗」復選框,單擊「繼續」按鈕返回「因子分析」對話框。

4、設置對提取公因子的要求及相關輸出內容。

單擊「因子分析」對話框中的「提取」按鈕,在「輸出」選項組中選中「碎石圖」復選框。

5、設置因子旋轉方法。單擊「因子分析」對話框中的「旋轉」按鈕,在「方法」選項組中選中「最大方差法」單選按鈕。

6、設置有關因子得分的選項。單擊「得分」按鈕,選中「顯示因子得分系數矩陣」復選框。

7、其餘設置採用系統默認值即可。單擊「確定」按鈕,等待輸出結果。

[if !supportLineBreakNewLine]

[endif]

四、結果分析

1、KMO檢驗和巴特利特檢驗結果KMO檢驗是為了看數據是否適合進行因子分析,其取值范圍是0~1。其中0.9~1表示極好,0.8~0.9表示可獎勵的,0.7~0.8表示還好,0.6~0.7表示中等,0.5~0.6表示糟糕,0~0.5表示不可接受。如下表所示,本例中KMO的取值為0.657,表明可以進行因子分析。巴特利特檢驗是為了看數據是否來自於服從多元正態分布的總體。本例中顯著性值為0.000,說明數據來自正態分布總體,適合進一步分析。

2、變數共同度變數共同度表示的是各變數中所含原始信息能被提取的公因子所解釋的程度。如下表所示,因為本例中所有變數共同度都在85%以上,所以提取的這幾個公因子對各變數的解釋能力很強。

3

4、碎石圖有兩個成分的特徵值超過了1,只考慮這兩個成分即可。

5、旋轉成分矩陣第一個因子在工業總產值、國內生產總值、貨物周轉量、發電量及原油上有較大的載荷,所以其反映的是除原煤以外的其他變數的信息,第二個因子在原煤這一變數上有較大的載荷,反映的是原煤這一變數的信息。

6、成分得分系數矩陣給出了成分得分系數矩陣,據此可以直接寫出各公因子的表達式。值得一提的是,在表達式中各個變數已經不是原始變數而是標准化變數。表達式如下:F1=0.194*工業總產值+0.216*國內生產總值+0.206*貨物周轉量+0.003*原煤+0.211*發電量+0.212*原油F2=0.311*工業總產值-0.002*國內生產總值-0.154*貨物周轉量+0.853*原煤-0.124*發電量+0.036*原油

分析結論:

[if !supportLineBreakNewLine]

[endif]

通過分析,我們可以知道:

由結果分析1、知,本例很適合使用因子分析。

由結果分析2、3、4可知,本例適合選前兩個公因子進行分析,因為這已足夠替代原來的變數,它們幾乎涵蓋了原變數的全部信息。

結果分析5給出了本例中的兩個公因子及其所反映的變數。

結果分析6給出了公因子與標准化形式的變數之間的表達式。

[if !supportLineBreakNewLine]

[endif]

參考案例數據:

[if !supportLineBreakNewLine]

[endif]

[if !supportLists]【1】    [endif]spss統計分析與行業應用案例詳解(第四版)  楊維忠,張甜,王國平  清華大學出版社

[if !supportLists]【2】 [endif](獲取更多知識,前往gz號程式解說)

原文來自 https://mp.weixin.qq.com/s/5b-rkSherOn-tHyzBZPsTw

❻ 模型中變數可以是不可測的

模型中變數可以是不可測的如下:


對有偏差 (biased) 的控制變數系數的邊際效應解釋是存在問題的,研究人員可能會發現錯誤的結論,除非可以確定在回歸分析中考慮了結果變數的所有相關影響因素 (all-causes regression),否則不建議在實證研究中討論控制變數的系數。

同時,我們也建議僅將控制變數視為識別因果關系的干擾項,並不要在報告結果中展示 (Liang 和 Zeger,1995)。因此,研究人員應考慮在解釋其分析結果時完全忽略它們。

簡而言之,我們不需要過多的擔心「控制變數的系數變化並沒有預期的跡象」。因為在實際操作中控制變數的估計總是可能會產生偏差。相反,研究人員應該更加專注於解釋主要變數的邊際效應。

相比之下,控制變數幾乎沒有實質性意義,我們可以放心地省略或只在附錄中討論。這樣不僅會有效阻止研究人員從控制變數中得出錯誤的因果結論,而且還簡化實證研究論文的討論部分,並節省寶貴的資源用來討論主要變數的經濟效果。

❼ 在線監測儀器缺失數據的處理方法

刪除觀察樣本
2)刪除變數:當某個變數缺失值較多且對研究目標影響不大時,可以將整個變數整體刪除
3)使用完整原始數據分析:當數據存在較多缺失而其原始數據完整時,可以使用原始數據替代現有數據進行分析
4)改變權重:當刪除缺失數據會改變數據結構時,通過對完整數據按照不同的權重進行加權,可以降低刪除缺失數據帶來的偏差
查補法:均值插補、回歸插補、抽樣填補等
成對刪除與改變權重為一類
估算與查補法為一類
2、常用的處理方法有:估算,整例刪除,變數刪除和成對刪除。
由於調查、編碼和錄入誤差,數據中可能存在一些無效值和缺失值,需要給予適當的處理。
估算(estimation)。最簡單的辦法就是用某個變數的樣本均值、中位數或眾數代替無效值和缺失值。這種辦法簡單,但沒有充分考慮數據中已有的信息,誤差可能較大。另一種辦法就是根據調查對象對其他問題的答案,通過變數之間的相關分析或邏輯推論進行估計。例如,某一產品的擁有情況可能與家庭收入有關,可以根據調查對象的家庭收入推算擁有這一產品的可能性。
整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值,這種做法的結果可能導致有效樣本量大大減少,無法充分利用已經收集到的數據。因此,只適合關鍵變數缺失,或者含有無效值或缺失值的樣本比重很小的情況。
變數刪除(variable deletion)。如果某一變數的無效值和缺失值很多,而且該變數對於所研究的問題不是特別重要,則可以考慮將該變數刪除。這種做法減少了供分析用的變數數目,但沒有改變樣本量。
成對刪除(pairwise deletion)是用一個特殊碼(通常是9、99、999等)代表無效值和缺失值,同時保留數據集中的全部變數和樣本。但是,在具體計算時只採用有完整答案的樣本,因而不同的分析因涉及的變數不同,其有效樣本量也會有所不同。這是一種保守的處理方法,最大限度地保留了數據集中的可用信息。
採用不同的處理方法可能對分析結果產生影響,尤其是當缺失值的出現並非隨機且變數之間明顯相關時。因此,在調查中應當盡量避免出現無效值和缺失值,保證數據的完整性。

❽ 心理學實驗中排除無關變數的方法有哪些

(1)消除法:消除法就是通過採取一定措施,將影響研究結果的各種無關變數消除掉。它是控制無關變數的最主要、最理想、最基本的方法。
(2)恆定法:恆定法就是採取一定的措施,使某些無關變數在整個研究過程中保持恆定不變。在心理學研究中,有許多無關變數是無法消除的,如被試的年齡、性別、身高等,在這種情況下就需要採用恆定法,使研究環境、測量的儀器與工具、指導語、主試等對不同的被試或研究安排保持恆定,通過固定其效果來達到控制它們的影響的目的。
(3)平衡法就是對某些不能被消除、又不能或不便被恆定的無關變數,通過採取某些綜合平衡的方式使其效果平衡而對它們進行控制的方法。平衡的方法很多,主要有對比組法和循環法。
(4)統計控製法:當無關變數的影響無法消除或未能加以控制,而其影響已經預測和已知時,可以統計的校正或調整將這些影響從研究結果中排除。

❾ 多元統計!!!急求!

1. 因子分析模型

因子分析法是從研究變數內部相關的依賴關系出發,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。它的基本思想是將觀測變數進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變數之間的相關性則較低,那麼每一類變數實際上就代表了一個基本結構,即公共因子。對於所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。

因子分析的基本思想:
把每個研究變數分解為幾個影響因素變數,將每個原始變數分解成兩部分因素,一部分是由所有變數共同具有的少數幾個公共因子組成的,另一部分是每個變數獨自具有的因素,即特殊因子

因子分析模型描述如下:

(1)X = (x1,x2,…,xp)¢是可觀測隨機向量,均值向量E(X)=0,協方差陣Cov(X)=∑,且協方差陣∑與相關矩陣R相等(只要將變數標准化即可實現)。

(2)F = (F1,F2,…,Fm)¢ (m<p)是不可測的向量,其均值向量E(F)=0,協方差矩陣Cov(F) =I,即向量的各分量是相互獨立的。

(3)e = (e1,e2,…,ep)¢與F相互獨立,且E(e)=0, e的協方差陣∑是對角陣,即各分量e之間是相互獨立的,則模型:

x1 = a11F1+ a12F2 +…+a1mFm + e1

x2 = a21F1+a22F2 +…+a2mFm + e2

………

xp = ap1F1+ ap2F2 +…+apmFm + ep

稱為因子分析模型,由於該模型是針對變數進行的,各因子又是正交的,所以也稱為R型正交因子模型。

其矩陣形式為: x =AF + e .

其中:

x=,A=,F=,e=

這里,

(1)m £ p;

(2)Cov(F,e)=0,即F和e是不相關的;

(3)D(F) = Im ,即F1,F2,…,Fm不相關且方差均為1;

D(e)=,即e1,e2,…,ep不相關,且方差不同。

我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。

A = (aij),aij為因子載荷。數學上可以證明,因子載荷aij就是第i變數與第j因子的相關系數,反映了第i變數在第j因子上的重要性。

2. 模型的統計意義

模型中F1,F2,…,Fm叫做主因子或公共因子,它們是在各個原觀測變數的表達式中都共同出現的因子,是相互獨立的不可觀測的理論變數。公共因子的含義,必須結合具體問題的實際意義而定。e1,e2,…,ep叫做特殊因子,是向量x的分量xi(i=1,2,…,p)所特有的因子,各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的。模型中載荷矩陣A中的元素(aij)是為因子載荷。因子載荷aij是xi與Fj的協方差,也是xi與Fj的相關系數,它表示xi依賴Fj的程度。可將aij看作第i個變數在第j公共因子上的權,aij的絕對值越大(|aij|£1),表明xi與Fj的相依程度越大,或稱公共因子Fj對於xi的載荷量越大。為了得到因子分析結果的經濟解釋,因子載荷矩陣A中有兩個統計量十分重要,即變數共同度和公共因子的方差貢獻。

因子載荷矩陣A中第i行元素之平方和記為hi2,稱為變數xi的共同度。它是全部公共因子對xi的方差所做出的貢獻,反映了全部公共因子對變數xi的影響。hi2大表明x的第i個分量xi對於F的每一分量F1,F2,…,Fm的共同依賴程度大。

將因子載荷矩陣A的第j列( j =1,2,…,m)的各元素的平方和記為gj2,稱為公共因子Fj對x的方差貢獻。gj2就表示第j個公共因子Fj對於x的每一分量xi(i= 1,2,…,p)所提供方差的總和,它是衡量公共因子相對重要性的指標。gj2越大,表明公共因子Fj對x的貢獻越大,或者說對x的影響和作用就越大。如果將因子載荷矩陣A的所有gj2 ( j =1,2,…,m)都計算出來,使其按照大小排序,就可以依此提煉出最有影響力的公共因子。

3. 因子旋轉

建立因子分析模型的目的不僅是找出主因子,更重要的是知道每個主因子的意義,以便對實際問題進行分析。如果求出主因子解後,各個主因子的典型代表變數不很突出,還需要進行因子旋轉,通過適當的旋轉得到比較滿意的主因子。

旋轉的方法有很多,正交旋轉(orthogonal rotation)和斜交旋轉(oblique rotation)是因子旋轉的兩類方法。最常用的方法是最大方差正交旋轉法(Varimax)。進行因子旋轉,就是要使因子載荷矩陣中因子載荷的平方值向0和1兩個方向分化,使大的載荷更大,小的載荷更小。因子旋轉過程中,如果因子對應軸相互正交,則稱為正交旋轉;如果因子對應軸相互間不是正交的,則稱為斜交旋轉。常用的斜交旋轉方法有Promax法等。

4.因子得分

因子分析模型建立後,還有一個重要的作用是應用因子分析模型去評價每個樣品在整個模型中的地位,即進行綜合評價。例如地區經濟發展的因子分析模型建立後,我們希望知道每個地區經濟發展的情況,把區域經濟劃分歸類,哪些地區發展較快,哪些中等發達,哪些較慢等。這時需要將公共因子用變數的線性組合來表示,也即由地區經濟的各項指標值來估計它的因子得分。

設公共因子F由變數x表示的線性組合為:

Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1,2,…,m

該式稱為因子得分函數,由它來計算每個樣品的公共因子得分。若取m=2,則將每個樣品的p個變數代入上式即可算出每個樣品的因子得分F1和F2,並將其在平面上做因子得分散點圖,進而對樣品進行分類或對原始數據進行更深入的研究。

但因子得分函數中方程的個數m小於變數的個數p,所以並不能精確計算出因子得分,只能對因子得分進行估計。估計因子得分的方法較多,常用的有回歸估計法,Bartlett估計法,Thomson估計法。

(1)回歸估計法

F = X b = X (X ¢X)-1A¢ = XR-1A¢ (這里R為相關陣,且R = X ¢X )。

(2)Bartlett估計法

Bartlett估計因子得分可由最小二乘法或極大似然法導出。

F = [(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X = (A¢W-1A)-1A¢W-1X

(3)Thomson估計法

在回歸估計法中,實際上是忽略特殊因子的作用,取R = X ¢X,若考慮特殊因子的作用,此時R = X ¢X+W,於是有:

F = XR-1A¢ = X (X ¢X+W)-1A¢

這就是Thomson估計的因子得分,使用矩陣求逆演算法(參考線性代數文獻)可以將其轉換為:

F = XR-1A¢ = X (I+A¢W-1A)-1W-1A¢

5. 因子分析的步驟

因子分析的核心問題有兩個:一是如何構造因子變數;二是如何對因子變數進行命名解釋。因此,因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的。

(i)因子分析常常有以下四個基本步驟:

(1)確認待分析的原變數是否適合作因子分析。

(2)構造因子變數。

(3)利用旋轉方法使因子變數更具有可解釋性。

(4)計算因子變數得分。

(ii)因子分析的計算過程:

(1)將原始數據標准化,以消除變數間在數量級和量綱上的不同。

(2)求標准化數據的相關矩陣;

(3)求相關矩陣的特徵值和特徵向量;

(4)計算方差貢獻率與累積方差貢獻率;

(5)確定因子:

設F1,F2,…, Fp為p個因子,其中前m個因子包含的數據信息總量(即其累積貢獻率)不低於80%時,可取前m個因子來反映原評價指標;

(6)因子旋轉:

若所得的m個因子無法確定或其實際意義不是很明顯,這時需將因子進行旋轉以獲得較為明顯的實際含義。

(7)用原指標的線性組合來求各因子得分:

採用回歸估計法,Bartlett估計法或Thomson估計法計算因子得分。

(8)綜合得分

以各因子的方差貢獻率為權,由各因子的線性組合得到綜合評價指標函數。

F = (w1F1+w2F2+…+wmFm)/(w1+w2+…+wm )

此處wi為旋轉前或旋轉後因子的方差貢獻率。

(9)得分排序:利用綜合得分可以得到得分名次。

在採用多元統計分析技術進行數據處理、建立宏觀或微觀系統模型時,需要研究以下幾個方面的問題:

· 簡化系統結構,探討系統內核。可採用主成分分析、因子分析、對應分析等方法,在眾多因素中找出各個變數最佳的子集合,從子集合所包含的信息描述多變數的系統結果及各個因子對系統的影響。「從樹木看森林」,抓住主要矛盾,把握主要矛盾的主要方面,舍棄次要因素,以簡化系統的結構,認識系統的內核。

· 構造預測模型,進行預報控制。在自然和社會科學領域的科研與生產中,探索多變數系統運動的客觀規律及其與外部環境的關系,進行預測預報,以實現對系統的最優控制,是應用多元統計分析技術的主要目的。在多元分析中,用於預報控制的模型有兩大類。一類是預測預報模型,通常採用多元線性回歸或逐步回歸分析、判別分析、雙重篩選逐步回歸分析等建模技術。另一類是描述性模型,通常採用聚類分析的建模技術。

· 進行數值分類,構造分類模式。在多變數系統的分析中,往往需要將系統性質相似的事物或現象歸為一類。以便找出它們之間的聯系和內在規律性。過去許多研究多是按單因素進行定性處理,以致處理結果反映不出系統的總的特徵。進行數值分類,構造分類模式一般採用聚類分析和判別分析技術。

如何選擇適當的方法來解決實際問題,需要對問題進行綜合考慮。對一個問題可以綜合運用多種統計方法進行分析。例如一個預報模型的建立,可先根據有關生物學、生態學原理,確定理論模型和試驗設計;根據試驗結果,收集試驗資料;對資料進行初步提煉;然後應用統計分析方法(如相關分析、逐步回歸分析、主成分分析等)研究各個變數之間的相關性,選擇最佳的變數子集合;在此基礎上構造預報模型,最後對模型進行診斷和優化處理,並應用於生產實際。
Rotated Component Matrix,就是經轉軸後的因子負荷矩陣,
當你設置了因子轉軸後,便會產生這結果。
轉軸的是要得到清晰的負荷形式,以便研究者進行因子解釋及命名。

SPSS的Factor Analysis對話框中,有個Rotation鈕,點擊便會彈出Rotation對話框,
其中有5種因子旋轉方法可選擇:

1.最大變異法(Varimax):使負荷量的變異數在因子內最大,亦即,使每個因子上具有最高載荷的變數數最少。

2.四次方最大值法(Quartimax):使負荷量的變異數在變項內最大,亦即,使每個變數中需要解釋的因子數最少。

3.相等最大值法(Equamax):綜合前兩者,使負荷量的變異數在因素內與變項內同時最大。

4.直接斜交轉軸法(Direct Oblimin):使因素負荷量的差積(cross-procts)最小化。

5.Promax 轉軸法:將直交轉軸(varimax)的結果再進行有相關的斜交轉軸。因子負荷量取2,4,6次方以產生接近0但不為0的值,藉以找出因子間的相關,但仍保有最簡化因素的特性。

上述前三者屬於「直交(正交)轉軸法」(Orthogonal Rotations),在直交轉軸法中,因子與因子之間沒有相關,因子軸之間的夾角等於90 度。後兩者屬於「斜交轉軸」(oblique rotations),表示因子與因子之間彼此有某種程度的相關,因素軸之間的夾角不是90度。

直交轉軸法的優點是因子之間提供的訊息不會重疊,受訪者在某一個因子的分數與在其他因子的分數,彼此獨立互不相關;缺點是研究迫使因素之間不相關,但這種情況在實際的情境中往往並不常存在。至於使用何種轉軸方式,須視乎研究題材、研究目的及相關理論,由研究者自行設定。

在根據結果解釋因子時,除了要看因子負荷矩陣中,因子對哪些變數呈高負荷,對哪些變數呈低負荷,還須留意之前所用的轉軸法代表的意義。

2,主成分分析(principal component analysis)

將多個變數通過線性變換以選出較少個數重要變數的一種多元統計分析方法。又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變數的課題時,變數個數太多就會增加課題的復雜性。人們自然希望變數個數較少而得到的信息較多。在很多情形,變數之間是有一定的相關關系的,當兩個變數之間有一定相關關系時,可以解釋為這兩個變數反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變數,建立盡可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。
(1)主成分分析的原理及基本思想。
原理:設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的總和變數盡可能多地反映原來變數的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。
基本思想:主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。
(2)步驟
Fp=a1mZX1+a2mZX2+……+apmZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣∑的特徵值多對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變數經過標准化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標准化,本文所採用的數據就存在量綱影響[註:本文指的數據標准化是指Z標准化]。
A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R為相關系數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1≥λ2≥…≥λp≥0 。
進行主成分分析主要步驟如下:
1. 指標數據標准化(SPSS軟體自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名;

選用以上兩種方法時的注意事項如下:
1、因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成個變數的線性組合。

2、主成分分析的重點在於解釋個變數的總方差,而因子分析則把重點放在解釋各變數之間的協方差。

3、主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。

4、主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,的主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不同的因子。

5、在因子分析中,因子個數需要分析者指定(spss根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。和主成分分析相比,由於因子分析可以使用旋轉技術幫助解釋因子,在解釋方面更加有優勢。大致說來,當需要尋找潛在的因子,並對這些因子進行解釋的時候,更加傾向於使用因子分析,並且藉助旋轉技術幫助更好解釋。而如果想把現有的變數變成少數幾個新的變數(新的變數幾乎帶有原來所有變數的信息)來進入後續的分析,則可以使用主成分分析。當然,這中情況也可以使用因子得分做到。所以這中區分不是絕對的。

總得來說,主成分分析主要是作為一種探索性的技術,在分析者進行多元數據分析之前,用主成分分析來分析數據,讓自己對數據有一個大致的了解是非常重要的。主成分分析一般很少單獨使用:a,了解數據。(screening the data),b,和cluster analysis一起使用,c,和判別分析一起使用,比如當變數很多,個案數不多,直接使用判別分析可能無解,這時候可以使用主成份發對變數簡化。(rece dimensionality)d,在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數),還可以用來處理共線性。

在演算法上,主成分分析和因子分析很類似,不過,在因子分析中所採用的協方差矩陣的對角元素不在是變數的方差,而是和變數對應的共同度(變數方差中被各因子所解釋的部分)。

(1)了解如何通過SPSS因子分析得出主成分分析結果。首先,選擇SPSS中Analyze-Data Rection-Factor…,在Extraction…對話框中選擇主成分方法提取因子,選擇好因子提取個數標准後點確定完成因子分析。打開輸出結果窗口後找到Total Variance Explained表和Component Matrix表。將Component Matrix表中第一列數據分別除以Total Variance Explained表中第一特徵根值的開方得到第一主成分表達式系數,用類似方法得到其它主成分表達式。打開數據窗口,點擊菜單項的Analyze-Descriptive Statistics-Descriptives…,在打開的新窗口下方構選Save standardized values as variables,選定左邊要分析的變數。點擊Options,只構選Means,點確定後既得待分析變數的標准化新變數。

選擇菜單項Transform-Compute…,在Target Variable中輸入:Z1(主成分變數名,可以自己定義),在Numeric Expression中輸入例如:0.412(剛才主成分表達式中的系數)*Z人口數(標准化過的新變數名)+0.212*Z第一產業產值+…,點確定即得到主成分得分。通過對主成分得分的排序即可進行各個個案的綜合評價。很顯然,這里的過程分為四個步驟:

Ⅰ.選主成分方法提取因子進行因子分析。

Ⅱ.計算主成分表達式系數。

Ⅲ.標准化數據。

Ⅳ.計算主成分得分。

我們的程序也將依該思路展開開發。

(2)對為何要將Component Matrix表數據除以特徵根開方的解釋

我們學過主成分分析和因子分析後不難發現,原來因子分析時的因子載荷矩陣就是主成分分析特徵向量矩陣乘以對應特徵根開方值的對角陣。而Component Matrix表輸出的恰是因子載荷矩陣,所以求主成分特徵向量自然是上面描述的逆運算。

成功啟動程序後選定分析變數和主成分提取方法即可在數據窗口輸出得分和在OUTPUT窗口輸出主成分表達式。

3,聚類分析(Cluster Analysis)

聚類分析是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類的分析技術 。

在市場研究領域,聚類分析主要應用方面是幫助我們尋找目標消費群體,運用這項研究技術,我們可以劃分出產品的細分市場,並且可以描述出各細分市場的人群特徵,以便於客戶可以有針對性的對目標消費群體施加影響,合理地開展工作。

4.判別分析(Discriminatory Analysis)

判別分析(Discriminatory Analysis)的任務是根據已掌握的1批分類明確的樣品,建立較好的判別函數,使產生錯判的事例最少,進而對給定的1個新樣品,判斷它來自哪個總體。根據資料的性質,分為定性資料的判別分析和定量資料的判別分析;採用不同的判別准則,又有費歇、貝葉斯、距離等判別方法。

費歇(FISHER)判別思想是投影,使多維問題簡化為一維問題來處理。選擇一個適當的投影軸,使所有的樣品點都投影到這個軸上得到一個投影值。對這個投影軸的方向的要求是:使每一類內的投影值所形成的類內離差盡可能小,而不同類間的投影值所形成的類間離差盡可能大。貝葉斯(BAYES)判別思想是根據先驗概率求出後驗概率,並依據後驗概率分布作出統計推斷。所謂先驗概率,就是用概率來描述人們事先對所研究的對象的認識的程度;所謂後驗概率,就是根據具體資料、先驗概率、特定的判別規則所計算出來的概率。它是對先驗概率修正後的結果。

距離判別思想是根據各樣品與各母體之間的距離遠近作出判別。即根據資料建立關於各母體的距離判別函數式,將各樣品數據逐一代入計算,得出各樣品與各母體之間的距離值,判樣品屬於距離值最小的那個母體。

5.對應分析(Correspondence Analysis)

對應分析是一種用來研究變數與變數之間聯系緊密程度的研究技術。

運用這種研究技術,我們可以獲取有關消費者對產品品牌定位方面的圖形,從而幫助您及時調整營銷策略,以便使產品品牌在消費者中能樹立起正確的形象。

這種研究技術還可以用於檢驗廣告或市場推廣活動的效果,我們可以通過對比廣告播出前或市場推廣活動前與廣告播出後或市場推廣活動後消費者對產品的不同認知圖來看出廣告或市場推廣活動是否成功的向消費者傳達了需要傳達的信息。

閱讀全文

與不可觀測變數的處理方法有哪些相關的資料

熱點內容
維生素減壓最佳方法 瀏覽:239
2的開平方的計算方法 瀏覽:43
無線網路運營商設置在哪裡設置方法 瀏覽:808
黃芪鑒別最簡單方法和用量 瀏覽:772
腦出血計算方法 瀏覽:691
降解紗線最佳方法 瀏覽:160
短期投資入賬價值計算方法 瀏覽:22
小米6屏幕重啟解決方法 瀏覽:438
蘋果7手機設置音樂鈴聲設置在哪裡設置方法 瀏覽:722
鉚釘的安裝方法 瀏覽:756
染頭發怎麼染方法視頻 瀏覽:842
腦袋瓜的食用方法 瀏覽:804
將苦味酊塗在手指上的治療方法是 瀏覽:332
切線方法視頻大全 瀏覽:555
軟燈帶安裝方法圖解 瀏覽:458
廚房的使用方法 瀏覽:526
濰坊青蘿卜種植方法 瀏覽:559
生物分析方法的維護 瀏覽:195
擠領帶方法視頻 瀏覽:753
檢驗員檢測方法 瀏覽:723