導航:首頁 > 研究方法 > 以聚類分析為基礎的統計分析方法

以聚類分析為基礎的統計分析方法

發布時間:2025-01-23 14:50:20

1. 常用的統計分析方法總結(聚類分析、主成分分析、因子分析)

1. 系統聚類法 :由N類--1類
2. 分解法 :由1類---N類
3. K-均值法 :事先在聚類過程中確定在K類,適用於數據量大的數據
4. 有序樣品的聚類 :N個樣品排序,次序相鄰的樣品聚成一類
5. 模糊聚類法 :模糊數學的方法,多用於定性變數
6. 加入法 :樣品依次加入,全部加入完得到聚類圖。

a.夾角餘弦
b.相關系數

a.常用的類間距離定義有8種之多,與之相應的 系統聚類法 也有8種,分別為
a. 中間距離法
b. 最短距離法 :類與類之間的距離最近兩個樣品的距離。
c. 最長距離法 :類與類之間的距離最遠兩個樣品的距離。【先距離最短,後距離最遠合並】
d. 類平均法 :兩類元素中任兩個樣品距離的平均。
e. 重心法 :兩個重心xp 和xq 的距離。
f. 可變類平均法
e. 離差平方和法(Ward法) : 該方法的基本思想來自於方差分析,如果分類正確,同 類樣品的離差平方和應當較小,類與類的離差平方和較大。 具體做法是先將 n 個樣品各自成一類,然後每次縮小一類,每 縮小一類,離差平方和就要增大,選擇使方差增加最小的兩 類合並,直到所有的樣品歸為一類為止。

a. 最短距離法的主要缺點是它有鏈接聚合的趨勢,容易形 成一個比較大的類,大部分樣品都被聚在一類中,所以最短 距離法的聚類效果並不好,實際中不提倡使用。
b. 最長距離法克服了最短距離法鏈接聚合的缺陷,兩類合 並以後與其他類的距離是原來兩個類中的距離最大者,加大 了合並後的類與其他類的距離。

a. 定義 :主成分分析(Principal Component Analysis,簡記 PCA)是將 多個指標化為少數幾個綜合指標的一種統計分析方法 ,通常我們把轉化成的綜合指標稱為主成分。

b. 本質:降維

c. 表達 :主成分為原始變數的線性組合
d. 即信息量在空間降維以後信息量沒有發生改變,所有主成分的方差之和與原始的方差之和

e. 多個變數之間有一定的相關性,利用原始變數 的線性組合形成幾個綜合指標(主成分),在保留原始變數主要信息的前提下起到降維與簡化問題的作用。

f. 累積貢獻率一般是 85% 以上

(1)每一個主成分都是各 原始變數的線性組合
(2)主成分的數目大大少於原始變數的數目
(3)主成分保留了原始變數絕大多數信息
(4)各主成分之間 互不相關

a. 基本目的:用 少數幾個綜合因子去描述多個隨機變數之間的相關關系
b. 定義:多個變數————少數綜合因子(不存在的因子)
c. 顯在變數:原始變數X;潛在變數:因子F
d. X=AF+e【公共因子+特殊因子】
e. 應用: 因子分析主要用於相關性很強的多指標數據的降維處理。
f. 通過研究原始變數相關矩陣內部 的依賴關系,把一些具有錯綜復雜關系的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。
g. 定義:原始的變數是可觀測的顯在變數,而 綜合 的因子是 不可觀測 潛在變數 ,稱為因子。

i. 根據相關性大小把原始變數分組,使得同組內的變數之間相關性較高,而不同組的變數間的相關性則較低。
ii. 公共因子 :每組變數代表一個基本結構,並用一個不可觀測的綜合變數表示。
iii. 對於所研究的某一具體問題,原始變數分解成兩部分:

i. R 型因子分析——研究變數之間的相關關系
ii. Q 型因子分析——研究樣品之間的相關關系

a. 因子載荷 是第i個變數與第j個公共因子的相關系數,絕對值越大,相關的密切程度越高。

a. 變數 Xi 的共同度是因子載荷矩陣的第i行的元素的平方和。記為

b. 所有的公共因子與特殊因子對變數 Xi 的貢獻和為1。

a. 確定因子載荷
b. 因子旋轉
c. 計算因子得分

a. 尋找簡單結構的載荷矩陣:載荷矩陣A的所有元素都接 近0或±1,則模型的公共因子就易於解釋。
b. 如果各主因子的典型代表變數不突出,就需要進行旋轉使因子載荷矩陣中載荷的絕對值向0和1兩個方向分化。

a.意義:對公共因子作正交旋轉相當於對載荷矩陣 A 作一正交變換 ,右乘正交矩陣 T ,使 A* = AT 能有更鮮明的實際意義。
b.幾何意義:是在 m 維空間上對原因子軸作一剛性旋轉。 因子旋轉不改變公共因子的共同度,這是因為 A A '=ATT'A'=AA'
c. 旋轉方法有:正交旋轉和斜交旋轉
d. 最普遍的是: 最大方差旋轉法

a. 定義:通過坐標變換使各個因子載荷的方差之和最大。
b. 任何一個變數只在一個因子上有高貢獻率,而在 其它因子上的載荷幾乎為0;
c. 任何一個因子只在少數變數上有高載荷,而在其 它變數上的載荷幾乎為0。

思想相同: 降維
前提條件:各變數間必須有 相關性 ,否則各變數之間沒有共享信息

2. 社會科學中有哪些常用的統計分析方法

1、聚類分析


聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組數據進行聚類分析,所得到的聚類數未必一致。


2、因子分析


因子分析是指研究從變數群中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發抽因法、拉奧典型抽因法等等。這些方法本質上大都屬近似方法,是以相關系數矩陣為基礎的,所不同的是相關系數矩陣對角線上的值,採用不同的共同性□2估值。在社會學研究中,因子分析常採用以主成分分析為基礎的反覆法。


3、相關分析


相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對具體有依存關系的現象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。


4、對應分析


對應分析(Correspondence analysis)也稱關聯分析、R-Q型因子分析,通過分析由定性變數構成的交互匯總表來揭示變數間的聯系。可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。


5、回歸分析


研究一個隨機變數Y對另一個(X)或一組(X1,X2,„,Xk)變數的相依關系的統計分析方法。回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變數的多少,可分為一元回歸分析和多元回歸分析;按照自變數和因變數之間的關系類型,可分為線性回歸分析和非線性回歸分析。

3. 聚類分析法方法

聚類分析法是數據挖掘中常用的一種技術,它通過將數據對象分組,使得同一組內的對象相似度較高,而不同組之間的對象相似度較低。以下是三種常見的聚類方法的描述:


首先,直接聚類法(又稱單鏈接法)從每個分類對象獨立開始,通過尋找距離最小的兩個對象合並為一類。如果其中一個對象已歸屬,就將其對應的另一對象也並入該類。如果兩個對象已分別歸屬兩個類,則將這兩個類合並。這個過程重復進行,直至所有對象歸為一類。這種聚類方法可以用聚類譜系圖直觀地表示分類過程。


其次,最短距離聚類法(又稱雙鏈接法)是通過不斷尋找兩個分類對象之間的最小距離,將它們合並為新類。合並後,重新計算所有類與新類的距離,繼續尋找最小距離進行下一輪的合並,直到所有對象形成一個大類。這種方法強調的是鄰近度,確保新類內的對象間關系最為緊密。


最後,最遠距離聚類法(又稱完全鏈接法)與最短距離聚類法的不同在於,它使用的是類間最大距離來衡量相似性。該方法將兩個分類對象間的最大距離作為合並的依據,以確保新類內的對象盡可能遠離其他類。這個過程也是不斷重復,直到所有對象歸為一類。




(3)以聚類分析為基礎的統計分析方法擴展閱讀

聚類分析法是理想的多變數統計技術,主要有分層聚類法和迭代聚類法。 聚類分析也稱群分析、點群分析,是研究分類的一種多元統計方法。

閱讀全文

與以聚類分析為基礎的統計分析方法相關的資料

熱點內容
翡翠新武器鑒別方法 瀏覽:641
競爭的定價方法常用在哪裡 瀏覽:564
百度雲隱藏空間文件夾在哪裡設置方法 瀏覽:566
快速開硬椰子方法 瀏覽:600
心理學的研究方法歸納法 瀏覽:998
小學生課後鍛煉方法 瀏覽:407
幼樹刻芽正確方法 瀏覽:272
台式機電源檢測方法 瀏覽:695
如何泡清酒的方法 瀏覽:72
歐巴撩妹正確方法 瀏覽:627
一周歲寶寶咳嗽最簡單方法 瀏覽:567
院線真假鑒別方法 瀏覽:784
輪船鏈的安裝方法 瀏覽:107
尖銳疣治療好的方法 瀏覽:258
神奇方法治療皮膚病 瀏覽:544
快速閱讀的方法論 瀏覽:446
解決人生困難的四個方法 瀏覽:427
graves眼病治療方法 瀏覽:947
鹽吃得少如何補救方法 瀏覽:136
醫院創新教學方法 瀏覽:480