A. 想問下,聚類分析,判別分析,因子分析,主成分分析和對應分析各自的使用條件是什麼
聚類分析一般是用來描述變數或者樣品之間相似性的方法,事先是不知道有多少中類別的。
判別分析是事先知道了有哪些類別,而且有相應的分類數據,那麼可以通過已知的分析數據建立一個分類的規則,那麼給出一個或多個未知類的數據就可以通過建立的規則對其進行分析,判別其到底是屬於哪個類別的。因此
因子分析、主成分分析、對應分析與上面兩種分析方法有很大的不同。
主成分分析是通過已給的變數或者樣品找到少於其變數個數或者樣品個數的幾個公共因子,這些公共因子所能代表的含義能夠最大限度的解釋所有的變數或樣品。其實可以理解為當我想分析一些變數時,這些變數的個數太多,分析起來有點復雜,那麼可以通過主成分分析對變數的個數進行降維,通過找到的少數幾個綜合變數(公共因子)來分析的話會使問題變得簡單、明了。
而因子分析其實相當於是主成分分析的逆過程,即用找到的公共因子來解釋變數。不過尋找公共因子的方法有多種,不只是有主成分方法,還有主軸因子發、極大似然法等。不過可以通過了解主成分分析的過程來理解因子分析的過程。
對應分析其實就是分別對變數和樣品做因子分析,通過一張二維圖展現兩個因子分析的結果而已,方便我們分析變數間、樣品間或者變數和樣品間的相關性。
上面說的是這幾種不同分析的的用法,或者說是目的,那麼如果要了解他們的使用條件的話,需要從他們的使用目的進行分析。
聚類分析一般比較適用於變數(樣品)存在相關性的情況,如果所有變數(樣品)均不相關的話,那麼聚類的結果將會非常差。
判別分析適用於分類數據的分析,及存在某一個變數描述的是樣品屬於哪個類。
主成分分析、因子分析和對應分析對數據一般沒有過分的要求,由於均是通過降維的方式來進行分析,所有都要求變數存在一定的相關性。
而對應分析最適用的數據是列聯表數據,對於定距尺度和定比例尺度的數據也有一定的適用性,只需要將數據看做成頻數即可。但是在做對應分析時,無論是列聯表數據、定距尺度數據還是定比例尺度都需要將其數據轉化成頻率的形式才能分析。其實spss軟體都是自動幫助使用者自動轉化了。
受本人水品所限,了解的主要就這么多,如有差錯的地方還望及時指正。謝謝。