Ⅰ 聚類分析
在沒有先驗知識的情況下,對樣本按各自的特性來進行合理的分類
聚類分析:不需要先知道所屬類別就可以實現按各自特性的分類
聚類分析有兩種主要計算方法,分別是凝聚層次聚類(Agglomerative hierarchical method)和K均值聚類(K-Means)
(1)層次聚類首先要定義樣本之間的距離關系,距離較近的歸為一類,較遠的則屬於不同的類。
(2)K均值聚類不需要計算距離,但要求事先給出分類個數
ris數據集包含5個方面的信息,為了探索聚類分析,所以採用前4個變數作為模型前期數據,使用species作為聚類模型結果的驗證。
(1)首先提取iris數據中的4個數值變數,然後計算其歐氏距離矩陣。
(2)然後將矩陣繪制熱圖,從圖中可以看到顏色越深表示樣本間距離越近·
從圖中可以看到顏色越深表示樣本間距離越近。大致上可以區分出三到四個區塊,其樣本之間比較接近。
使用hclust完成數據集的層次聚類,plot函數可以查看聚類結果
使用cutree函數提取每個樣本所屬的類別
到此就完成了150個數據的類別劃分
可視化展現層次聚類結果
setose品種聚類很成功,但有一些virginica品種的花被錯誤和virginica品種聚類到一起
使用kmeans函數進行K均值聚類
centers參數用來設置分類個數,
nstart參數用來設置取隨機初始中心的次數,其默認值為1,但取較多的次數可以改善聚類效果
K均值聚類後,數據集的結果為:
如果聚類正確的話,圓形點對應紅色;三角形對應藍色;方框對應綠色
K均值聚類setose品種聚類比較好,但有一些virginica品種的花被錯誤和virginica品種聚類到一起