❶ k近鄰演算法特徵值非數字
k-近鄰演算法採用測量不同特徵值之間的距離來進行分類。
優點:精度高,對異常值不敏感,無數據輸入假定。缺點:計算復雜度高、空間復雜度高。適用數據范圍:數值型和分類型。原理:首先,我們必須得有一份含有分類標簽的數據集,為訓練數據集。比如我們要預測用戶是否會流失,那麼分類標簽就是流失和未流失。然後有一份新的數據集,這份數據集並沒有分類標簽,k-近鄰演算法就會將新的數據集和訓練數據集進行比較,從訓練數據集中選出與新數據集每個數據最相近的K個數據,查看這K個數據所屬標簽哪類最多,比如流失,就把新數據集中的那個數據分類為流失。怎麼判斷是否相近呢?K-近鄰是計算不同數據的距離。k-近鄰演算法的原理偽代碼。
對未知類別屬性的數據集中的每個數據點依次執行以下操作:(1)計算已知類別數據集中的點與當前點之間的距離。(2)按照距離遞增次序排序。(3)選出與當前距離最近的K個點。(4)統計出K個點所屬類別的頻率。(5)返回K個點出現頻率最高的的類別作為當前點的預測類別