『壹』 常見的數據標准化方法和其公式以及優缺點
一、直線型無量綱化方法:又包括閥值法、指數法、標准化方法、比重法。二、折線型無量綱化方法:凸折線型法、凹折線型法、三折線型法。三、曲線型無量綱化方法 。目前常見的無量綱化處理方法主要有極值化、標准化、均值化以及標准差化方法,而最常使用的是標准化方法。但標准化方法處理後的各指標均值都為0,標准差都為1,它只反映了各指標之間的相互影響,在無量綱化的同時也抹殺了各指標之間變異程度上的差異,因此,標准化方法並不適用於多指標的綜合評價中。而經過均值化方法處理的各指標數據構成的協方差矩陣既可以反映原始數據中各指標變異程度上的差異,也包含各指標相互影響程度差異的信息。四、數據標准化的方法: 1、對變數的離差標准化離差標准化是將某變數中的觀察值減去該變數的最小值,然後除以該變數的極差。即 x』ik=[xik -Min (xk)]/Rk 經過離差標准化後,各種變數的觀察值的數值范圍都將在〔0,1〕之間,並且經標准化的數據都是沒有單位的純數量。離差標准化是消除量綱(單位)影響和變異大小因素的影響的最簡單的方法。 有一些關系系數(例如絕對值指數尺度)在定義時就已經要求對數據進行離差標准化,但有些關系系數的計算公式卻沒有這樣要求,當選用這類關系系數前,不妨先對數據進行標准化,看看分析的結果是否為有意義的變化。 2,對變數的標准差標准化標准差標准化是將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 經過標准差標准化後,各變數將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的平均數為0,標准差為1。經標准化的數據都是沒有單位的純數量。對變數進行的標准差標准化可以消除量綱(單位)影響和變數自身變異的影響。但有人認為經過這種標准化後,原來數值較大的的觀察值對分類結果的影響仍然占明顯的優勢,應該進一步消除大小因子的影響。盡管如此,它還是當前用得最多的數據標准化方法。 3,先對事例進行標准差標准化,再對變數進行標准差標准化第一步,先對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』ik = (xik - )/si 第二步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』ik = (x』ik - 』k)/s』k 使用這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。 4,先對變數、後對事例、再對變數的標准差標准化這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。具體做法是:第一步,先對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 第二步,後對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』』ik = (x』ik - 』i)/s』i 第三步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』』ik = (x』』ik - 』』k)/s』』k 進行了前兩步之後,還要進行第三步的原因,主要是為了計算的方便。