A. 無量綱指標評價方法有
目前人們已提出的無量綱化方法名稱很多,如綜合指數法、極差變換法、高中差變換法、低中差變換法、均值化法、標准化法、比重法、功效系數法、指數型功效系數法、對數型功效系數法、正態化變換法等等。蘇為華教授將它們歸為四類:廣義指數法、廣義線性功效系數法、非線性函數法、分段函數法[1]。則廣義指數法和廣義線性功效系數法包含了前8種,都是線性無量綱化方法;後三種屬於非線性函數法,也即曲線型無量綱化方法。由於指數或對數變換時,曲線的增減速度、凹凸程度很難把握,所以實踐中非線性函數法較少被採用。
實踐中應用較多的是屬於直線型無量綱化方法的極差變換法、標准化法和均值化法。下面對這三種方法進行比較分析。
設綜合評價中共有n個單位,m個指標,各指標分別為x1,x2,…,xm,用xij(i=1,2,…,n;j=1,2,…,m)表示第i個單位的第j個原始指標值,yij表示經過無量綱化處理的第i個單位的第j個指標值。極差變換法即令
(3)
式(3)中的分母僅與原始指標的最大值和最小值有關,而與指標的其它值無關。當xj的最大值與最小值之差很大時,yj值就會過小,相當於降低了第j個指標的權重;相反,當xj的最大值與最小值之差很小時,yj值就會過大,相當於提高了第j個指標的權重。即指標的兩個值就對指標的權重產生了很大影響。所以在多指標綜合評價中,用極差變換法作為無量綱化的方法是不可取的。
目前最普遍使用的無量綱化方法是標准化法,標准化法即令
(4)
其中和σj分別是指標xj的均值和標准差。經標准化後,指標yj的均值為0,方差為1,消除了量綱和數量級的影響。同時標准化法也消除了各指標變異程度上的差異,因此經標准化後的數據不能准確反映原始數據所包含的信息,導致綜合評價的結果不準確。從下例可以看出:
例1、對十個省市的全部國有及規模以上非國有工業企業的經濟效益進行綜合評價。為直觀起見,只選用全員勞動生產率和產品銷售率兩個指標,指標值見表2。根據國家經貿委等部門頒布的《工業經濟效益評價體系》兩個指標的權數分別為10和13。
表2 十省市勞動生產率和產品銷售率
地區
北京
天津
河北
山西
內蒙古
遼寧
吉林
黑龍江
上海
江蘇
勞動生產率(元)
69539
58984
45576
27988
37770
48170
47306
68104
95393
57177
產品銷售率(%)
98.17
98.02
98.05
97.06
97.93
97.33
96.94
97.61
98.83
97.06
由表2易見,各地區的產品銷售率非常接近,而全員勞動生產率相差較大。它們的變異系數分別為0.0062和0.3419也說明了這一點。所以若用這兩個指標來評價經濟效益,則很顯然主要的影響因素應是全員勞動生產率。
但是,若用標准化法對兩個指標進行無量綱化,將使兩個指標的變異程度相同,因為產品銷售率的權數大,因而產品銷售率對經濟效益的影響會比全員勞動生產率大。評價結果見表3
表3 十省市標准化法評價結果對照
地區
北京
天津
河北
山西
內蒙古
遼寧
吉林
黑龍江
上海
江蘇
評價得分
0.76
0.38
0.10
-1.23
-0.19
-0.51
-0.90
0.20
1.96
-0.56
評價名次
2
3
5
10
6
7
9
4
1
8
銷售率名次
2
4
3
8
5
7
10
6
1
8
從表3可見評價名次與產品銷售率名次相差不大,這顯然是不合理的。
所以必須改進原始數據的無量綱化方法,均值化方法就是一種較好的方法。均值化方法即令
(5)
均值化後各指標的均值都為1,其方差為
(6)
即均值化後各指標的方差是各指標變異系數的平方,它保留了各指標變異程度的信息。
對於例1,若用均值化方法對兩個指標進行無量綱化,則因全員勞動生產率的變異系數比產品銷售率的變異程度大得多,因而全員勞動生產率是經濟效益綜合評價的主要影響因素。評價結果見表4
表4 十省市均值化法評價結果對照
地區
北京
天津
河北
山西
內蒙古
遼寧
吉林
黑龍江
上海
江蘇
評價得分
1.11
1.03
0.92
0.78
0.86
0.94
0.93
1.10
1.32
1.01
評價名次
2
4
8
10
9
6
7
3
1
5
勞動生產率名次
2
4
8
10
9
6
7
3
1
5
由表4可知,評價名次與全員勞動生產率的名次完全一致,這與實際情況是相符的。即用均值化法比用標准化法合理。
那麼,是否我們就應該用均值化方法作為指標的無量綱化方法呢?這也要具體問題具體分析。在實際問題中,情況是復雜的,有時需要保留指標的變異信息,有時需要消除指標的變異信息。用下面的例子即可說明。
B. 數據預處理的無量綱化
1.1數據無量綱化
將不同規格的數據轉化到同一規格或是將不同分布的數據轉換到某個特定分布的需求,這種需求統稱將數據「無量綱化」。在梯度和矩陣為核心的演算法中,無量綱化可以加快求解速度,而在距離類模型中,無量綱化可以幫助我們提升模型精度,避免某一個取值范圍特別大的特徵對距離計算造成影響。決策樹和樹的集成模型是一個特例,它們不需要無量綱化,它們可以把任何數據處理的很好。
數據的無量綱化可以是線性的也可以是非線性的,線性的無量綱化包括中心化處理和縮放處理。中心化的本質是將所有記錄減去一個固定值,就是使數據樣本平移到某個位置,縮放的本質就是通過除以一個固定值,將數據固定到某個范圍之中,取對數也算一種縮放。
1.2 preprocession.MinMaxScaler
當數據按照最小值中心化後,再按極差(最大值-最小值)縮放,數據移動到了最小值個單位,並且會收斂到[0,1]之間,這個過程稱為數據的歸一化(Normalization,又稱Min-Max-Scaler),Normalization是歸一化的意思不是正則化,正則化是regularization,不是數據預處理的手段。歸一化後數據服從正態分布。
sklearn中,使用preprocess.MinMaxScaler來實現數據歸一化,MinMaxScaler重要參數:feature_range,控制數據壓縮到的范圍,默認是[0,1]
1.3 preprocession.StandardScaler
當數據按均值中心化後,再按標准差縮放,數據會浮動均值為0,方差為1的正態分布(標準的正態分布),而這個過程稱為數據標准化(StandardScaler,又稱Z-score normalization)
對於StandardScaler和MinMaxScaler來說,空值NaN會被當成缺失值,在fit的時候忽視,在transform的時候保存缺失NaN的狀態顯示,無量綱化的過程不是具體的演算法,但是在fit介面中,依然只允許導入至少二維數組,如果導入一維的數組會報錯。
1.4 StandardScaler和MinMaxScaler選哪個?
大多數機器學習演算法中,都是用StandardScaler來進行特徵的縮放,因為MinMaxScaler對異常值非常敏感,在PCA,聚類,邏輯回歸,SVM,神經網路這些演算法中,StandardScaler會是比較好的選擇。
MinMaxScaler用在不涉及度量距離、梯度、協方差計算以及數據需要被壓縮到特定區間時使用,比如數字圖像處理中量化像素強度時,都會使用MinMaxScaler將數據壓縮到[0,1]區間之間。
可以先嘗試一下StandardScaler,效果不好再換MinMaxScaler。
Sklearn中其他縮放處理:
C. 指標的無量綱化處理
所謂無量綱化,也稱為指標的規范化(或標准化),是通過數學變換消除原始指標單位及其數值數量級影響的過程,這是進行指標評估的前提。因此,指標有實際值和評估值兩種形式。無量綱化過程就是將指標實際值轉化為指標評估值的過程。地質資料社會化服務的評估指標均按照線性無量綱方法進行統一的量綱,而且在系統內一次性完成。為了改進評估方法,本部分先對無量綱化的處理方法做簡要介紹。
從理論上講,指標的無量綱化方法很多,歸結起來可分為三大類:線性無量綱方法,非線性無量綱方法和定性指標的無量綱方法。
(一)線性無量綱方法
線性無量綱方法是指將指標實際值轉化為不受量綱影響的指標評估值時,假定二者之間呈線性關系,指標實際值的變化引起指標評估值一個相應的比例變化。其常見的形式有閾值法、Z-score法和比值法。
1.閾值法
閾值法也稱臨界值法,是一種將指標實際值xi與該指標的某個閾值相對比,從而使指標實際值轉化為評估值的方法。這里的閾值往往採用指標的極大值、極小值、滿意值和不允許值等。其主要公式及特點等可參見表2-1,其中m為指標的觀測值個數,yi為轉化後的指標值,一般為評估方案的個數。
表2-1 閾值法無量綱變換
續表
2.Z-score法
即按照統計學的原理對實際指標進行標准化。
地質資料社會化服務評估研究
式中:yi為指標評估值; 為指標實際值的算術平均數; 為指標實際值;s為指標實際值的均方差, 。
3.比值法
即用指標的實際值與該指標的計劃標准、歷史標准或行業標准作比較,以消除指標里量綱的影響。其公式主要有兩種形式:
地質資料社會化服務評估研究
(二)非線性無量綱化方法
1.折線形標准化函數
折線形標准化函數適合於事物發展呈現階段性,指標值在不同發展階段對事物總體水平的影響是不同的。構造折線形標准化函數與直線形不同之處在於必須找出事物發展的轉折點的指標值並確定其評估值。常用的函數有以下兩種類型:
(1)兩折線形。採用兩折線形標准化函數,指標值在不同時期其變化被賦予不同的評估值增量,分為凸折線形和凹折線形兩種(圖2-1)。
圖2-1 兩折線形標准化函數示意圖
設折點的坐標值為(xm,ym),x軸表示指標的實際值,y軸表示指標的評估值,用閾值法可以構造如下折線形(凸折線形)公式:
地質資料社會化服務評估研究
凸折線形函數的特點是前期增量大而後期增量小(以折點為界);凹折線形函數的特點是後期增量大而前期增量小(以折點為界)。折線形函數適用於極本形和極小形指標。
圖2-2 三折線形標准化函數示意圖
(2)三折線形(圖2-2)。三折線形標准化函數適用於:(1) 某些事物要求指標值在某些區間內變化,若超出這個區間則指標的變化對事物的總體水平幾乎沒有什麼影響。(2) 居中型指標的標准化,即指標值過大或者過小都會對事物產生不利的影響。從理論上講,折線形標准化方法比直線形標准化方法更符合事物發展的實際情況,但是其應用的前提是評估者必須對被評估事物有較為深刻的理解和認識,能夠合理地確定出指標值的轉折點及其評估值。
2.曲線形標准化函數
有些事物發展階段的分界點不是很明顯,而前中後各期發展階段又截然不同,也就是說指標變化對事物總體水平的影響是逐漸變化的,而非突變。這種情況下,就必須採用曲線形標准化函數。常用的曲線形標准化函數及其特點見表2-2,其中,x表示指標的實際值,y表示指標的評估值。
表2-2 曲線形標准化公式
在對指標進行標准化時,要選擇一種或者幾種適合於評估對象性質的方法,然後分析不同的標准化方法對結論產生的影響,從而選擇最合適的一種。除以上所說的常用標准化函數外,針對不同的事物可以構造更多的函數對指標進行標准化處理。
(三)定性指標的無量綱化
評估指標體系中經常包含一些定性的指標,為了和定量指標組成一個有機的評估體系,也必須對其進行標准化處理。較簡單的處理方法是,首先借用主觀賦權法的方法原理,對指標的不同描述進行評分,然後按指標屬性特點選用標准化函數建立與定量指標相適應的指標評估值,也可以在主觀評分的基礎上直接計算指標評估值。
本評估指標體系中的滿意度調查即採取該方法。
D. 無量綱化處理方法經常用的是標准化方法。請問標准化方法具體是什麼啊能否舉實例啊
最典型的就是0-1標准化和Z標准化,也是最常用的。
1、0-1標准化(0-1 normalization)
也叫離差標准化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:
其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。
2、Z-score 標准化(zero-mean normalization)
也叫標准差標准化,經過處理的數據符合標准正態分布,即均值為0,標准差為1,也是SPSS中最為常用的標准化方法,其轉化函數為:
其中μ為所有樣本數據的均值,σ為所有樣本數據的標准差。
E. 評價指標值的無量綱化
河南省土地資源生態安全評價指標標准化值的確定即指標值的無量綱化。由於定量指標的計量單位各不相同,不具有可比性,因此,在確定指標實際值之後,還必須解決指標間的可綜合性問題,即進行指標的無量綱化處理,通過一定的數值變換來消除指標間的量綱影響。生態安全評價是多指標綜合評價,指標涉及范圍廣,如果指標間沒有統一的度量標准,則難以進行比較。為了使表示不同含義的各種指標能夠綜合起來表徵生態安全,也需將各類指標無量綱化。
無量綱化的方法有三大類,即直線型無量綱化方法、折線型無量綱化方法和曲線型無量綱化方法。本次研究採用直線型無量綱化方法,將表示區域土地資源生態安全的各指標都化成以百分比為單位的指標值。在無量綱化過程中,生態安全指標的安全趨向性有正向和逆向之分,安全正向性即指標值越大越安全,相反,安全逆向性則為越小越安全。
假設Xi(i=1,2,…,n)為第i個指標的實際值,Si(i=1,2,…,n)為評價指標的基準值,P(Xi)為該指標的不安全指數標准化值,P'(Xi)為該指標的安全指數標准化值,具體確定過程如下:
(1)安全正向性指標,以2種情況確定。
1)如果以「安全」為標准值:
如
如
2)如果以「不安全」為標准值:
如
如
(2)安全逆向性指標,亦以2種情況確定。
1)如果以「安全」為標准值:
如
如
2)如果以「不安全」為標准值:
如
如
本次研究進行無量綱化處理,是為了消除不同指標之間由於不同量綱所帶來的不可綜合性問題,那麼對於量化指標體系中,指標本身實際值就是相對數的情況,即指標本身實際值就是沒有實際單位的,這種指標也需要進行無量綱化處理。因為,兩個不同含義的相對數相加是沒有現實意義的。兩個指標的變動代表了不同的含義,不存在嚴格的一致性變化,而且有時兩個指標的變化方向也是不同的,即安全指標具有正向和逆向屬性。所以,如果把這類指標直接綜合起來(相加或者相乘),就破壞了綜合指標的同質性原則。基於上述的原因,本次研究在實證中,對所有指標的實際值統一進行了無量綱化處理。
(3)把不安全指數轉換為安全指數,其公式如下:
河南省土地資源生態安全理論、方法與實踐
F. 問卷中的指標有定性和定量問題,如何使其標准化消除量綱,達到指標的綜合評價
量變即產生 性變 定性變
G. 想知道怎麼用matlab做數據的無量綱化
1. min-max歸一化
該方法是對原始數據進行線性變換,將其映射到[0,1]之間,該方法也被稱為離差標准化(但是請注意,網上更多人喜歡把z-score稱為標准化方法,把min-max稱為歸一化方法,然後在此基礎上,強行給標准化(z-score)與歸一化(min-max)劃條界線,以顯示二者之間的相異性。對!二者之間確實有很大的不同,這個我們後面會有介紹,但是這兩個方法說到底還都是用來去除量綱的,都是無量綱化技術中的一員而已,所以,請不要糾結標准化與歸一化這兩個概念了)。
上式中,min是樣本的最小值,max是樣本的最大值。由於最大值與最小值可能是動態變化的,同時也非常容易受雜訊(異常點、離群點)影響,因此一般適合小數據的場景。此外,該方法還有兩點好處:
1) 如果某屬性/特徵的方差很小,如身高:np.array([[1.70],[1.71],[1.72],[1.70],[1.73]]),實際5條數據在身高這個特徵上是有差異的,但是卻很微弱,這樣不利於模型的學習,進行min-max歸一化後為:array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]]),相當於放大了差異;
2) 維持稀疏矩陣中為0的條目。
使用方法如下:
from sklearn.preprocessing import MinMaxScaler
x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x1 = MinMaxScaler().fit_transform(x)
H. 數學分析模型(一):數據的無量綱處理方法及示例(附完整代碼)
在對實際問題建模過程中,特別是在建立指標評價體系時,常常會面臨不同類型的數據處理及融合。而各個指標之間由於計量單位和數量級的不盡相同,從而使得各指標間不具有可比性。在數據分析之前,通常需要先將數據標准化,利用標准化後的數據進行分析。數據標准化處理主要包括同趨化處理和無量綱化處理兩個方面。數據的同趨化處理主要解決不同性質的數據問題,對不同性質指標直接累加不能正確反應不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對評價體系的作用力同趨化。數據無量綱化主要解決數據的不可比性,在此處主要介紹幾種數據的無量綱化的處理方式。
可以選擇如下的三種方式:
即每一個變數除以該變數取值的全距,標准化後的每個變數的取值范圍限於[-1,1]。
即每一個變數與變數最小值之差除以該變數取值的全距,標准化後各變數的取值范圍限於[0,1]。
,即每一個變數值除以該變數取值的最大值,標准化後使變數的最大取值為1。
採用極值化方法對變數數據無量綱化是通過變數取值的最大值和最小值將原始數據轉換為界於某一特定范圍的數據,從而消除量綱和數量級的影響。由於極值化方法對變數無量綱化過程中僅僅對該變數的最大值和最小值這兩個極端值有關,而與其他取值無關,這使得該方法在改變各變數權重時過分依賴兩個極端取值。
來計算,即每一個變數值與其平均值之差除以該變數的標准差,無量綱化後各變數的平均值為0,標准差為1,從而消除量綱和數量級的影響。雖然該方法在無量綱化過程中利用了所有的數據信息,但是該方法在無量綱化後不僅使得轉換後的各變數均值相同,且標准差也相同,即無量綱化的同時還消除了各變數在變異程度上的差異。
,該方法在消除量綱和數量級影響的同時,保留了各變數取值差異程度上的信息。
(4)標准差化方法
。該方法是標准化方法的基礎上的一種變形,兩者的差別僅在無量綱化後各變數的均值上,標准化方法處理後各變數的均值為0,而標准差化方法處理後各變數均值為原始變數均值與標准差的比值。
綜上所述,針對不同類型的數據,可以選擇相應的無量綱化方法。如下的示例就是一個典型的評價體系中無量綱化的範例。
近年來我國淡水湖水質富營養化的污染日益嚴重,如何對湖泊水質的富營養化進行綜合評價與治理是擺在我們面前的任務,下面兩個表格分別為我國5個湖泊的實測數據和湖泊水質評價標准。
表1 全國五個主要湖泊評價參數的實測數據
表2 湖泊水質評價標准
(1)試用以上數據,分析總磷,耗氧量,透明度,總氨這4個指標對湖泊水質評價富營養化的作用。
(2)對這5個湖泊的水質綜合評價,確定水質等級。
在進行綜合評價之前,首先要對評價的指標進行分析。通常評價指標分成效益型,成本型和固定型指標。效益型指標是指那些數值越大影響力越大的統計指標(也稱正向型指標);成本型指標是指數值越小越好的指標(也稱逆向型指標);而固定型指標是指數值越接近於某個常數越好的指標(也稱適度型指標)。如果每個評價指標的屬性不一樣,則在綜合評價時就容易發生偏差,必須先對各評價指標統一屬性。
(ⅰ)建立無量綱化實測數據矩陣和評價標准矩陣,其中實測數據矩陣和等級標准矩陣如下,
然後建立無量綱化實測數據矩陣和無量綱化等級標准矩陣,其中
得到
(ⅱ)計算各評價指標的權重
計算矩陣B的各行向量的均值和標准差,
最後對變異系數歸一化得到各指標的權重為
(ⅲ)建立各湖泊水質的綜合評價模型
通常可以利用向量之間的距離來衡量兩個向量之間的接近程度,在Matlab中,有以下的函數命令來計算向量之間的距離;
dist(w,p): 計算中的每個行向量和中每個列向量之間的歐式距離;
mandist(w,p): 絕對值距離。
計算中各行向量到中各列向量之間的歐氏距離,
,則第個湖泊屬於第級。
這說明杭州西湖,武漢東湖都屬於極富營養水質,青海湖屬於中營養水質,而巢湖和滇池屬於富營養水質。
,則第個湖泊屬於第級。
其評價結果與利用歐氏距離得到的評價結果完全一樣。
所以,從上面的計算可以看出,盡管歐氏距離和絕對值距離的意義完全不一樣,但對湖泊水質的評價等級是一樣的,這表明了方法的穩定性。
各位老鐵養成習慣,看完點個贊唄,隨便也來個關注!!!
各位老鐵養成習慣,看完點個贊唄,隨便也來個關注!!!
各位老鐵養成習慣,看完點個贊唄,隨便也來個關注!!!