『壹』 無量綱化處理方法經常用的是標准化方法。請問標准化方法具體是什麼啊能否舉實例啊
最典型的就是0-1標准化和Z標准化,也是最常用的。
1、0-1標准化(0-1 normalization)
也叫離差標准化,是對原始數據的線性變換,使結果落到[0,1]區間,轉換函數如下:
其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有一個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。
2、Z-score 標准化(zero-mean normalization)
也叫標准差標准化,經過處理的數據符合標准正態分布,即均值為0,標准差為1,也是SPSS中最為常用的標准化方法,其轉化函數為:
其中μ為所有樣本數據的均值,σ為所有樣本數據的標准差。
『貳』 想知道怎麼用matlab做數據的無量綱化
1. min-max歸一化
該方法是對原始數據進行線性變換,將其映射到[0,1]之間,該方法也被稱為離差標准化(但是請注意,網上更多人喜歡把z-score稱為標准化方法,把min-max稱為歸一化方法,然後在此基礎上,強行給標准化(z-score)與歸一化(min-max)劃條界線,以顯示二者之間的相異性。對!二者之間確實有很大的不同,這個我們後面會有介紹,但是這兩個方法說到底還都是用來去除量綱的,都是無量綱化技術中的一員而已,所以,請不要糾結標准化與歸一化這兩個概念了)。
上式中,min是樣本的最小值,max是樣本的最大值。由於最大值與最小值可能是動態變化的,同時也非常容易受雜訊(異常點、離群點)影響,因此一般適合小數據的場景。此外,該方法還有兩點好處:
1) 如果某屬性/特徵的方差很小,如身高:np.array([[1.70],[1.71],[1.72],[1.70],[1.73]]),實際5條數據在身高這個特徵上是有差異的,但是卻很微弱,這樣不利於模型的學習,進行min-max歸一化後為:array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]]),相當於放大了差異;
2) 維持稀疏矩陣中為0的條目。
使用方法如下:
from sklearn.preprocessing import MinMaxScaler
x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x1 = MinMaxScaler().fit_transform(x)
『叄』 指標無量綱化的方法
在經濟管理學中,無量綱化方法是綜合評價步驟中的一個環節。
根據指標實際值和無量綱化結果數值的關系特徵可以分為三大類:
一、直線型無量綱化方法:又包括閥值法、指數法、標准化方法、比重法
二、折線型無量綱化方法:凸折線型法、凹折線型法、三折線型法
三、曲線型無量綱化方法
目前常見的無量綱化處理方法主要有極值化、標准化、均值化以及標准差化方法,而最常使用的是標准化方法。但標准化方法處理後的各指標均值都為0,標准差都為1,它只反映了各指標之間的相互影響,在無量綱化的同時也抹殺了各指標之間變異程度上的差異,因此,標准化方法並不適用於多指標的綜合評價中。而經過均值化方法處理的各指標數據構成的協方差矩陣既可以反映原始數據中各指標變異程度上的差異,也包含各指標相互影響程度差異的信息
『肆』 如何對數據進行標准化處理
建議使用SPSS軟體,具體方法如下:
1.打開spss軟體,然後將界面切換到變數視圖。在編輯列中創建觀察指標和類型。圖中示例創建兩個指標,一個作為自變數,另一個作為因變數,分別是gdd和城市化水平,代表人均gdp和城市化水平。
『伍』 無量綱化處理數據的作用是什麼啊什麼樣的數據需要進行無量綱化處理呢
直線型無量綱化方法的局限性
摘 要:在多指標綜合評價的過程中,經常會遇到由於各個指標之間的單位和量級(即計量指標的數量級)不同而無法直接進行評價的問題。例如,對中小企業的人員規模、銷售規模進行綜合評價時,一般用「人」作為指標「人員規模」的單位,而用「萬元」作為指標「銷售規模」的單位。但是,如果把「銷售規模」的單位改為「億元」,那麼,盡管其本質沒有發生變化,但是,「銷售規模」在綜合評價過程中的作用相對於「人員規模」來說無疑是大大減少了,
頁碼范圍:130-130頁
學科分類:
[ > > ]
[ > > > ]
建議使用:1024x768解析度,16位以上顏色
『陸』 常見的數據標准化方法和其公式以及優缺點
一、直線型無量綱化方法:又包括閥值法、指數法、標准化方法、比重法。二、折線型無量綱化方法:凸折線型法、凹折線型法、三折線型法。三、曲線型無量綱化方法 。目前常見的無量綱化處理方法主要有極值化、標准化、均值化以及標准差化方法,而最常使用的是標准化方法。但標准化方法處理後的各指標均值都為0,標准差都為1,它只反映了各指標之間的相互影響,在無量綱化的同時也抹殺了各指標之間變異程度上的差異,因此,標准化方法並不適用於多指標的綜合評價中。而經過均值化方法處理的各指標數據構成的協方差矩陣既可以反映原始數據中各指標變異程度上的差異,也包含各指標相互影響程度差異的信息。四、數據標准化的方法: 1、對變數的離差標准化離差標准化是將某變數中的觀察值減去該變數的最小值,然後除以該變數的極差。即 x』ik=[xik -Min (xk)]/Rk 經過離差標准化後,各種變數的觀察值的數值范圍都將在〔0,1〕之間,並且經標准化的數據都是沒有單位的純數量。離差標准化是消除量綱(單位)影響和變異大小因素的影響的最簡單的方法。 有一些關系系數(例如絕對值指數尺度)在定義時就已經要求對數據進行離差標准化,但有些關系系數的計算公式卻沒有這樣要求,當選用這類關系系數前,不妨先對數據進行標准化,看看分析的結果是否為有意義的變化。 2,對變數的標准差標准化標准差標准化是將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 經過標准差標准化後,各變數將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的平均數為0,標准差為1。經標准化的數據都是沒有單位的純數量。對變數進行的標准差標准化可以消除量綱(單位)影響和變數自身變異的影響。但有人認為經過這種標准化後,原來數值較大的的觀察值對分類結果的影響仍然占明顯的優勢,應該進一步消除大小因子的影響。盡管如此,它還是當前用得最多的數據標准化方法。 3,先對事例進行標准差標准化,再對變數進行標准差標准化第一步,先對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』ik = (xik - )/si 第二步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』ik = (x』ik - 』k)/s』k 使用這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。 4,先對變數、後對事例、再對變數的標准差標准化這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。具體做法是:第一步,先對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 第二步,後對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』』ik = (x』ik - 』i)/s』i 第三步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』』ik = (x』』ik - 』』k)/s』』k 進行了前兩步之後,還要進行第三步的原因,主要是為了計算的方便。
『柒』 數據標准化的方法
在數據分析之前,我們通常需要先將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化也就是統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標准化
min-max標准化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標准化映射成在區間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標准化
這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x'。
z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標准差
spss默認的標准化方法就是z-score標准化。
用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。步驟如下:1.求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;2.進行標准化處理:zij=(xij-xi)/si其中:zij為標准化後的變數值;xij為實際變數值。3.將逆指標前的正負號對調。標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
三、Decimal scaling小數定標標准化
這種方法通過移動數據的小數點位置來進行標准化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標准化到x'的計算方法是:
x'=x/(10^j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標准化,我們用1000(即,j=3)除以每個值,這樣,-986被規范化為-0.986。
注意,標准化會對原始數據做出改變,因此需要保存所使用的標准化方法的參數,以便對後續的數據進行統一的標准化。
除了上面提到的數據標准化外還有對數Logistic模式、模糊量化模式等等:
對數Logistic模式:新數據=1/(1+e^(-原數據))
模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數據
『捌』 數據預處理在什麼情況下採取哪種方法最合適
在數據分析之前,我們通常需要先將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化也就是統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。
數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。
數據無量綱化處理主要解決數據的可比性。去除數據的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。
數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標准化
min-max標准化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標准化映射成在區間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標准化
這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x'。
z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標准差
spss默認的標准化方法就是z-score標准化。
用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。
步驟如下:
1.求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;
2.進行標准化處理:
zij=(xij-xi)/si
其中:zij為標准化後的變數值;xij為實際變數值。
3.將逆指標前的正負號對調。
標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
三、Decimal scaling小數定標標准化
這種方法通過移動數據的小數點位置來進行標准化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標准化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標准化,我們用1000(即,j=3)除以每個值,這樣,-986被規范化為-0.986。
注意,標准化會對原始數據做出改變,因此需要保存所使用的標准化方法的參數,以便對後續的數據進行統一的標准化。
除了上面提到的數據標准化外還有對數Logistic模式、模糊量化模式等等:
對數Logistic模式:新數據=1/(1+e^(-原數據))
模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數據
『玖』 指標無量綱化方法選擇的原則
由於指標無量綱化的方法很多,在進行評估時必須選擇合適的方法進行,對於無量綱化方法的選擇,可遵循以下原則:
1.客觀性原則
無量綱化所用的公式,要能夠反映指標實際值與事物綜合發展水平間的對應關系。根據評估對象的實際情況來確定所用的公式,需要對被評估對象的歷史數據和橫向比較數據做深入的分析,找出事物發展變化的閥值點,然後再確定具體的無量綱化方法。
2.簡易性原則
評估中的無量綱化處理方法,還應簡便易行。這一方面是由於評估值本身就是對被評估事物發展水平的相對描述,而不是絕對描述;另一方面是由於非線型處理的精確是建立在合理選取參數的基礎上,但這些參數的確定卻是比較困難的。
3.可行性原則
選用無量綱化公式,不僅要根據被評估事物的特點,而且還要注意公式的應用范圍,這樣才能確保無量綱化的可行性。例如,對於無量綱化中的三種直線型方法,其應用范圍和特點就不盡相同。
一般來說,閾值法對指標數的個數和分布狀況沒有什麼要求,轉化後的數據相對數性質較明顯,其利用的原始數據的信息也較少。Z-score法在評估個數較多的時候才可應用,因為該方法只有在原始數據呈正態分布的時候,轉化結果才可靠,另外,該方法的轉化結果存在負數,可能影響進一步的數學處理,因此,其比較適合對多事物進行橫向評估的時候使用。比值法僅通過與指標的某一標准進行比較,利用的信息更少,比較適合對同一事物進行縱向的發展水平的評估。