❶ 數據標准化的方法
在數據分析之前,我們通常需要先將數據標准化(normalization),利用標准化後的數據進行數據分析。數據標准化也就是統計數據的指數化。數據標准化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。數據標准化的方法有很多種,常用的有「最小—最大標准化」、「Z-score標准化」和「按小數定標標准化」等。經過上述標准化處理,原始數據均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。
一、Min-max 標准化
min-max標准化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標准化映射成在區間[0,1]中的值x',其公式為:
新數據=(原數據-極小值)/(極大值-極小值)
二、z-score 標准化
這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x'。
z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標准差
spss默認的標准化方法就是z-score標准化。
用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。步驟如下:1.求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;2.進行標准化處理:zij=(xij-xi)/si其中:zij為標准化後的變數值;xij為實際變數值。3.將逆指標前的正負號對調。標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
三、Decimal scaling小數定標標准化
這種方法通過移動數據的小數點位置來進行標准化。小數點移動多少位取決於屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標准化到x'的計算方法是:
x'=x/(10^j)
其中,j是滿足條件的最小整數。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數定標標准化,我們用1000(即,j=3)除以每個值,這樣,-986被規范化為-0.986。
注意,標准化會對原始數據做出改變,因此需要保存所使用的標准化方法的參數,以便對後續的數據進行統一的標准化。
除了上面提到的數據標准化外還有對數Logistic模式、模糊量化模式等等:
對數Logistic模式:新數據=1/(1+e^(-原數據))
模糊量化模式:新數據=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數據
❷ 數據標准化有幾種方法
方法一:規范化方法
也叫離差標准化,是對原始數據的線性變換,使結果映射到[0,1]區間。
方法二:正規化方法
這種方法基於原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。將A的原始值x使用z-score標准化到x』。
z-score標准化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
spss默認的標准化方法就是z-score標准化。
用Excel進行z-score標准化的方法:在Excel中沒有現成的函數,需要自己分步計算,其實標准化的公式很簡單。
步驟如下:
1.求出各變數(指標)的算術平均值(數學期望)xi和標准差si ;
2.進行標准化處理:
zij=(xij-xi)/si
其中:zij為標准化後的變數值;xij為實際變數值。
3.將逆指標前的正負號對調。
標准化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
❸ 數據預處理的原則
數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理;主要方法有數據清理,數據集成,數據變換,數據歸約等。
數據清理;數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標:格式標准化,異常數據清除,錯誤糾正,重復數據的清除。數據集成;數據集成常式將多個數據源中的數據結合起來並統一存儲,建立數據倉庫的過程實際上就是數據集成。數據變換;通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。數據歸約;數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。
❹ 數據基礎與標准化研究
14.1.1 數據基礎
主要數據源包括:各種標准、1∶25萬數字地圖、TM影像數據、各遙感課題的成果數據與報告。為了系統能進行圖文互查、空間綜合分析和製作三維立體數字旅遊圖,本課題又新作了南嶽地區1∶5萬和嶽麓山1∶1萬數字地圖、DEM模型,新建了18個屬性資料庫。
系統集成了01~10課題以光碟提交的所有數據和本課題新增的數據,經過掃描、矢量化、除錯、補充、加工、投影變換、格式轉換、地理配准、重建拓撲、建表入庫等數據預處理後,形成可統一管理的數據成果。所有數據可歸納為下述六種數據類型:①矢量數據;②可地理配準的柵格數據;③普通柵格數據;④二維關系表記錄數據;⑤文本文件;⑥多媒體數據。
14.1.2 數據標准
(一)數據交換標准
遵循國家和行業的有關現行標准和在研標准設計湖南省國土資源遙感綜合調查信息系統的數據交換標准,從而保證各遙感子課題的解譯能與本課題的信息系統建設協同工作,解譯成果數據可以資源共享,並順利地集成到以GIS(地理信息系統)作為RS(遙感)信息最佳集成開發平台的信息系統中,達到了最終建立RS與GIS一體化信息系統的目的。
本系統最終採用的是我國國家標准規定的北京坐標系、黃海高程系;地圖投影為高斯-克呂格投影,其中,中央經線為111°00′00″(E)。
本系統最終採用的數據格式:①矢量:Coverage格式(E00格式用於備份數據);②可地理配準的柵格數據:IMG或SID格式(壓縮格式)、DEM(DEM模型專用)格式;③普通柵格數據:BMP、TIF、JPG格式;④二維關系表數據:SQL Server資料庫格式;⑤文本文件:DOC(Word)格式。
(二)數據編碼規范
湖南省1∶25萬和1∶50萬基礎地理資料庫(即數字地形圖)採用GB/T13923-92《國土基礎信息數據分類與代碼》。主要有信息分類編碼、行政區代碼、火車站代碼等,其它所有數據均按本課題制定的編碼方案編碼。除以上基礎數據外,本系統其它課題數據採用將國標6位編碼擴充到7位的辦法。
14.1.3 數據處理
(一)數字地圖處理(處理流程見圖14-2)
對照最新版的地圖對湖南省1∶25萬數字地形圖進行必要的修編。
(二)遙感影像
對全省TM影像數據採用不抽點、全波段的方式進行校正、鑲嵌,然後按地區和1∶25萬標准分幅切割。
(三)各課題數據處理
(1)圖件數字化:不需要數字化的圖件直接入庫(圖像目錄、圖像索引表)。對比較簡單、計算機容易自動識別的圖件採用兩種方法,即掃描成象或屏幕矢量化方法,形成矢量數據。
(2)比較復雜的圖件直接用數字化儀進行矢量化。
(3)矢量數據轉換:將數字化結果(DXF格式)轉化成Arc/INFO的Coverage數據。
(4)合並數據層:將適當的幾層合並成一層,以便以後查詢。
(5)拼接:把零散的(圖形)數據拼接成一全省大圖。
圖14-2 數據處理流程
(6)校正、配准:對照電子地圖,校正(配准)各種(圖形)數據。
(7)編碼入庫:參照數據結構定義確定具體對象的具體屬性,對(圖形、文字)數據進行統一編碼,並入庫。
(8)文字說明資料入庫:以文件目錄和文件索引表的方式,把不能編碼的文字資料入庫。
(9)分幅(區):對(圖形、文字)數據按標准分幅(區)進行分幅(區)切割。
❺ 數據預處理的主要方法有哪些
1.墓於粗糙集( Rough Set)理論的約簡方法
粗糙集理論是一種研究不精確、不確定性知識的數學工具。目前受到了KDD的廣泛重視,利用粗糙集理論對數據進行處理是一種十分有效的精簡數據維數的方法。我們所處理的數據一般存在信息的含糊性(Vagueness)問題。含糊性有三種:術語的模糊性,如高矮;數據的不確定性,如雜訊引起的;知識自身的不確定性,如規則的前後件間的依賴關系並不是完全可靠的。在KDD中,對不確定數據和雜訊干擾的處理是粗糙集方法的
2.基於概念樹的數據濃縮方法
在資料庫中,許多屬性都是可以進行數據歸類,各屬性值和概念依據抽象程度不同可以構成一個層次結構,概念的這種層次結構通常稱為概念樹。概念樹一般由領域專家提供,它將各個層次的概念按一般到特殊的順序排列。
3.資訊理論思想和普化知識發現
特徵知識和分類知識是普化知識的兩種主要形式,其演算法基本上可以分為兩類:數據立方方法和面向屬性歸納方法。
普通的基於面向屬性歸納方法在歸納屬性的選擇上有一定的盲目性,在歸納過程中,當供選擇的可歸納屬性有多個時,通常是隨機選取一個進行歸納。事實上,不同的屬性歸納次序獲得的結果知識可能是不同的,根據資訊理論最大墒的概念,應該選用一個信息丟失最小的歸納次序。
4.基於統計分析的屬性選取方法
我們可以採用統計分析中的一些演算法來進行特徵屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特徵是,用少量的特徵元組去描述高維的原始知識基。
5.遺傳演算法〔GA, Genetic Algo}thrn})
遺傳演算法是一種基於生物進化論和分子遺傳學的全局隨機搜索演算法。遺傳演算法的基本思想是:將問題的可能解按某種形式進行編碼,形成染色體。隨機選取N個染色體構成初始種群。再根據預定的評價函數對每個染色體計算適應值。選擇適應值高的染色體進行復制,通過遺傳運算(選擇、交叉、變異)來產生一群新的更適應環境的染色體,形成新的種群。這樣一代一代不斷繁殖進化,最後收斂到一個最適合環境的個體上,從而求得問題的最優解。遺傳演算法應用的關鍵是適應度函數的建立和染色體的描述。在實際應用中,通常將它和神經網路方法綜合使用。通過遺傳演算法來搜尋出更重要的變數組合。
❻ 數據預處理的流程是什麼
數據預處理的常用流程為:去除唯一屬性、處理缺失值、屬性編碼、數據標准化正則化、特徵選擇、主成分分析。
去除唯一屬性
唯一屬性通常是一些id屬性,這些屬性並不能刻畫樣本自身的分布規律,所以簡單地刪除這些屬性即可。
處理缺失值
缺失值處理的三種方法:直接使用含有缺失值的特徵;刪除含有缺失值的特徵(該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的);缺失值補全。
常見的缺失值補全方法:均值插補、同類均值插補、建模預測、高維映射、多重插補、極大似然估計、壓縮感知和矩陣補全。
(1)均值插補
如果樣本屬性的距離是可度量的,則使用該屬性有效值的平均值來插補缺失的值;
如果的距離是不可度量的,則使用該屬性有效值的眾數來插補缺失的值。如果使用眾數插補,出現數據傾斜會造成什麼影響?
(2)同類均值插補
首先將樣本進行分類,然後以該類中樣本的均值來插補缺失值。
(3)建模預測
將缺失的屬性作為預測目標來預測,將數據集按照是否含有特定屬性的缺失值分為兩類,利用現有的機器學習演算法對待預測數據集的缺失值進行預測。
該方法的根本的缺陷是如果其他屬性和缺失屬性無關,則預測的結果毫無意義;但是若預測結果相當准確,則說明這個缺失屬性是沒必要納入數據集中的;一般的情況是介於兩者之間。
(4)高維映射
將屬性映射到高維空間,採用獨熱碼編碼(one-hot)技術。將包含K個離散取值范圍的屬性值擴展為K+1個屬性值,若該屬性值缺失,則擴展後的第K+1個屬性值置為1。
這種做法是最精確的做法,保留了所有的信息,也未添加任何額外信息,若預處理時把所有的變數都這樣處理,會大大增加數據的維度。這樣做的好處是完整保留了原始數據的全部信息、不用考慮缺失值;缺點是計算量大大提升,且只有在樣本量非常大的時候效果才好。
(5)多重插補(MultipleImputation,MI)
多重插補認為待插補的值是隨機的,實踐上通常是估計出待插補的值,再加上不同的雜訊,形成多組可選插補值,根據某種選擇依據,選取最合適的插補值。
(6)壓縮感知和矩陣補全
(7)手動插補
插補處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實。在許多情況下,根據對所在領域的理解,手動對缺失值進行插補的效果會更好。
❼ 常見的數據標准化方法和其公式以及優缺點
一、直線型無量綱化方法:又包括閥值法、指數法、標准化方法、比重法。二、折線型無量綱化方法:凸折線型法、凹折線型法、三折線型法。三、曲線型無量綱化方法 。目前常見的無量綱化處理方法主要有極值化、標准化、均值化以及標准差化方法,而最常使用的是標准化方法。但標准化方法處理後的各指標均值都為0,標准差都為1,它只反映了各指標之間的相互影響,在無量綱化的同時也抹殺了各指標之間變異程度上的差異,因此,標准化方法並不適用於多指標的綜合評價中。而經過均值化方法處理的各指標數據構成的協方差矩陣既可以反映原始數據中各指標變異程度上的差異,也包含各指標相互影響程度差異的信息。四、數據標准化的方法: 1、對變數的離差標准化離差標准化是將某變數中的觀察值減去該變數的最小值,然後除以該變數的極差。即 x』ik=[xik -Min (xk)]/Rk 經過離差標准化後,各種變數的觀察值的數值范圍都將在〔0,1〕之間,並且經標准化的數據都是沒有單位的純數量。離差標准化是消除量綱(單位)影響和變異大小因素的影響的最簡單的方法。 有一些關系系數(例如絕對值指數尺度)在定義時就已經要求對數據進行離差標准化,但有些關系系數的計算公式卻沒有這樣要求,當選用這類關系系數前,不妨先對數據進行標准化,看看分析的結果是否為有意義的變化。 2,對變數的標准差標准化標准差標准化是將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 經過標准差標准化後,各變數將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的平均數為0,標准差為1。經標准化的數據都是沒有單位的純數量。對變數進行的標准差標准化可以消除量綱(單位)影響和變數自身變異的影響。但有人認為經過這種標准化後,原來數值較大的的觀察值對分類結果的影響仍然占明顯的優勢,應該進一步消除大小因子的影響。盡管如此,它還是當前用得最多的數據標准化方法。 3,先對事例進行標准差標准化,再對變數進行標准差標准化第一步,先對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』ik = (xik - )/si 第二步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』ik = (x』ik - 』k)/s』k 使用這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。 4,先對變數、後對事例、再對變數的標准差標准化這種標准化的目的也在於消除性狀間的量綱(單位)影響和變異大小因子的影響,使性狀間具有可比性。具體做法是:第一步,先對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』ik = (xik - )/sk 第二步,後對事例進行標准差標准化,即將某事例中的觀察值減去該事例的平均數,然後除以該事例的標准差。即 x』』ik = (x』ik - 』i)/s』i 第三步,再對變數進行標准差標准化,即將某變數中的觀察值減去該變數的平均數,然後除以該變數的標准差。即 x』』』ik = (x』』ik - 』』k)/s』』k 進行了前兩步之後,還要進行第三步的原因,主要是為了計算的方便。
❽ 如何對數據進行標准化處理
建議使用SPSS軟體,具體方法如下:
1.打開spss軟體,然後將界面切換到變數視圖。在編輯列中創建觀察指標和類型。圖中示例創建兩個指標,一個作為自變數,另一個作為因變數,分別是gdd和城市化水平,代表人均gdp和城市化水平。
❾ 簡要闡述數據預處理原理
數據預處理(data preprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
中文名
數據預處理
外文名
data preprocessing
定義
主要的處理以前對數據進行處理
方法
數據清理,數據集成,數據變換等
目標
格式標准化,異常數據清除
快速
導航
預處理內容
方法
基本介紹
現實世界中數據大體上都是不完整,不一致的臟數據,無法直接進行數據挖掘,或挖掘結果差強人意。為了提高數據挖掘的質量產生了數據預處理技術。 數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。
數據的預處理是指對所收集數據進行分類或分組前所做的審核、篩選、排序等必要的處理。[1]
預處理內容
數據審核
從不同渠道取得的統計數據,在審核的內容和方法上有所不同。[1]
對於原始數據應主要從完整性和准確性兩個方面去審核。完整性審核主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目或指標是否填寫齊全。准確性審核主要是包括兩個方面:一是檢查數據資料是否真實地反映了客觀實際情況,內容是否符合實際;二是檢查數據是否有錯誤,計算是否正確等。審核數據准確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,此方法主要適合對定性(品質)數據的審核。計算檢查是檢查調查表中的各項數據在計算結果和計算方法上有無錯誤,主要用於對定量(數值型)數據的審核。[1]
對於通過其他渠道取得的二手資料,除了對其完整性和准確性進行審核外,還應該著重審核數據的適用性和時效性。二手資料可以來自多種渠道,有些數據可能是為特定目的通過專門調查而獲得的,或者是已經按照特定目的需要做了加工處理。對於使用者來說,首先應該弄清楚數據的來源、數據的口徑以及有關的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,還要對數據的時效性進行審核,對於有些時效性較強的問題,如果取得的數據過於滯後,可能失去了研究的意義。一般來說,應盡可能使用最新的統計數據。數據經審核後,確認適合於實際需要,才有必要做進一步的加工整理。[1]
數據審核的內容主要包括以下四個方面:
1.准確性審核。主要是從數據的真實性與精確性角度檢查資料,其審核的重點是檢查調查過程中所發生的誤差。[2]
2.適用性審核。主要是根據數據的用途,檢查數據解釋說明問題的程度。具體包括數據與調查主題、與目標總體的界定、與調查項目的解釋等是否匹配。[2]
3.及時性審核。主要是檢查數據是否按照規定時間報送,如未按規定時間報送,就需要檢查未及時報送的原因。[2]
4.一致性審核。主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。[2]
數據篩選
對審核過程中發現的錯誤應盡可能予以糾正。調查結束後,當數據發現的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,就需要對數據進行篩選。數據篩選包括兩方面的內容:一是將某些不符合要求的數據或有明顯錯誤地數據予以剔除;二是將符合某種特定條件的數據篩選出來,對不符合特定條件的數據予以剔除。數據的篩選在市場調查、經濟分析、管理決策中是十分重要的。
❿ 數據預處理之數據歸一化
數據預處理之數據歸一化
一、簡單縮放
分為:最大值縮放和均值縮放
在簡單縮放中,我們的目的是通過對數據的每一個維度的值進行重新調節(這些維度可能是相互獨立的),使得最終的數據向量落在[0,1]或[? 1,1]的區間內(根據數據情況而定)。
例子:在處理自然圖像時,我們獲得的像素值在[0,255]區間中,常用的處理是將這些像素值除以255,使它們縮放到[0,1]中。
二、逐樣本均值消減(也稱為移除直流分量)
如果你的數據是平穩的(即數據每一個維度的統計都服從相同分布),那麼你可以考慮在每個樣本上減去數據的統計平均值(逐樣本計算)。
例子:對於圖像,這種歸一化可以移除圖像的平均亮度值(intensity)。很多情況下我們對圖像的照度並不感興趣,而更多地關注其內容,這時對每個數據點移除像素的均值是有意義的。
注意:雖然該方法廣泛地應用於圖像,但在處理彩色圖像時需要格外小心,具體來說,是因為不同色彩通道中的像素並不都存在平穩特性。
例如
Caffe demo 里頭的 classification_demo.m腳本文件中對原始數據有這樣的處理
im_data = im_data - mean_data;
三、特徵標准化(使數據集中所有特徵都具有零均值和單位方差)
特徵標准化的具體做法是:首先計算每一個維度上數據的均值(使用全體數據計算),之後在每一個維度上都減
去該均值。下一步便是在數據的每一維度上除以該維度上數據的標准差。
簡單的說就是:減去原始數據的均值再除以原始數據的標准差
例子
x= [ones(m, 1), x];
%x包括2個特徵值和1個偏置項,所以矩陣x的規模是 x:[mX3]
sigma= std(x);%X的標准差;mu= mean(x);%X的均值;x(:,2)= (x(:,2) - mu(2))./ sigma(2);x(:,3)= (x(:,3) - mu(3))./ sigma(3);