導航:首頁 > 研究方法 > 數據預處理的分析目標和方法

數據預處理的分析目標和方法

發布時間:2022-09-18 10:51:35

① 數據預處理的主要方法有哪些

1.墓於粗糙集( Rough Set)理論的約簡方法 粗糙集理論是一種研究不精確、不確定性知識的數學工具。目前受到了KDD的廣泛重視,利用粗糙集理論對數據進行處理是一種十分有效的精簡數據維數的方法。我們所處理的數據一般存在信息的含糊性(Vagueness)問題。含糊性有三種:術語的模糊性,如高矮;數據的不確定性,如雜訊引起的;知識自身的不確定性,如規則的前後件間的依賴關系並不是完全可靠的。在KDD中,對不確定數據和雜訊干擾的處理是粗糙集方法的 2.基於概念樹的數據濃縮方法 在資料庫中,許多屬性都是可以進行數據歸類,各屬性值和概念依據抽象程度不同可以構成一個層次結構,概念的這種層次結構通常稱為概念樹。概念樹一般由領域專家提供,它將各個層次的概念按一般到特殊的順序排列。 3.資訊理論思想和普化知識發現 特徵知識和分類知識是普化知識的兩種主要形式,其演算法基本上可以分為兩類:數據立方方法和面向屬性歸納方法。 普通的基於面向屬性歸納方法在歸納屬性的選擇上有一定的盲目性,在歸納過程中,當供選擇的可歸納屬性有多個時,通常是隨機選取一個進行歸納。事實上,不同的屬性歸納次序獲得的結果知識可能是不同的,根據資訊理論最大墒的概念,應該選用一個信息丟失最小的歸納次序。 4.基於統計分析的屬性選取方法 我們可以採用統計分析中的一些演算法來進行特徵屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特徵是,用少量的特徵元組去描述高維的原始知識基。 5.遺傳演算法〔GA, Genetic Algo}thrn}) 遺傳演算法是一種基於生物進化論和分子遺傳學的全局隨機搜索演算法。遺傳演算法的基本思想是:將問題的可能解按某種形式進行編碼,形成染色體。隨機選取N個染色體構成初始種群。再根據預定的評價函數對每個染色體計算適應值。選擇適應值高的染色體進行復制,通過遺傳運算(選擇、交叉、變異)來產生一群新的更適應環境的染色體,形成新的種群。這樣一代一代不斷繁殖進化,最後收斂到一個最適合環境的個體上,從而求得問題的最優解。遺傳演算法應用的關鍵是適應度函數的建立和染色體的描述。在實際應用中,通常將它和神經網路方法綜合使用。通過遺傳演算法來搜尋出更重要的變數組合。

② 數據的預處理包括哪些內容

數據預處理(datapreprocessing)是指在主要的處理以前對數據進行的一些處理。如對大部分地球物理面積性觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數據預處理的方法:
1、數據清理
數據清理常式通過填寫缺失的值、光滑雜訊數據、識別或刪除離群點並解決不一致性來「清理」數據。主要是達到如下目標:格式標准化,異常數據清除,錯誤糾正,重復數據的清除。
2、數據集成
數據集成常式將多個數據源中的數據結合起來並 統一存儲,建立數據倉庫的過程實際上就是數據集成。
3、數據變換
通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。
4、數據歸約
數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。

③ 大數據預處理的方法有哪些

1)數據清理
數據清理常式就是通過填寫缺失值、光滑雜訊數據、識別或者刪除離群點,並且解決不一致性來進行「清理數據」。

2)數據集成

數據集成過程將來自多個數據源的數據集成到一起。

3)數據規約

數據規約是為了得到數據集的簡化表示。數據規約包括維規約和數值規約。

4)數據變換

通過變換使用規范化、數據離散化和概念分層等方法,使得數據的挖掘可以在多個抽象層面上進行。數據變換操作是提升數據挖掘效果的附加預處理過程。

④ 怎樣進行數據分析

進行數據分析方式如下:

1、要求明確:准確

明確需求主要是與他人溝通與需求相關的一切內容,並清晰准確地理解和表達相關內容。

在需求溝通中,通過掌握需求的核心內容,可以減少反復溝通。需求的核心內容可以從分析目的、分析主體、分析口徑、分析思路、完成時間五個方面來確定。此外,在溝通的過程中,可以適當提出自己的想法,讓需求更加清晰立體。

2、確定思路:全面、深入

分析思想是分析的靈魂,是細化分析工作的過程。分析思路清晰有邏輯,能有效避免反復分析問題。從分析目的出發,全面、深入地拆解分析維度,確定分析方法,最終形成完整的分析框架。

3、處理數據:高效

當我們進行數據分析時,我們可能會得到混亂的數據,這就要求我們清潔、整理、快速、准確地加工成適合數據分析的風格。

此時需要使用數據分析軟體以工作流的形式提取數據模型的語義,通過易於操作的可視化工具將數據加工成具有語義一致性和完整性的數據模型。系統支持的數據預處理方法包括:采樣、拆分、過濾和映射、列選擇、空值處理、並行、合並行、元數據編輯、JOIN、行選擇、重復值去除等。

4、數據分析:合適的數據

分析數據在分析過程中的地位是首要任務。從分析的目的出發,運用適當的分析方法或模型,使用分析工具分析處理過的數據,提取有價值的信息。

5、顯示數據:直觀

展示數據又稱數據可視化,是以簡單直觀的方式傳達數據中包含的信息,增強數據的可讀性,讓讀者輕松看到數據表達的內容。

6、寫報告:建議落地,邏輯清晰

撰寫報告是指以文件的形式輸出分析結果,其內容是通過全面科學的數據分析來顯示操作,可以為決策者提供強有力的決策依據,從而降低操作風險,提高利潤。

在撰寫報告時,為了使報告更容易閱讀和有價值,需要注意在報告中註明分析目標、口徑和數據來源;報告應圖文並茂,組織清晰,邏輯性強,單一推理;報告應反映有價值的結論和建議。

7、效果反饋:及時

所謂效果反饋,就是選擇合適有代表性的指標,及時監控報告中提出的戰略執行進度和執行效果。只有輸入和輸出才能知道自己的操作問題點和閃點,所以效果反饋是非常必要的。反饋時要特別注意兩點,一是指標要合適,二是反饋要及時。

⑤ 數據預處理總結

       為了使數據更加適合挖掘,需要對數據進行預處理操作,其中包含大量復雜的處理方式: 聚集 , 抽樣 , 維歸納 , 特徵子集選擇 , 特徵創建 , 離散化和二元化 和 變數變換 。

        聚集將兩個或多個對象合並成單個對象,如將多張表的數據匯集成一張表,同時起到了范圍或標度轉換的作用。

       從統計學的角度來看:相對於被聚集的單個對象,平均值、總數等聚集量有較小的變異性。對於總數,實際變差大於單個對象的(平均)變差,但變差的百分比較小;對於平均值,實際變差小於單個對象的(平均)變差。

       聚集的優勢是數據集變小,處理時間變少,使聚集的對象或者屬性群的行為比未聚集前更加穩定。缺點是可能丟失部分細節。

       抽樣是一種選擇數據對象自己進行分析的方法,常用語數據的事先調查和最終的數據分析。和統計學中使用抽樣是因為得到感興趣的數據集費用太高、太費時間不同的是,數據挖掘中使用抽樣可以有效的壓縮整體數據量。

       有效抽樣的原理是:樣本具有代表性,有原數據集有近似的或相同的性質,這樣使用樣本與整個數據集的效果幾乎一樣。

無樣放回抽樣--每個選中項立即從構成總體的所有對象中刪除。

有放回抽樣--對象被選中時不從總體中刪除。此方法較簡單,原因是抽樣過程中,每個對象被選中的概率是不變的。

在有放回抽樣中,相同的對象可能被多次抽出。當樣本與數據集相差較小時,兩種方法結果差別不太。

       當總體由不同類型的對象組成,同時每種類型的對象差別很大時,簡單隨機抽樣不能重返的代表不太頻繁出現的對象類型,尤其是需要分析所有類型的代表時,需要在樣本中適當的提供稀有類以代表不同頻率的抽樣。

等大小抽樣:每個組大小不同,但是每次抽取的對象個數相同。

等比抽樣:每一組抽取的對象數量和該組的大小成正比。

       當選定完抽樣技術後,就需要選擇抽樣容量。較大的樣本容量增大了樣本具有代表性的概率。相反,使用較小容量的樣本,可能出現特徵丟失。

       合適的樣本容量可能很難確定,因此有時需要使用自適應或者漸進抽樣的方法。這些方法從一個小樣本開始,然後增加樣本容量直至得到足夠容量的樣本。該技術部需要在開始就確定正確的樣本容量,但是需要評估樣本的方法,以確定它是否滿足大。

       例如使用漸進抽樣來評估一個預測模型,模型的准確率隨樣本容量的增加而增加,但在某一點的准確率的增加趨於穩定,如果希望在穩定點停止增加樣本容量,就需要掌握模型准去率隨樣本逐漸增大的變化情況並通過選取接近當前容量的其他樣本,從而估計出與穩定點的接近程度,從而停止抽樣。

       通過創建新屬性,將一些舊屬性合並在一起來降低數據集的維度。通過選擇舊屬性的子集得到新屬性,這種維規約稱為特徵子集選擇或特徵選擇。

如果維度(數據屬性的個數)較低,許多數據挖掘演算法的效果就會更好,一方面因為可以刪除不相關的特徵並降低雜訊,另一方面是因為維災難(隨數據維度的增加,數據在它所佔據的空間中越來越稀疏,導致分析變得困難,如分類准確率降低,聚類質量下降等)。

讓模型更加容易理解,因為模型可能只涉及較少的屬性。

可以更容易讓數據可視化,即使沒有將數據規約到二維或三維,數據也可以通過觀察屬性或對三元組屬性達到可視化,並且這種組合的數目也會大大減少。

違規約降低了數據挖掘演算法的時間和內存需求。

       將高維空間投影到低維空間,特別是對於連續數據。常用的有主成分分析(PCA),它找出新的屬性(主成分),這些屬性是原屬性的線性組合,是相互正交的,並且捕獲了數據的最大變差。奇異值分解(SVD),也常用於維規約,與PCA有關。

       降低維度的另一種方法是僅使用特徵的一個子集,在冗餘特徵(重復包含了一個或多個其他屬性中的信息)出現時特別有效。

       理想的方法是將所有可能的特徵子集作為感興趣的數據挖掘演算法輸入,然後選取產生最後結果的子集。優點是反應了最終使用的數據挖掘演算法的目的和偏愛,但當涉及N個屬性的自己多達 時,這個方法行不通,需要通過其他三種標準的特徵選擇方法:

嵌入:把特徵選擇的過程與分類器學習的過程融合一起,在學習的過程中進行特徵選擇。常見的使用L1正則化,決策樹和支持向量機等。

過濾:獨立於學習演算法,直接由原始的特徵集合求得。先對數據集進行特徵選擇,排除冗餘無關特徵,得到特徵數據集,然後對其訓練學習器,這兩個過程是獨立的。過濾式特徵選擇演算法會通過數據的本質屬性對所有特徵進行相應的評分,在評價過程中無需分類器完成,在對給出所有特徵賦予相應的評分後,選擇評分高的特徵用於之後的學習演算法中。

     單變數過濾式:使用某種評價標准作為度量方式來確定數據集中特徵對類別的區分能力。

     多變數過濾式:通過考慮特徵之間的交互作用來確定特徵的重要性。

包裝:與學習演算法有關,利用學習演算法的性能來評價特徵子集的優劣。在特徵選擇的過程中,需要一個分類器,根據分類器性能去衡量特徵子集,分類器有決策樹,近鄰分類器,貝葉斯分類器等。

       過濾式演算法簡單高效,但是缺失與模型的交互性;封裝式與模型相結合,結果精確,但是易過擬合;嵌入式有著兩者的優點,但是構造起來比較麻煩。

過濾和包裝組合式:先使用過濾進行特徵選擇,去掉不相關的特徵,降低特徵維度;然後利用包裝進行特徵選擇。

       可以由原來的屬性創建新的屬性集,新屬性的數量可能較少,但能更有效的捕獲數據集中的重要信息。

       由原始數據集創建新的特徵集稱為特徵提取,一般特徵提取技術都是高度針對具體領域的,也就是當數據挖掘用於一個較新的領域時候,開發新的特徵和提取方法是一個關鍵的任務。

       使用一種完全不同的視角挖掘數據可能揭示出重要和有趣的特徵。

       如時間序列數據,常常包含周期模式。當只有單個周期時,雜訊不明顯,則容易檢測到該模式;但當有大量周期時,並且存在大量雜訊時,則很難檢測這些模式,此時可以實施傅里葉變換(識別時間序列數據中的基本頻率),將它轉換成頻率信息的表示,就能檢測到這些模式。

       有時候原始數據集的特徵具有必要的信息,但其形式不適合數據挖掘演算法,這種情況下,一個或多個由原始特徵構造的新特徵可能比原特徵更有用。

       有些數據挖掘演算法,特別是某些分類演算法,要求數據是分類屬性形式。發現關聯模式的演算法要求數據是二元屬性形式。常常需要將連續屬性變換成分類屬性(離散化),並且連續和離散屬性可能都需要變換成一個或多個二元屬性(二元化)。

       變數變換(也稱屬性變換)是指用於變數的所有值變換。

參考:

1:《數據挖掘導論》

2: 特徵選擇與特徵子集 - 思想永不平凡

⑥ 數據預處理

在數據挖掘中,海量的原始數據中存在大量不完整(有缺失值)、不一致、有異常的數據,會嚴重影響到數據挖掘建模的執行效果,甚至會導致挖掘結果的偏差,進而數據清洗就變得尤為重要。在數據清洗完成後接著甚至同時進行數據集成、變換、規約等一系列的處理,而整個過程稱之為 數據預處理 。在整個數據挖掘過程中,數據預處理工作大致占據整個過程的 60%
一般來說,數據預處理的主要包括如下內容: 數據清洗、數據集成、數據變換、數據規約。
接下來的內容,我們也是從這幾方面闡述。

常見的缺失值處理方法: 刪除法、替換法、插補法等
(1)、刪除法: 最簡單的缺失值處理方法。從不同角度進行數據處理劃分:

<code>
缺失值的處理
inputfile$date=as.numeric(inputfile$date)#將日期轉換成數值型變數
sub=which(is.na(inputfile$sales))#識別缺失值所在行數
inputfile1=inputfile[-sub,]#將數據集分成完整數據和缺失數據兩部分
inputfile2=inputfile[sub,]
行刪除法處理缺失,結果轉存
result1=inputfile1
</code>
(2)、替換法
一般根據屬性將變數分:數值型和非數值型

在數據挖掘過程中,可能會存在數據分布在不同的數據源中,而這個時候需要將多個數據源合並存放在一個一致的數據存儲(如數據倉庫),整個過程稱之為 數據集成

數據倉庫:
關於數據倉庫構思
漫談數據倉庫之維度建模
漫談數據倉庫之拉鏈表(原理、設計以及在Hive中的實現)

在R中,通過將存儲在兩個數據框中的數據以關鍵字為依據,以行為單位做列向合並,直接通過merge()函數完成。
merge(數據框1,數據框2,by="關鍵字"),而合並後的新數據自動按照關鍵字取值大小升序排列。不過在數據集成過程中存在表達形式不一樣,導致不能直接完成匹配,就需要我們進行加以轉換、提煉、集成等操作。具體從如下幾方面:
(1)、實體識別
從不同數據源識別出現實世界的實體,來完成統一不同源的數據矛盾之處。

實體識別承擔著檢測和解決這些沖突的任務

(2)、冗餘屬性識別

數據變換主要對數據進行規范化處理、連續變數的離散化以及屬性屬性的構造,將數據轉換成「適當的」形式,來滿足挖掘任務及演算法的需要。
(1)、簡單函數變換
對原始數據進行某些數學函數變換,常見平方、開方、取對數、差分運算等等
主要來完成不具有正態分布變換服從正態分布;非平穩序列變為平穩序列等等
(2)、數據規范化
為了清除指標之間的量綱和取值范圍差異的影響,需要進行標准化處理,將數據按照比例進行縮放,使之落入一個特定區域,便於進行綜合分析。
常見方法如下:

<code>
讀取數據
data=read.csv('./data/normalization_data.csv',he=F)
最小-最大規范化
b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))
b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))
b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))
b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))
data_scatter=cbind(b1,b2,b3,b4)
零-均值規范化
data_zscore=scale(data)
小數定標規范化
i1=ceiling(log(max(abs(data[,1])),10))#小數定標的指數
c1=data[,1]/10^i1
i2=ceiling(log(max(abs(data[,2])),10))
c2=data[,2]/10^i2
i3=ceiling(log(max(abs(data[,3])),10))
c3=data[,3]/10^i3
i4=ceiling(log(max(abs(data[,4])),10))
c4=data[,4]/10^i4
data_dot=cbind(c1,c2,c3,c4)
</code>

(3)、連續屬性離散化
在數據的取值范圍內設定若干個離散的劃分點,將取值范圍劃分為不同的離散化的區間,最後使用不同的符號或數值代表落在不同區間的數據值。
常見離散方法:

(4)、屬性構造
利用已有的屬性構造出新的屬性
(5)、小波變換(本次不進行闡述)

數據規約在大數據集上產生更小的且保持原數據完整性的新數據集,提升在數據集合上進行分析和挖掘的效率。
意義如下:

⑦ 預處理常用的方法有哪些

一、混凝-絮凝

混凝是指向水中投加一定劑量的化學葯劑,這些化學葯劑在水中發生水解,和水中的膠體粒子互相碰撞,發生電性中和,產生吸附、架橋和網捕作用,從而形成大的絮體顆粒,並從水中沉降,起到了降低顆粒懸浮物和膠體的作用。

二、介質過濾

介質過濾是指以石英砂或無煙煤等為介質,使水在重力或壓力下通過由這些介質構成的床層,而水中的的顆粒污染物質則被介質阻截,從而達到與水分離的過程。粒狀介質過濾基於「過濾-澄清」的工作過程去除水中的顆粒、懸浮物和膠體。



工業水處理

在工業用水處理中,預處理工序的任務是將工業用水的水源——地表水、地下水或城市自來水處理到符合後續水處理裝置所允許的進水水質指標,從而保證水處理系統長期安全、穩定地運行,為工業生產提供優質用水。

預處理的對象主要是水中的懸浮物、膠體、微生物、有機物、游離性余氯和重金屬等。這些雜質對於電滲析、離子交換、反滲透、鈉濾等水處理裝置會產生不利的影響。

怎麼進行數據分析

進行數據分析:

1、要求明確:准確

明確需求主要是與他人溝通與需求相關的一切內容,並清晰准確地理解和表達相關內容。

在需求溝通中,通過掌握需求的核心內容,可以減少反復溝通。需求的核心內容可以從分析目的、分析主體、分析口徑、分析思路、完成時間五個方面來確定。此外,在溝通的過程中,可以適當提出自己的想法,讓需求更加清晰立體。

2、確定思路:全面、深入

分析思想是分析的靈魂,是細化分析工作的過程。分析思路清晰有邏輯,能有效避免反復分析問題。從分析目的出發,全面、深入地拆解分析維度,確定分析方法,最終形成完整的分析框架。

3、處理數據:高效

當我們進行數據分析時,我們可能會得到混亂的數據,這就要求我們清潔、整理、快速、准確地加工成適合數據分析的風格。

此時需要使用數據分析軟體以工作流的形式提取數據模型的語義,通過易於操作的可視化工具將數據加工成具有語義一致性和完整性的數據模型。系統支持的數據預處理方法包括:采樣、拆分、過濾和映射、列選擇、空值處理、並行、合並行、元數據編輯、JOIN、行選擇、重復值去除等。

4、數據分析:合適的數據

分析數據在分析過程中的地位是首要任務。從分析的目的出發,運用適當的分析方法或模型,使用分析工具分析處理過的數據,提取有價值的信息。

5、顯示數據:直觀

展示數據又稱數據可視化,是以簡單直觀的方式傳達數據中包含的信息,增強數據的可讀性,讓讀者輕松看到數據表達的內容。

6、寫報告:建議落地,邏輯清晰

撰寫報告是指以文件的形式輸出分析結果,其內容是通過全面科學的數據分析來顯示操作,可以為決策者提供強有力的決策依據,從而降低操作風險,提高利潤。

在撰寫報告時,為了使報告更容易閱讀和有價值,需要注意在報告中註明分析目標、口徑和數據來源;報告應圖文並茂,組織清晰,邏輯性強,單一推理;報告應反映有價值的結論和建議。

7、效果反饋:及時

所謂效果反饋,就是選擇合適有代表性的指標,及時監控報告中提出的戰略執行進度和執行效果。只有輸入和輸出才能知道自己的操作問題點和閃點,所以效果反饋是非常必要的。反饋時要特別注意兩點,一是指標要合適,二是反饋要及時。

⑨ 特徵工程中數據預處理方法總結

特徵工程

「巧婦難為無米之炊」,在機器學習中,數據和特徵便是「米」,而模型和演算法則是「巧婦」。沒有充足的數據和合適的特徵,再強大的模型也無法擬合出滿意的結果。因此,對於機器學習的問題,常說的一句話是數據和特徵決定了結果的上限,而模型和演算法則是在優化過程中逐步接近這個上限。所以,特徵的處理在整個機器學習過程中佔有舉足輕重的地位,對特徵的處理過程被稱為特徵工程。特徵工程是對原始數據進行一系列的工程處理,將其提煉為特徵,作為輸入工演算法和模型使用。

特徵工程又包含了Data PreProcessing(數據預處理)、Feature Extraction(特徵提取)、Feature Selection(特徵選擇)和Feature construction(特徵構造)等子問題,而數據預處理又包括了數據清洗和特徵預處理等子問題。本文用作總結數據預處理的一系列方法。

1、無量綱化

(1)什麼是無量綱化

為了消除數據特徵之間的量綱影響,我們需要對特徵進行歸一化和標准化處理,使得不同指標之間具有可比性。例如:分析一個人的身高和體重對健康的影響,如果使用米和千克作為單位,那麼身高和體重會處於不同的數值范圍內,體重的數值在量上要遠大於身高,而如果不對其做處理直接用的情況下分析結果顯然會更依賴於數值差別較大的體重特徵。因此,為了得到更為准確的結果,就需要對特徵進行歸一化和標准化處理,使各項指標處於同一數量級,以便進行分析。

(2)無量綱化方法

無量綱化通常也被稱為歸一化或標准化,是因為歸一化和標准化是無量綱化的兩個主要方法

1)歸一化

歸一化是對原始數據進行線性變換, 使結果映射到[0, 1]的范圍, 實現對原始數據的等比縮放。 最常用對的是Min-Max Scaling歸一化方法(也叫極差變換法),公式如下 :

  其中X為原始數據, Xmax、Xmin分別為數據最大值和最小值。最值歸一化的使用范圍是特徵的分布具有明顯邊界的,受outlier的影響比較大。

除此之外,常用的歸一化方法有原始值比最大值。

2)標准化

標准化會將原始數據映射到均值為0、 標准差為1的分布上。常用的方法是零均值標准化(Z-Score Normalization)。 具體來說, 假設原始特徵的均值為μ、 標准差為σ, 那麼歸一化公式定義為 :

零均值標准化適用於數據中沒有明顯的邊界,有可能存在極端數據值的情況。

3)不同的無量綱方法的適用范圍

無量綱化避免了不同量綱的選取對距離計算產生的巨大影響。但是,歸一化和標准化適用於不同的場景,在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,標准化方法表現更好。在不涉及距離度量、協方差計算、數據不符合正太分布的時候,可以使用歸一化方法。比如圖像處理中,將RGB圖像轉換為灰度圖像後將其值限定在[0 255]的范圍。

(3)無量綱化的作用和適用模型

1)作用

無量綱化的作用除了可以使分析結果不明顯傾向於差異化較大的特徵外,另一個重要作用是在隨機梯度下降演算法中,如果對特徵進行了無量綱化處理,會在相同的學習率的情況下減少差異較大的特徵的迭代次數,更快找到最優解。例如,假設有兩種數值型特徵,x1x1的取值范圍為 [0, 10],x2x2的取值范圍為[0, 3]。則在未歸一化和歸一化數據的梯度下降過程分別如下圖:

由圖可以看出,在學習速率相同的情況下,x1相比與x2需要較多的迭代才能找到最優解。但是,如果將 x1 和 x2都映射到到相同的數值區間後, 優化目標的等值圖會變成圓形。x1和 x2 的更新速度變得更為一致, 容易更快地通過梯度下降找到最優解。

2)適用演算法

機器學習中,並不是所有的模型都需要對特徵進行無量綱化處理。比如概率模型並不需要,因為它們不關心變數的值,而是關心變數的分布和變數之間的條件概率。但是,像線性回歸、邏輯回歸和支持向量機以及神經網路模型等則就需要提前進行特徵的無量綱化。從另一個角度來看,通過梯度下降法求解的模型通常需要無量綱化。否則,像決策樹在求解過程中,主要依據特徵值的信息增益比等信息,而這些信息跟特徵是否經過歸一化等無量綱化處理是無關的,因此決策數不要求對特徵進行無量綱化處理。

2、類別型特徵編碼

類別型特徵的值表現為類別變數,類別型變數,也被稱為定性變數(categorical variable)。比如性別、省份、學歷、產品等級等。這類變數的取值通常是用文字而非數字來表示。在機器學習中,除了決策樹族的演算法能直接接受類別型特徵作為輸入,對於支持向量機,邏輯回歸等模型來說,必須對其做一定的處理,轉換成可靠的數值特徵才能正確運行。類別型特徵的處理方法有:

(1)序列編碼(ordinal encoding)

一般處理類別間具有大小關系的數據,例如期末成績的 [A, B, C, D] 四擋可以直接轉化為 [0, 1, 2, 3]。在轉化後,依然保持類別之間的順序關系。

(2)獨熱編碼(one-hot encoding)

序列編碼潛在的定義了類別之間的距離具有相同的含義。以成績為例,兩個人之間,得分A與B的成績差,和B與C的成績差,在進行預測時,是完全等價的,由於 [A, B, C, D] 直觀上與成績正相關,使用序列編碼不會帶來太大的損失。然而在處理像血型這樣的類別特徵時,如果將 [A, B, AB, O] 直接編碼成 [1, 2, 3, 4],顯然A與B和B與AB之間的距離,並不具有相同的含義,甚至是完全抽象的無法理解的意義,此時,序列編碼就不適用了。因此,便出現了獨熱編碼,獨熱編碼將類別特徵用一組比特位來表示,每一位代表一個可能的類別,如果該變數不能一次稱為多個類別,那麼該組中只有一位可以是1。

對於類別取值較多的情況下適用獨熱編碼需要注意以下問題:

1)適用稀疏向量來節省空間。在獨熱編碼下,特徵向量只有某一維取值為1,其他位置取值均為0。因此,可以利用向量的稀疏表示有效節省空間,並且目前大部分的演算法均接受稀疏向量形式的輸入。

2)配合特徵選擇來降低維度。高維度特徵會帶來幾方面的問題,一是在K近鄰演算法中,高維空間下兩點之間的距離很難得到有效的衡量;二是在邏輯回歸模型中,參數的數量會隨著維度的增加而增高,容易引起過擬合問題;三是通常只有部分維度是對分類、預測有幫助,因此可以考慮配合特徵選擇來降低維度。

(3)啞變數(mmy encoding)

啞變數是獨熱編碼的一種形式,onehot編碼的問題是它允許k個自由度,其中變數本身只需要k-1。虛擬編碼通過僅適用表示中的k-1個特徵來消除額外的自由度。

3、數值型特徵離散化

離散化是數值型特徵非常重要的一個處理,其實就是要將數值型數據轉化成類別型數據。連續值的取值空間可能是無窮的,為了便於表示和在模型中處理,需要對連續值特徵進行離散化處理。

(1)無監督方法

1)自定義離散化,根據業務經驗或者常識等自行設定劃分的區間,然後將原始數據歸類到各個區間中。

2)等距化方法,按照相同寬度將數據分成幾等份,其缺點是受到異常值的影響比較大。

3)等頻化方法,將數據分成幾等份,每等份數據裡面的個數是一樣的。

4)聚類離散化

5)二值化方法,設定一個閾值,大於閾值的賦值為1,小於等於閾值的賦值為0。

(2)有監督方法

1)卡方法,自底向上的(即基於合並的)數據離散化方法。它依賴於卡方檢驗:具有最小卡方值的相鄰區間合並在一起,直到滿足確定的停止准則。其基本思想是,對於精確的離散化,相對類頻率在一個區間內應當完全一致。因此,如果兩個相鄰的區間具有非常類似的類分布,則這兩個區間可以合並;否則,它們應當保持分開。而低卡方值表明它們具有相似的類分布。

2)最小熵法,需要使總熵值達到最小,也就是使分箱能夠最大限度地區分因變數的各類別。數據集的熵越低,說明數據之間的差異越小,最小熵劃分就是為了使每箱中的數據具有最好的相似性。給定箱的個數,如果考慮所有可能的分箱情況,最小熵方法得到的箱應該是具有最小熵的分箱。

4、缺失值處理方法

(1)直接刪除

如果在數據集中,只有幾條數據的某幾列中存在缺失值,那麼可以直接把這幾條數據刪除。

(2)均值插補

數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

(3)利用同類均值插補

同均值插補的方法都屬於單值插補,不同的是,它用層次聚類模型預測缺失變數的類型,再以該類型的均值插補。

(4)極大似然估計

在缺失類型為隨機缺失的條件下,假設模型對於完整的樣本是正確的,那麼通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。

(5)多重插補

多重插補的思想來源於貝葉斯估計,認為待插補的值是隨機的,它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值,然後再加上不同的雜訊,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。

閱讀全文

與數據預處理的分析目標和方法相關的資料

熱點內容
工業鹽使用方法 瀏覽:140
鍛煉基礎腹肌方法視頻教程 瀏覽:201
介入方法是什麼意思 瀏覽:645
汽車阻尼器的安裝方法 瀏覽:153
論文設計並運用相關研究方法 瀏覽:558
js封裝的方法如何在頁面內調用 瀏覽:539
定量和定性研究方法的種類 瀏覽:950
腰間盤如何鍛煉方法 瀏覽:608
過河的簡單方法 瀏覽:587
傳播研究方法教材 瀏覽:281
骨科治療腱鞘炎的方法 瀏覽:596
電腦突破網路限速的方法 瀏覽:158
溶液中鋰離子濃度檢測方法 瀏覽:162
紅杉樹樹皮的食用方法 瀏覽:732
剔除離散值計算方法 瀏覽:622
seo有哪些重要的方法 瀏覽:739
阻止電瓶車上樓線路安裝方法 瀏覽:31
古代陶瓷快速降溫的方法 瀏覽:413
什麼方法能快速開車 瀏覽:69
嬰兒吐奶用什麼方法解決 瀏覽:738