① 數據的變換
變數變換的目的:①統一變數的量綱;②盡可能使變數呈正態分布;③使兩變數間的非線性相關關系變為線性相關關系;④用一組新的、數目更少的、相互獨立的變數代替原來組內有不同相關關系的變數;⑤把定量數據轉化成狀態型數據,以適合數學模型;⑥形成數學模型所需要的網格狀分布數據。
總體來說,說是把原始數據變換成適合所選定數據模型的數據。這可用一個統一的函數表示:
y=f(x)
式中:x為原始數據;y為數學模型數據,也稱方法數據。f(x)的形式是多種多樣的,不同的函數形式所獲得的方法數據的性質、作用不同。
(一)統一變數量綱的變換
1.標准化變換
放射性勘探方法
式中:xij為第j個變數的原始數據;
變換後,方法數據yij的平均值為0,均為差為1。因此它又屬正態化變換范疇。
2.極差變換(又稱正規化變換)
放射性勘探方法
式中:xij為第j個變數的原始數據;xj,min為第j個變數的最小值;xj,max為第j個變數的最大值。
變換後,方法數據yij有統一的量綱,最大值為1,最小值為0,其他值在0~1之間變化。該種變換的缺點是,當xj,max很大而xj,min很小時,數據往往會趨於相等,會使數據間的差異不明顯。
3.均勻化變換(又稱均值計量變換)
放射性勘探方法
式中:xij為第j個變數的原始數據;
變換後,方法數據yij都在1附近變化,其數學期望為1,
4.均方差變換
放射性勘探方法
式中:xij為第j個變數的原始數據;sj為變數j的均方差。
變換後,方法數據yij統一了量綱,使原始數據相對收斂。
上述變換都是線性變換。根據相關系數的性質,變換前後兩兩變數間的相關程度不變,這一點是實行數據變換的理論依據;否則這種變換是不允許的。
(二)正態化變換
除了標准化變換外,還包括角度變換、對數變換、平方根變換等。這些變換都是把數據變換成趨於正態性分布的數據。
1.角度變換
這種變換是把原始數據變為0°~90°之間的數。公式為
放射性勘探方法
式中:xij為第j種變數的原始數據;m取正整數,通常取最大值整數部分的位數。
變換後數據變成了百分比數據,開方是為了避免數據過小。
通過變換,使百分比數據的概率分布曲線尾端拉長,中心段得以壓縮,使概率分布曲線趨於正態。變換前後,兩兩變數間的相關關系略有差異。
2.平方根變換
為了使概率分布為正偏的數據變為接近正態分布的方法數據,可用下式:
放射性勘探方法
式中:c為常數;xij為原始數據。
該變換適用於服從泊松分布的離散型變數,如礦床個數、異常個數、露頭個數、距主斷裂帶的距離等。
變換後,方法數據的方差穩定,常數項c能使離散的數據趨於連續,開方後數據趨於正態分布。通常c不能取得太小。
3.對數變換
對數變換使用的公式為
放射性勘探方法
該式適於服從對數正態分布的數據,如氡氣濃度,鈾、釷、鉀的含量等。由於這類數據可能出現零的值,為避免其對數後出現大的負值,變換前需加一個適當的常數c。
上述三種正態化變換,都能使偏斜分布變換為正態分布。那麼具體選擇何種變換,應首先考察數據的頻率分布曲線,區分正偏斜分布還是負偏斜分布。若是負偏斜分布,用反正弦變換;若是正偏斜分布,則視長尾收斂程度而定,尾長的採用對數變換,中等長的採用平方根變換,尾略長的採用反餘弦變換。尾的長短、偏斜強弱的區分是定性的,不易掌握。最可靠的辦法是對同批數據試用各種變換,做出變換後的曲線並檢驗之,從中選擇最優者。
(三)化直變換
化直變換系指使曲線函數化為直線函數的數學變換。它是在直角坐標系,按樣本值點出散點圖,然後選出適合散點分布趨勢的最佳擬合函數的一種數學方法。通過的曲線函數有:指數函數、線性函數、對數函數、S形函數、雙曲函數、冪函數。
化直形式:
指數函數:
放射性勘探方法
線性函數:本身為直線,無需化直。
對數函數:
放射性勘探方法
S形函數:
放射性勘探方法
雙曲線函數:
放射性勘探方法
冪函數:
放射性勘探方法
以上列舉的幾種變換方法是最普通的方法,通常原始數據經變換後,都能滿足數學模型的要求。但是變換不當,則效果適得其反,所以原始數據的變換是一項重要而細致的工作,有時甚至需要通過多種試驗方案才能找出最合適的變換函數。
② 數據規范化的幾種方法
在數據分析之前,我們都需要讓數據滿足一定的規律,達到規范性的要求,便於進行挖掘。
如果不進行變換的話,要不就是維數過多增加了計算成本,要不就是數據過於集中,很難找到數據之間的特徵。
在數據變換中,重點是如何將數值進行規范化,有三種常用的規范方法,分別是Min-Max規范化、Z-Score規羨昌坦范化、小數定標規范化。
1.Min-max規范化:
將原始數據投射到指定的空間[min,max]。可用公式表示為:
新數值 = (原數值-極小值)/ (極大值 - 極小值) 。
SciKit-Learn中的MinMaxScaler可以完成這個功能。
2.Z-Score規范化:
將原始數據轉換為正態分布的形式,使結果易於比較。可用兄桐公式表示為:
新數值 = (原數值 - 均值)/ 標准差
在SciKit-Learn中的preprocessing.scale()可以直接將給定數據進行Z-Score規范化。
3.小數定標規范化:
通過移動小數點的位置來進行規范化。小數點移動的位數取決於該屬性數據取值的最大絕對值。
例如:屬性A的取值范圍是-800到70,那麼就可以將數據的小數點整體向左移三位即[-0.8,0.07]
利用numpy對數據進迅賀行小數定標規范化的方法如下:
③ 數據規范化名詞解釋
數據在應用過程中相對比較繁雜。為了能夠更好的應用數據,並以需要進行格式化的排列,以橡高返備不時之需。簡稱數據規范化。
數據規范化處理是數據挖掘的一項基本操作。現實中,數據中不同特徵的量綱可能不一致,數值間的差別可能很大,不進行處理可能會影響到數據分析的結果,因此,需要對數據按照一定比例進行縮放,使之落在一個特定的區域,便於進行綜合分析。
特別是基於距離的挖掘方法,在建模前一定要對數據進行規范化處理,如SVM,KNN,K-means,聚類等方法。
(3)常用三種數據變換的方法是擴展閱讀:
數據規范化的幾種方法:
在數據分析之前,都需要讓數據滿足一定的規律,達到規范性的要求,便於進行挖掘。
如果不進行變換的話,要不就是維數過多增加了計算成本,要不就是數據過於集中,很難找到數據之間的特徵。
在數據變換中,重點是如何將數值進行規范化,有三種常用的規范方法,分別是Min-Max規范化、Z-Score規范化、小數定標規范化。
1.Min-max規范化:
將原始數據投射到指定的空間[min,max]。可用公式表示為:
新數值 = (原數值-極小值)/ (極大值 - 極小值) 。
SciKit-Learn中的MinMaxScaler可以完成這個功能。
2.Z-Score規范化:
將原始數據轉換為正態分布的形式,使結果易於比較。可用公式表示為:
新數值 = (原數值 - 均值)/ 標准差。
在SciKit-Learn中的preprocessing.scale()可以直接將給定數據進行Z-Score規范化。
3.小數定標規范梁飢化:
通過移動小數點的位置來進行規范化。小數點移動的位數取決於該屬性數據取值的最大絕對值。
例念搭如:屬性A的取值范圍是-800到70,那麼就可以將數據的小數點整體向左移三位即[-0.8,0.07]。
參考資料來源:網路-數據標准化
④ 數據交換三種方式中各自的優點和缺點
數據交換三種方式分別是:線路交換、報文交換、分組交換。
第一種:線路交換(電路交換)
優點:
1、建立線路之後、釋放線路之前,即使站點之間無任何數據可以傳輸,整個線路仍不允許其它站點共享。
2、一旦線路建立,通信雙方的所有資源(包括線路資源)均用於本次通信,除了少量的傳輸延遲之外,不再有其它延遲,具有較好的實時性。
3、線路交換設備簡單。
4、用戶數據透明傳輸。
缺點:
1、線路的利用率較低,並且容易引起接續時的擁塞。
2、不提供任何緩存裝置。
3、要求收發雙方自動進行速率匹配。
第二種:報文交換
優點:
1、不獨占線路,多個用戶的數據可以通過存儲和排隊共享一條線路。
2、提高了線路的利用率。
3、支持多點傳輸(一個報文傳輸給多個用戶,在報文中增加「地址欄位」,中間結點根據地址欄位進行復制和轉發)。
4、中間結點可進行數據格式的轉換,方便接收站點的收取。
5、增加了差錯檢測功能,避免出錯數據的無謂傳輸等。
缺點:
1、由於「存儲-轉發」和排隊,增加了數據傳輸的延遲。
2、報文長度未作規定,報文只能暫存在磁碟上,磁碟讀取佔用了額外的時間。
3、任何報文都必須排隊等待:不同長度的報文要求不同長度的處理和傳輸時間,即使非常短小的報文(例如:互動式通信中的會話信息)。
4、報文交換難以支持實時通信和互動式通信的要求。
第三種:分組交換
優點:
1、兼有電路交換和報文交換的優點。
2、每個分組標識後,在一條物理線路上採用動態復用的技術,同時傳送多個數據分組。
3、分組交換比電路交換的電路利用率高,比報文交換的傳輸時延小,交互性好。
4、線路利用率高:分組交換以虛電路的形式進行信道的多路復用,實現資源共享,可在一條物理線路上提供多條邏輯信道,極大地提高線路的利用率。使傳輸費用明顯下降。
5、不同種類的終端可以相互通信:分組網以X.25協議向用戶提供標准介面,數據以分組為單位在網路內存儲轉發,使不同速率終端,不同協議的設備經網路提供的協議變換功能後實現互相通信。
6、信息傳輸可靠性高:在網路中每個分組進行傳輸時,在節點交換機之間採用差錯校驗與重發的功能,因而在網中傳送的誤碼率大大降低。
7、分組多路通信:由於每個分組都包含有控制信息,所以分組型終端可以同時與多個用戶終端進行通信,可把同一信息發送到不同用戶。
8、提供網路的基本業務:交換虛電路和永久虛電路及其他補充業務,如閉和用戶群,網路用戶識別等。在端到端計算機之間通信時,進行路由選擇,以及流量控制。
9、能提供多種通信規程,數據轉發,維護運行,故障診斷,計費與一些網路的統計等。
缺點:
計費與傳輸距離無關:網路計費按時長、信息量計費,與傳輸距離無關,適合那些非實時性,而通信量不大的用戶, 信息量大的不適用。
(4)常用三種數據變換的方法是擴展閱讀
網游的重大特點 就是需要客戶端數據與伺服器端資料庫不斷的更新同步, 這就造成大量的數據雙向傳輸。
光纖的傳輸速度和傳輸帶寬 都是電話線無法追及的。
光纖 類似於雙向8車道高速公路;而電話線 只是雙向二車道公路。