導航:首頁 > 使用方法 > 常用三種數據變換的方法是

常用三種數據變換的方法是

發布時間:2023-06-01 22:53:40

① 數據的變換

變數變換的目的:①統一變數的量綱;②盡可能使變數呈正態分布;③使兩變數間的非線性相關關系變為線性相關關系;④用一組新的、數目更少的、相互獨立的變數代替原來組內有不同相關關系的變數;⑤把定量數據轉化成狀態型數據,以適合數學模型;⑥形成數學模型所需要的網格狀分布數據。

總體來說,說是把原始數據變換成適合所選定數據模型的數據。這可用一個統一的函數表示:

y=f(x)

式中:x為原始數據;y為數學模型數據,也稱方法數據。f(x)的形式是多種多樣的,不同的函數形式所獲得的方法數據的性質、作用不同。

(一)統一變數量綱的變換

1.標准化變換

放射性勘探方法

式中:xij為第j個變數的原始數據;

為變數j的算術平均值;sj為其均方差。

變換後,方法數據yij的平均值為0,均為差為1。因此它又屬正態化變換范疇。

2.極差變換(又稱正規化變換)

放射性勘探方法

式中:xij為第j個變數的原始數據;xj,min為第j個變數的最小值;xj,max為第j個變數的最大值。

變換後,方法數據yij有統一的量綱,最大值為1,最小值為0,其他值在0~1之間變化。該種變換的缺點是,當xj,max很大而xj,min很小時,數據往往會趨於相等,會使數據間的差異不明顯。

3.均勻化變換(又稱均值計量變換)

放射性勘探方法

式中:xij為第j個變數的原始數據;

為變數j的算術平均值。

變換後,方法數據yij都在1附近變化,其數學期望為1,

的期望為0,且統一了量綱。它適用於比例型變數,如長度、體積、質量等數據。

4.均方差變換

放射性勘探方法

式中:xij為第j個變數的原始數據;sj為變數j的均方差。

變換後,方法數據yij統一了量綱,使原始數據相對收斂。

上述變換都是線性變換。根據相關系數的性質,變換前後兩兩變數間的相關程度不變,這一點是實行數據變換的理論依據;否則這種變換是不允許的。

(二)正態化變換

除了標准化變換外,還包括角度變換、對數變換、平方根變換等。這些變換都是把數據變換成趨於正態性分布的數據。

1.角度變換

這種變換是把原始數據變為0°~90°之間的數。公式為

放射性勘探方法

式中:xij為第j種變數的原始數據;m取正整數,通常取最大值整數部分的位數。

變換後數據變成了百分比數據,開方是為了避免數據過小。

通過變換,使百分比數據的概率分布曲線尾端拉長,中心段得以壓縮,使概率分布曲線趨於正態。變換前後,兩兩變數間的相關關系略有差異。

2.平方根變換

為了使概率分布為正偏的數據變為接近正態分布的方法數據,可用下式:

放射性勘探方法

式中:c為常數;xij為原始數據。

該變換適用於服從泊松分布的離散型變數,如礦床個數、異常個數、露頭個數、距主斷裂帶的距離等。

變換後,方法數據的方差穩定,常數項c能使離散的數據趨於連續,開方後數據趨於正態分布。通常c不能取得太小。

3.對數變換

對數變換使用的公式為

放射性勘探方法

該式適於服從對數正態分布的數據,如氡氣濃度,鈾、釷、鉀的含量等。由於這類數據可能出現零的值,為避免其對數後出現大的負值,變換前需加一個適當的常數c。

上述三種正態化變換,都能使偏斜分布變換為正態分布。那麼具體選擇何種變換,應首先考察數據的頻率分布曲線,區分正偏斜分布還是負偏斜分布。若是負偏斜分布,用反正弦變換;若是正偏斜分布,則視長尾收斂程度而定,尾長的採用對數變換,中等長的採用平方根變換,尾略長的採用反餘弦變換。尾的長短、偏斜強弱的區分是定性的,不易掌握。最可靠的辦法是對同批數據試用各種變換,做出變換後的曲線並檢驗之,從中選擇最優者。

(三)化直變換

化直變換系指使曲線函數化為直線函數的數學變換。它是在直角坐標系,按樣本值點出散點圖,然後選出適合散點分布趨勢的最佳擬合函數的一種數學方法。通過的曲線函數有:指數函數、線性函數、對數函數、S形函數、雙曲函數、冪函數。

化直形式:

指數函數:

放射性勘探方法

線性函數:本身為直線,無需化直。

對數函數:

放射性勘探方法

S形函數:

放射性勘探方法

雙曲線函數:

放射性勘探方法

冪函數:

放射性勘探方法

以上列舉的幾種變換方法是最普通的方法,通常原始數據經變換後,都能滿足數學模型的要求。但是變換不當,則效果適得其反,所以原始數據的變換是一項重要而細致的工作,有時甚至需要通過多種試驗方案才能找出最合適的變換函數。

② 數據規范化的幾種方法

在數據分析之前,我們都需要讓數據滿足一定的規律,達到規范性的要求,便於進行挖掘。

如果不進行變換的話,要不就是維數過多增加了計算成本,要不就是數據過於集中,很難找到數據之間的特徵。

在數據變換中,重點是如何將數值進行規范化,有三種常用的規范方法,分別是Min-Max規范化、Z-Score規羨昌坦范化、小數定標規范化。

1.Min-max規范化:

將原始數據投射到指定的空間[min,max]。可用公式表示為:

新數值 = (原數值-極小值)/ (極大值 - 極小值) 。

SciKit-Learn中的MinMaxScaler可以完成這個功能。

2.Z-Score規范化:

將原始數據轉換為正態分布的形式,使結果易於比較。可用兄桐公式表示為:

新數值 = (原數值 - 均值)/ 標准差

在SciKit-Learn中的preprocessing.scale()可以直接將給定數據進行Z-Score規范化。

3.小數定標規范化:

通過移動小數點的位置來進行規范化。小數點移動的位數取決於該屬性數據取值的最大絕對值。

例如:屬性A的取值范圍是-800到70,那麼就可以將數據的小數點整體向左移三位即[-0.8,0.07]

利用numpy對數據進迅賀行小數定標規范化的方法如下:

③ 數據規范化名詞解釋

數據在應用過程中相對比較繁雜。為了能夠更好的應用數據,並以需要進行格式化的排列,以橡高返備不時之需。簡稱數據規范化。

數據規范化處理是數據挖掘的一項基本操作。現實中,數據中不同特徵的量綱可能不一致,數值間的差別可能很大,不進行處理可能會影響到數據分析的結果,因此,需要對數據按照一定比例進行縮放,使之落在一個特定的區域,便於進行綜合分析。

特別是基於距離的挖掘方法,在建模前一定要對數據進行規范化處理,如SVM,KNN,K-means,聚類等方法。

(3)常用三種數據變換的方法是擴展閱讀:

數據規范化的幾種方法:

在數據分析之前,都需要讓數據滿足一定的規律,達到規范性的要求,便於進行挖掘。

如果不進行變換的話,要不就是維數過多增加了計算成本,要不就是數據過於集中,很難找到數據之間的特徵。

在數據變換中,重點是如何將數值進行規范化,有三種常用的規范方法,分別是Min-Max規范化、Z-Score規范化、小數定標規范化。

1.Min-max規范化:

將原始數據投射到指定的空間[min,max]。可用公式表示為:

新數值 = (原數值-極小值)/ (極大值 - 極小值) 。

SciKit-Learn中的MinMaxScaler可以完成這個功能。

2.Z-Score規范化:

將原始數據轉換為正態分布的形式,使結果易於比較。可用公式表示為:

新數值 = (原數值 - 均值)/ 標准差。

在SciKit-Learn中的preprocessing.scale()可以直接將給定數據進行Z-Score規范化。

3.小數定標規范梁飢化:

通過移動小數點的位置來進行規范化。小數點移動的位數取決於該屬性數據取值的最大絕對值。

例念搭如:屬性A的取值范圍是-800到70,那麼就可以將數據的小數點整體向左移三位即[-0.8,0.07]。

參考資料來源:網路-數據標准化





④ 數據交換三種方式中各自的優點和缺點

數據交換三種方式分別是:線路交換、報文交換、分組交換。

第一種:線路交換(電路交換)

優點:

1、建立線路之後、釋放線路之前,即使站點之間無任何數據可以傳輸,整個線路仍不允許其它站點共享。

2、一旦線路建立,通信雙方的所有資源(包括線路資源)均用於本次通信,除了少量的傳輸延遲之外,不再有其它延遲,具有較好的實時性。

3、線路交換設備簡單。

4、用戶數據透明傳輸。

缺點:

1、線路的利用率較低,並且容易引起接續時的擁塞。

2、不提供任何緩存裝置。

3、要求收發雙方自動進行速率匹配。

第二種:報文交換

優點:

1、不獨占線路,多個用戶的數據可以通過存儲和排隊共享一條線路。

2、提高了線路的利用率。

3、支持多點傳輸(一個報文傳輸給多個用戶,在報文中增加「地址欄位」,中間結點根據地址欄位進行復制和轉發)。

4、中間結點可進行數據格式的轉換,方便接收站點的收取。

5、增加了差錯檢測功能,避免出錯數據的無謂傳輸等。

缺點:

1、由於「存儲-轉發」和排隊,增加了數據傳輸的延遲。

2、報文長度未作規定,報文只能暫存在磁碟上,磁碟讀取佔用了額外的時間。

3、任何報文都必須排隊等待:不同長度的報文要求不同長度的處理和傳輸時間,即使非常短小的報文(例如:互動式通信中的會話信息)。

4、報文交換難以支持實時通信和互動式通信的要求。

第三種:分組交換

優點:

1、兼有電路交換和報文交換的優點。

2、每個分組標識後,在一條物理線路上採用動態復用的技術,同時傳送多個數據分組。

3、分組交換比電路交換的電路利用率高,比報文交換的傳輸時延小,交互性好。

4、線路利用率高:分組交換以虛電路的形式進行信道的多路復用,實現資源共享,可在一條物理線路上提供多條邏輯信道,極大地提高線路的利用率。使傳輸費用明顯下降。

5、不同種類的終端可以相互通信:分組網以X.25協議向用戶提供標准介面,數據以分組為單位在網路內存儲轉發,使不同速率終端,不同協議的設備經網路提供的協議變換功能後實現互相通信。

6、信息傳輸可靠性高:在網路中每個分組進行傳輸時,在節點交換機之間採用差錯校驗與重發的功能,因而在網中傳送的誤碼率大大降低。

7、分組多路通信:由於每個分組都包含有控制信息,所以分組型終端可以同時與多個用戶終端進行通信,可把同一信息發送到不同用戶。

8、提供網路的基本業務:交換虛電路和永久虛電路及其他補充業務,如閉和用戶群,網路用戶識別等。在端到端計算機之間通信時,進行路由選擇,以及流量控制。

9、能提供多種通信規程,數據轉發,維護運行,故障診斷,計費與一些網路的統計等。

缺點:

計費與傳輸距離無關:網路計費按時長、信息量計費,與傳輸距離無關,適合那些非實時性,而通信量不大的用戶, 信息量大的不適用。

(4)常用三種數據變換的方法是擴展閱讀

網游的重大特點 就是需要客戶端數據與伺服器端資料庫不斷的更新同步, 這就造成大量的數據雙向傳輸。

光纖的傳輸速度和傳輸帶寬 都是電話線無法追及的。

光纖 類似於雙向8車道高速公路;而電話線 只是雙向二車道公路。

閱讀全文

與常用三種數據變換的方法是相關的資料

熱點內容
初中英語考試技巧方法 瀏覽:674
tan13度數計算方法 瀏覽:658
作比較的方法在文章中怎麼找 瀏覽:154
光學的方法測量外形輪廓 瀏覽:520
如何給室內降溫方法 瀏覽:177
製作山水畫的方法步驟 瀏覽:851
眼睛結膜炎治療方法 瀏覽:585
香港病毒治療方法 瀏覽:866
空調線管的安裝方法 瀏覽:805
耳洞槍的使用方法 瀏覽:979
諾基亞n72鎖碼解決方法 瀏覽:570
如何治毛周角化的方法 瀏覽:177
數字資源的獲取方法與步驟 瀏覽:35
口紅刷正確使用方法 瀏覽:615
敏感性分析的各數據計算方法 瀏覽:419
餐車安裝方法 瀏覽:405
激勵相關研究方法 瀏覽:902
胸膜炎中醫治療方法 瀏覽:349
圓柱鋼鐵焊接方法視頻 瀏覽:150
初中生如何學習方法書 瀏覽:850