導航:首頁 > 使用方法 > 常用的數據清理方法

常用的數據清理方法

發布時間:2022-01-07 17:49:52

1. 數據清洗的方法

清洗數據有三個方法,分別是分箱法、聚類法、回歸法。

1、分箱法

是一個經常使用到方法,所謂的分箱法,就是將需要處理的數據根據一定的規則放進箱子里,然後進行測試每一個箱子里的數據,並根據數據中的各個箱子的實際情況進行採取方法處理數據。

2、回歸法

回歸法就是利用了函數的數據進行繪制圖像,然後對圖像進行光滑處理。回歸法有兩種,一種是單線性回歸,一種是多線性回歸。單線性回歸就是找出兩個屬性的最佳直線,能夠從一個屬性預測另一個屬性。多線性回歸就是找到很多個屬性,從而將數據擬合到一個多維面,這樣就能夠消除雜訊。

3、聚類法

聚類法的工作流程是比較簡單的,但是操作起來確實復雜的,所謂聚類法就是將抽象的對象進行集合分組,成為不同的集合,找到在集合意外的孤點,這些孤點就是雜訊。這樣就能夠直接發現噪點,然後進行清除即可。

(1)常用的數據清理方法擴展閱讀:

數據清洗從名字上也看的出就是把「臟」的「洗掉」,指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。

因為數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為「臟數據」。

我們要按照一定的規則把「臟數據」「洗掉」,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。

不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。數據清洗是與問卷審核不同,錄入後的數據清理一般是由計算機而不是人工完成 。

2. 常用的數據處理方法

前面所述的各種放射性測量方法,包括航空γ能譜測量,地面γ能譜測量和氡及其子體的各種測量方法,都已用在石油放射性勘查工作之中。數據處理工作量大的是航空γ能譜測量。

(一)數據的光滑

為了減少測量數據的統計漲落影響及地面偶然因素的影響,對原始測量數據進行光滑處理。消除隨機影響。

放射性測量數據光滑,最常用的光滑方法是多項式擬合移動法。在要光滑測量曲線上任取一點,並在該點兩邊各取m個點,共有2m+1點;用一個以該點為中心的q階多項式對這一曲線段作最小二乘擬合,則該多項式在中心點的值,即為平滑後該點的值。用此法逐點處理,即得光滑後的曲線,光滑計算公式(公式推導略)為

核輻射場與放射性勘查

式中:yi+j、為第i點光滑前後的值;為系數;為規范化常數。

五點光滑的二次多項式的具體光滑公式為

核輻射場與放射性勘查

如果一次光滑不夠理想,可以重復進行1~2次,但不宜過多重復使用。

光滑方法,還有傅里葉變換法,以及多點平均值法,多點加權平均值法等。

使用那種方法選定之後,一般都通過編程存入計算機,進行自動化處理。

圖7-2-1是美國東得克薩斯州一個油田上的航空γ放射性異常中的兩條剖面圖(A-B和B-C)。經過光滑處理後,低值連續,清晰明顯,與油田對應的位置較好。說明四個油藏都在鈾(w(U))和鉀(w(K))的低值位置。

圖7-2-1 美國東得克薩斯油田航空γ放射性異常剖面圖

(二)趨勢面分析方法

趨勢分析主要反映測量變數在大范圍(區域)連續變化的趨勢。在原始數據中常含有許多隨機誤差和局部點異常,直觀反映是測量曲線上下跳動或小范圍突變。使用趨勢分析處理是為了得到研究區域輻射場的總體分布趨勢。

趨勢面分析,實質上是利用多元回歸分析,進行空間數據擬合。根據計算方法不同,又可分為圖解法趨勢面分析和數學計演算法趨勢面分析。圖解法趨勢面分析的基本思路是對觀測數據採用二維方塊取平均值法,或滑動平均值法計算趨勢值。方塊平均值法是對每一方塊內的數據取平均值,作為該方塊重心點的趨勢值。滑動平均值法是設想一個方框,放在測區數據分布的平面圖上,把落在方框內的測點數據取平均值,記在方框中心上,最後得到趨勢面等值圖。一般講做一次是不夠的,需要如此重復3~9次。一般都有專門程序可供使用(不作詳述)。如圖7-1-14(a)為原始數據等值圖,中間有許多呈點狀高值或低值分布,經過四次趨勢面分析之後可以清楚地看出三個低值異常區。

計演算法趨勢面分析是選定一個數學函數,對觀測數據進行擬合,給出一個曲線。擬合函數常用的有多項式函數,傅里葉級數,三角函數以及指數函數的多項式函數等。目前以二維多項式函數應用最多。

(三)岩性影響及其校正分析

不同岩石、不同土壤中放射性核素含量是有差別,有的相差還比較大,有的相差甚至超過10%~20%。這是油田放射性測量的主要影響因素。

一個測區可能出現不同土壤分布,把不同放射性水平的土壤上測量結果校正到同一水平(叫歸一化方法)是非常重要的工作,主要有下面三種方法。

1.確定土壤核素含量的歸一化方法

利用γ能譜測量資料,根據測區地質圖或土壤分布圖,分別統計總道的總計數率和鈾、釷、鉀含量的平均值。然後進行逐點校正,即逐點減去同類土壤的平均值,其剩餘值即為異常值。

核輻射場與放射性勘查

式中:分別為第 i類土壤中測點 j的總計數和鈾、釷、鉀含量。分別為i類土壤的平均總計數和鈾、釷、鉀的平均值。分別為扣除各類土壤平均值後的剩餘值,即為各測點不同土壤校正後的歸一化的油田的放射性異常。根據需要可以用來繪制平面剖面圖或等值線圖,即為經過不同岩性(土壤)校正後的油田放射性異常圖。

這個方法的缺點是計算工作量較大。

2.用釷歸一化校正鈾、鉀含量

對自然界各種岩石中的釷、鈾、鉀含量的相關性研究(D.F.Saundr,1987),發現它們的含量具有很好的相關性(表7-2-2);而且隨岩性不同含量確有相應的增加或減小,據此可以利用釷的含量計算鈾和鉀的含量。釷有很好的化學穩定性,釷在地表環境條件下基本不流失。因此,利用釷含量計算出來的鈾、鉀含量,應當是與油藏存在引起的鈾、鉀

表7-2-2 幾種岩石的釷、鈾、鉀含量

異常無關的正常值。用每點實測的鈾、鉀,減去計算的正常值,那麼每個測點的鈾、鉀剩餘值(差值)應當是油氣藏引起的異常值。這樣就校正了岩性(土壤)變化的影響。

對於航空γ能譜測量的總道計數率,也同樣可以用釷含量(或計數率)歸一化校正總道計數率,效果也非常好。

具體方法如下。

1)對鈾、鉀的歸一化校正。

2)根據航空γ能譜測量或地面γ能譜測量數據,按測線計算鈾、釷、鉀含量。根據岩石(土壤)中釷與鈾,釷與鉀的相關關系(表7-2-1),認為鈾和釷存在線性關系,鉀和釷存在對數線性關系,於是建立相應的擬合關系式。

核輻射場與放射性勘查

式中:A、B、A′、B′為回歸系數(對每個測區得到一組常數);wi(Th)為測點i實測的釷含量;w點i(U)、w點i(K)為i點由釷含量計算的鈾、鉀含量。

計算每個測點的鈾、鉀剩餘值:

核輻射場與放射性勘查

式中:wi(U)、wi(K)為測點i的實測值。剩餘值Δwi(U)和Δwi(K)為油藏引起的異常值。

南陽-泌陽航空γ能譜測區,測得的釷、鈾、鉀含量,按釷含量分間隔,計算其平均值,列於表7-2-3。根據此表中數據,由(7-2-7)和(7-2-8)式得:

核輻射場與放射性勘查

表7-2-3 南陽-泌陽航空γ能譜計算的釷、鈾、鉀

3)對總道γ計數率的歸一化校正。釷比較穩定,可以認為與油氣藏形成的放射性異常無關。經研究得知,原岩的總道計數率(I點i)與釷含量的對數值存在近似的線性關系,即

核輻射場與放射性勘查

根據γ能譜實測數據求得實測i點的總道計數率(Ii)與I點i的差值:

核輻射場與放射性勘查

即為消除岩性影響的,由油氣藏引起的γ總計數率異常值。

圖7-2-2 釷歸一化校正岩性影響的結果

圖7-2-2為任丘雙河油田,兩條測線(1100線和11010線)。用釷歸一化法,消除岩性影響的結果。油田邊界高值和油田上方低值,除鉀11010線外都比較明顯清晰。與已知油田邊界基本一致。

3. 數據清理的簡介

該進程必須解決不正確的用來自多個聯機事務處理(OLTP) 系統的數據生成數據倉庫進程的一部分。拼寫、兩個系統之間沖突的拼寫規則和沖突的數據(如對於相同的部分具有兩個編號)之類的錯誤。
編碼或把資料錄入時的錯誤,會威脅到測量的效度。數據清理主要解決數據文件建立中的人為誤差,以及數據文件中一些對統計分析結果影響較大的特殊數值。常用的數據清理方法包括可編碼式清理和聯列式清理。
數據清理是一個過程,它包括兩步:第一步是偏差檢驗,第二步是數據變換。同時這兩步迭代進行。

4. 《數據挖掘中常用的數據清洗方法有哪些

對於數據挖掘來說,80%的工作都花在數據准備上面,而數據准備,80%的時間又花在數據清洗上,而數據清洗的工作,80%又花在選擇若干種適當高效的方法上。

5. 常用的數據凈化方法

鼠尾草煙熏凈化法

圖片來源於網路
鼠尾草的煙熏凈化法,實在是我的大愛。鼠尾草是許多儀式中的一種神聖元素。無論是在進行魔法儀式,開牌儀式,塔羅占卜、冥想之前,水晶,日常的空間凈化...我幾乎都會用到鼠尾草來進行凈化。同時鼠尾草也可以用來做茶喝或是用來製作精油。當然還有用鼠尾草、雪松、薰衣草等凈化類草葯手工製作而成的草葯棒。利用點燃後的煙霧把負能量帶走空間區域或是物品本身。用鼠尾草的煙熏來凈化,是非常快速而有效的方法。

圖片來源於網路
鼠尾草煙熏凈化使用方法

1、在開始鼠尾草煙熏凈化前,把門窗關好,然後點燃鼠尾草,把它放在一個貝殼或防火防燙的容器里(因為在燃燒的過程中會產生灰燼)。

2、讓它的明火自然滅火,不要用嘴吹熄,我們主要是利用鼠尾草的煙來進行空間的凈化。

3、使用者首先凈化自身的能量。

4、然後在從入戶門處開始順時針方向繞著房間凈化。注意要關掉風扇或是空調,風扇的風有可能會把灰燼吹得到處都是。

5、把鼠尾草的煙霧帶入整個房屋裡,特別要注意是一些陰暗的角落可以讓煙熏久一點。如果室內空氣流通得好,你走動,基本上煙也會跟著流動。某些角落也是可以利用一根羽毛,把煙輕輕扇過去。

個人使用心得:衣櫃也是可以煙熏的,不過你的衣服上可能會留下鼠尾草的氣味,視情況而定吧,也可以用別的凈化方式代替。
6、最後,最重要的一步是,當你把鼠尾草的煙帶到房屋的每個角落後,讓這股煙停留在室內8-10分鍾(視情況而定時長),然後把窗戶打開,讓煙霧帶走這些負能量流出窗外。

7、同時,灰燼的處理,把它們裝起來,當天就扔掉或是把它們沖到馬桶里。因為灰燼也吸附了負能量了,不要留它們過夜。

圖片來源網路
通常你在市面上買到的鼠尾草可以作凈化來用。

不過題外話,小知識,墨西哥鼠尾草是有致幻性,被禁止的。

要注意的是,燒鼠尾草也要看看同屋的人能不能聞鼠尾草這個味。因為鼠尾草的味道很特別,有些人是特別喜歡這個味道的,有些人是對這個味不喜歡或是敏感的。所以如果你是居住在大家庭里,也要顧及其他人的情況。

另外,鼠尾草不能燒太多,會上頭。第一次使用鼠尾草凈化需要用足量,之後減少用量。一般情況20平的空間,20-30g可以了,太多也浪費。當然如果你覺得空間負能量實在太多,可以一把一把的土豪燒。

二、魔法蠟燭火焰凈化法

我在使用魔法蠟燭的火焰凈化
用帶有凈化功效的魔法蠟燭來進行能量的凈化,也是我的最愛之一。

因為魔法蠟燭自身就具備了土、火、風、水四大元素。另外再有 精神 這個第五元素的注入。讓火焰的光和熱驅散和燃燒任何積聚的負能量。

通常在進行任何儀式前或者是點燃其他功效的魔法蠟燭,使用帶有凈化功效的魔法蠟燭,把周圍的能量先進行凈化,再來開啟,效果會大大增加。

進行儀式或是放咒語時,你也可以在你的儀式空間東南西北四個角落裡點燃蠟燭,幫助你建立神聖空間。

手工製作的《三倍能量凈化&補充能量》靈氣魔法蠟燭
對於能量工作者來說,及時清理凈化自身及周圍的能量太重要了,無論是滿月凈化儀式還是日常凈化,我都超愛點燃這款紅色莉莉周手工製作的《三倍能量凈化&補充能量》靈氣魔法蠟燭。它不僅有凈化能量的功效,同時也協助你補充能量。提升你周圍的能量空間。同時也可以提升你的直覺力和占卜力。

6. 常用數據分析處理方法有哪些

1、漏斗分析法


漏斗分析法能夠科學反映用戶行為狀態,以及從起點到終點各階段用戶轉化率情況,是一種重要的分析模型。漏斗分析模型已經廣泛應用於網站和APP的用戶行為分析中,例如流量監控、CRM系統、SEO優化、產品營銷和銷售等日常數據運營與數據分析工作中。


2、留存分析法


留存分析法是一種用來分析用戶參與情況和活躍程度的分析模型,考察進行初始行為的用戶中,有多少人會進行後續行為。從用戶的角度來說,留存率越高就說明這個產品對用戶的核心需求也把握的越好,轉化成產品的活躍用戶也會更多,最終能幫助公司更好的盈利。


3、分組分析法


分組分析法是根據數據分析對象的特徵,按照一定的標志(指標),把數據分析對象劃分為不同的部分和類型來進行研究,以揭示其內在的聯系和規律性。


4、矩陣分析法


矩陣分析法是指根據事物(如產品、服務等)的兩個重要屬性(指標)作為分析的依據,進行分類關聯分析,找出解決問題的一種分析方法,也稱為矩陣關聯分析法,簡稱矩陣分析法。

7. 常用數據分析與處理方法

一、漏斗分析法:漏斗分析法能夠科學反映用戶行為狀態,以及從起點到終點各階段用戶轉化率情況,是一種重要的分析模型。漏斗分析模型已經廣泛應用於網站和APP的用戶行為分析中,例如流量監控、CRM系統、SEO優化、產品營銷和銷售等日常數據運營與數據分析工作中
二、留存分析法:留存分析法是一種用來分析用戶參與情況和活躍程度的分析模型,考察進行初始行為的用戶中,有多少人會進行後續行為。從用戶的角度來說,留存率越高就說明這個產品對用戶的核心需求也把握的越好,轉化成產品的活躍用戶也會更多,最終能幫助公司更好的盈利。
三、分組分析法:分組分析法是根據數據分析對象的特徵,按照一定的標志(指標),把數據分析對象劃分為不同的部分和類型來進行研究,以揭示其內在的聯系和規律性。
四、矩陣分析法:矩陣分析法是指根據事物(如產品、服務等)的兩個重要屬性(指標)作為分析的依據,進行分類關聯分析,找出解決問題的一種分析方法,也稱為矩陣關聯分析法,簡稱矩陣分析法。

8. 數據清理三種方法

相信很多手機用戶都知道手機中有一個文件管理APP,是系統自帶的一個管理手機存儲空間的程序。對於經常用手機存放文件的用戶來說,自帶的文件管理APP實在是太簡陋了,支持的文件太少,很多文件操作都不能完成,不能像電腦上操作文件一樣方便。

打開網路APP,查看更多高清圖片
經常和手機、電腦打交道的朋友應該都知道,手機儲存空間逐年增加,從最初的幾百兆、利用外部存儲卡,到現在的16G、32G、64G乃至256GB的空間,不僅存儲空間增加了,內部存儲的讀取速度也增加了,很多手機完全可以和U盤相媲美。我們有把手機存儲空間利用起來的硬性需求,所以我們也需要一個功能更好、更強大的文件瀏覽器。
於是,功能強大的ES文件瀏覽器應時而生。

ES文件瀏覽器圖標

早期版本的ES文件瀏覽器
初遇
ES文件瀏覽器很早就出現了。自筆者13年使用智能手機開始,因為當時需要對手機內部存儲空間中的文件進行修改,所以需要一個能夠方便修改的文件瀏覽器,當時就在應用商店中找到了ES文件瀏覽器,那個時候的ES文件瀏覽器已經很強大了。

ES文件瀏覽器能幹嘛
先來說說筆者最常用的功能。
1解壓縮文件
因為和編程打交道,所以需要經常下載一些資料,其中有很多壓縮包,電腦不方便的時候,用手機下載,需要能夠查看壓縮包中的文件,系統自帶的文件管理器不能解壓,而ES文件瀏覽器支持多種格式的壓縮包,使用起來特別方便,和電腦上的操作差不多。

2獲取root許可權、修改文件許可權、刪除系統自帶APP
剛開始使用智能手機的時候,安卓系統版本還是4.0左右,手機廠商也沒有對安卓系統進行深度定製,那個時候喜歡自己刪除系統中卸載不掉的第三方APP,手機獲取root許可權之後,ES文件瀏覽器能夠請求系統root許可權,然後進入到安卓系統的根目錄的文件夾中去刪除自帶的APP。
也可以將第三方APP作為系統應用程序使用,使第三方APP無法被卸載,只需要將第三方APP放到系統安裝APP的目錄下面,重啟手機,第三方APP即可變成手機自帶APP,無法卸載。記得當時將喜歡的第三方游戲放了進去。當然,這種操作是有風險的,刪除了系統核心應用程序,系統就會壞掉,就要刷機才能修復。

3登錄雲盤,管理雲端文件
ES文件瀏覽器支持多種雲盤賬號登錄,登錄賬號之後可以直接在ES文件瀏覽器中管理雲盤中的文件。不知道雲盤、網盤是什麼的讀者可以參考這篇文章:網路網盤是什麼?網路網盤為什麼不佔用手機內存?
ES文件瀏覽器也可以實現網盤文件的下載和上傳,而且速度和下載了網盤APP一樣快。

4簡單的文件編輯
有時候需要編輯文件夾中的某些文件,而又不想將文件拷貝到電腦上修改,ES文件瀏覽器可以將文件以文本文件的方式進行編輯,省去了不少麻煩。
5ftp管理
ES文件瀏覽器支持添加ftp伺服器,類似網盤一樣,可以在手機上訪問ftp服務。
6在電腦上無線管理手機中的文件
有時候沒有數據線和網路,卻要將手機中的文件拷貝到電腦上,怎麼辦呢?ES文件瀏覽器可以解決。在ES文件瀏覽器「網路」菜單中有一個「從PC訪問」,打開功能後,按照提示,就可以在電腦的文件管理中無線訪問到手機上的文件。
功能太多,筆者經常用到的就是這些,因篇幅有限,還有很多強大的功能沒有說明,有需求的朋友一定要親自下載試試。
舉報/反饋

閱讀全文

與常用的數據清理方法相關的資料

熱點內容
碩士學位論文研究方法 瀏覽:840
臭蟲卵怎麼消滅最簡單方法 瀏覽:95
如何做到早起不賴床最有效的方法 瀏覽:452
藤三七種植方法 瀏覽:981
伺服器系統防火牆設置在哪裡設置方法 瀏覽:61
稀酸的檢測方法 瀏覽:209
ug清跟刀路斷解決方法 瀏覽:134
蘋果高清通話在哪裡設置方法 瀏覽:725
交易和技術分析方法 瀏覽:843
凱恩斯的分析方法 瀏覽:147
檸檬粉的食用方法 瀏覽:423
我國常用的hiv抗體檢測方法不包括 瀏覽:684
辟穀修復最簡單的方法 瀏覽:852
錯誤1053解決方法 瀏覽:744
陽痿早泄鍛煉方法圖解 瀏覽:277
計算方法的教學 瀏覽:481
燈泡測量電流方法 瀏覽:734
客廳做波打線的方法技巧 瀏覽:585
網路宣傳推廣方法有哪些 瀏覽:449
學習率優化方法有哪些 瀏覽:276