㈠ 進行空氣質量常規監測時,怎樣結合監測區域實際情況,選擇和優化布點方法
(1)功能區布點法:多用於區域性的常規監測,布點方法:先將監測區域劃分成工業區、商業區、居住區、工業和居住混合區、交通不同功能區。再按功能區的地形、氣象、人口密度、建築密度等,在每個功能區設若干采樣點。(2)網格布點法:多用於有多個污染源,並且污染物分析較為均勻的地區。布點方法:將檢測區域地面劃分成若干均勻網狀方格,采樣點設在兩條直線的交點處或網格中心。能較好的反映污染物的空間分布規律。(3)同心圓布點法:主要用於多個污染源構成污染群,且大污染源比較集中的地區。布點方法:先找出污染源中心,以此為圓心畫同心圓,再從圓心列出若干條放射線,將射線與圓的交叉點作為采樣點。(4)扇形布點法:適用於孤立的高架點源,且主導風向明顯的地區。布點方法:以點源所在位置有頂點,主導風向為軸線,在下風向地面上劃出一個扇區形作為布點范圍。扇區的角度要控制在45-90度,一般為45度。采樣點設在扇形平面內距點源不同距離的若干弧線上。每條弧線上設3-4個采樣點,相鄰兩點與頂點連線的夾角一般取10-20度。在上風向應設對照點。
㈡ 對於異常值的檢測
離群點,是一個數據對象,它顯著不同於其他數據對象,與其他數據分布有較為顯著的不同。有時也稱非離群點為「正常數據」,離群點為「異常數據」。
離群點跟雜訊數據不一樣,雜訊是被觀測變數的隨機誤差或方差。一般而言,雜訊在數據分析(包括離群點分析)中不是令人感興趣的,需要在數據預處理中剔除的,減少對後續模型預估的影響,增加精度。
離群點檢測是有意義的,因為懷疑產生它們的分布不同於產生其他數據的分布。因此,在離群點檢測時,重要的是搞清楚是哪種外力產生的離群點。
常見的異常成因:
通常,在其餘數據上做各種假設,並且證明檢測到的離群點顯著違反了這些假設。如統計學中的假設檢驗,基於小概率原理,對原假設進行判斷。一般檢測離群點,是人工進行篩選,剔除不可信的數據,例如對於房屋數據,面積上萬,卧室數量過百等情況。而在面對大量的數據時,人工方法耗時耗力,因此,才有如下的方法進行離群點檢測。
統計學方法是基於模型的方法,即為數據創建一個模型,並且根據對象擬合模型的情況來評估它們。大部分用於離群點檢測的統計學方法都是構建一個概率分布模型,並考慮對象有多大可能符合該模型。
離群點的概率定義:離群點是一個對象,關於數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什麼分布,如果估計錯誤就造成了重尾分布。
a. 參數法:
當數據服從正太分布的假設時在正態分布的假定下,u±3σ區域包含99.7%的數據,u±2σ包含95.4%的數據,u±1σ包含68.3%的數據。其區域外的數據視為離群點。
當數據是非正態分布時,可以使用切比雪夫不等式,它對任何分布形狀的數據都適用。根據 切比雪夫不等式 ,至少有(1-1/k 2 )的數據落在±k個標准差之內。所以,有以下結論:
計算得到:通過繪制箱線圖可以直觀地找到離群點,或者通過計算四分位數極差(IQR)定義為Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何對象都視為離群點,因為Q1-1.5IQR和Q3+1.5IQR之間的區域包含了99.3%的對象。
涉及兩個或多個橡信屬性或變數的數據稱為多元數據。核心思想是把多元離群點檢測任務轉換成一元離群點檢測問題。
- 卡方統計量的多元離群點檢測 :正態分布的假定下,卡方統計量也可以用來捕獲多元離群點,對象 ,卡方統計量是: , 是 在第i維上的值, 是所有對象在第i維上的均值,而n是維度。如果對象的卡方統計量很大,則該對象是離群點。
b. 非參數法:
構造直方圖
為了構造一個好的直方圖,用戶必須指定直方圖的類型和其他參數(箱數、等寬or等深)。最簡單的方法是,如果該對象落入直方圖的一個箱中,則該對象被看做正常的,否則被認為是離群點。也可以使用直方圖賦予每個對象一個離群點得分,比如對象的離群點得分為該對象落入的箱的容積的倒數。但這個方法敬洞很難選擇一個較好的直方圖參數。
注意 :
傳統的觀點都認為孤立點是一個單獨的點,然而很多的現實情況是異常事件具有一定的時間和空間的局部性,這種局部性會產生一個小的簇.這時候離群點(孤立點)實際上是一個小簇(圖下圖的C1和C3)。
一個對象是異常的,如果它遠離大部分點。這種方法比統計學方法更一般、更容易使用,因為確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。不依賴統計檢驗,將基於鄰近度的離群點看作是那些沒有「足夠多「鄰居的對象。這里的鄰居是用 鄰近度(距離) 來定義的。最常用的距離是絕對距離(曼哈頓)和歐氏距離等等。
一個對象的離群點得分由到它的k-最近鄰的距離給定。離群點得分對k的取值高度敏感。如果k太小,則少量的鄰近離群點可能導致離群點較少;如果K太大,則點數少於k的簇中所有的對象可能都成了離群點,導致離群點過多。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
從基於密度梁稿輪的觀點來說,離群點是在低密度區域中的對象。一個對象的離群點得分是該對象周圍密度的逆。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。
定義密度
一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數 。如果該距離小,則密度高,反之亦然。
另一種密度定義是使用DBSCAN聚類演算法使用的密度定義,即一個對象周圍的密度等於該對象指定距離d內對象的個數。 需要小心的選擇d,如果d太小,則許多正常點可能具有低密度,從而離群點較多。如果d太大,則許多離群點可能具有與正常點類似的密度(和離群點得分)無法區分。 使用任何密度定義檢測離群點具有與基於鄰近度的離群點方案類似的特點和局限性。特殊地,當數據包含不同密度的區域時,它們不能正確的識別離群點。
定義相對密度
為了正確的識別這種數據集中的離群點,我們需要與對象鄰域相關的密度概念,也就是定義相對密度。常見的有兩種方法:
(1)使用基於SNN密度的聚類演算法使用的方法;
(2)用點x的密度與它的最近鄰y的平均密度之比作為相對密度。使用相對密度的離群點檢測( 局部離群點要素LOF技術 ):
一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇。這個方法可以和其他任何聚類技術一起使用,但是需要最小簇大小和小簇與其他簇之間距離的閾值。這種方案對簇個數的選擇高度敏感。使用這個方案很難將離群點得分附加到對象上。
一種更系統的方法,首先聚類所有的點,對某個待測點評估它屬於某一簇的程度。(基於原型的聚類可用離中心點的距離來評估,對具有目標函數(例如kmeans法時的簇的誤差平方和)的聚類技術,該得分反映刪除對象後目標函數的改進),如果刪去此點能顯著地改善此項目標函數,則可以將該點定位為孤立點。
基於聚類的離群點:一個對象是基於聚類的離群點,如果該對象不強屬於任何簇。離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在一個問題:結構是否有效。為了處理該問題,可以使用如下方法:
對象是否被認為是離群點可能依賴於簇的個數(如k很大時的雜訊簇)。該問題也沒有簡單的答案。一種策略是對於不同的簇個數重復該分析。另一種方法是找出大量小簇,其想法是(1)較小的簇傾向於更加凝聚,(2)如果存在大量小簇時一個對象是離群點,則它多半是一個真正的離群點。不利的一面是一組離群點可能形成小簇而逃避檢測。
根據已有訓練集檢測新樣本是否異常
異常檢測根據原始數據集的不同可分為兩類:
novelty detection: 訓練集中沒有異常樣本
outlier detection: 訓練集中有異常樣本
異常樣本:
數量少,比較分散
novelty detection和outlier detection的區別:
Sklearn異常檢測模型一覽
5.1 奇異點檢測(Novelty Detection)
奇異點檢測,就是判斷待測樣本到底是不是在原來數據的概率分布內。概率學上認為,所有的數據都有它的隱藏的分布模式,這種分布模式可以由概率模型來具象化。
5.1 離群點檢測(Outlier Detection)
不同與奇異點檢測是,現在我們沒有一個干凈的訓練集(訓練集中也有雜訊樣本)。下面介紹的三種離群點檢測演算法其實也都可以用於奇異點檢測。
如果我們認為,可達密度小的目標樣本點就是異常點,這樣未嘗不可。但是,LOF演算法更進一步。
LOF可以用來判斷經緯度的異常。
使用python進行異常值(outlier)檢測實戰:KMeans + PCA + IsolationForest + SVM + EllipticEnvelope
文章引用: 數據挖掘:數據清洗——異常值處理