1. 異常點檢測方法
一、基本概念
異常對象被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。
常見的異常成因:數據來源於不同的類(異常對象來自於一個與大多數數據對象源(類)不同的源(類)的思想),自然變異,以及數據測量或收集誤差。
異常檢測的方法:
(1)基於模型的技術:首先建立一個數據模型,異常是那些同模型不能完美擬合的對象;如果模型是簇的集合,則異常是不顯著屬於任何簇的對象;在使用回歸模型時,異常是相對遠離預測值的對象。
(2)基於鄰近度的技術:通常可以在對象之間定義鄰近性度量,異常對象是那些遠離其他對象的對象。
(3)基於密度的技術:僅當一個點的局部密度顯著低於它的大部分近鄰時才將其分類為離群點。
二、異常點檢測的方法
1、統計方法檢測離群點
統計學方法是基於模型的方法,即為數據創建一個模型,並且根據對象擬合模型的情況來評估它們。大部分用於離群點檢測的統計學方法都是構建一個概率分布模型,並考慮對象有多大可能符合該模型。離群點的概率定義:離群點是一個對象,關於數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什麼分布,如果估計錯誤就造成了重尾分布。異常檢測的混合模型方法:對於異常檢測,數據用兩個分布的混合模型建模,一個分布為普通數據,而另一個為離群點。
聚類和異常檢測目標都是估計分布的參數,以最大化數據的總似然(概率)。聚類時,使用EM演算法估計每個概率分布的參數。然而,這里提供的異常檢測技術使用一種更簡單的方法。初始時將所有對象放入普通對象集,而異常對象集為空。然後,用一個迭代過程將對象從普通集轉移到異常集,只要該轉移能提高數據的總似然(其實等價於把在正常對象的分布下具有低概率的對象分類為離群點)。(假設異常對象屬於均勻分布)。異常對象由這樣一些對象組成,這些對象在均勻分布下比在正常分布下具有顯著較高的概率。
優缺點:(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;(2)對於多元數據,可用的選擇少一些,並且對於高維數據,這些檢測可能性很差。
2、基於鄰近度的離群點檢測。
一個對象是異常的,如果它遠離大部分點。這種方法比統計學方法更一般、更容易使用,因為確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。一個對象的離群點得分由到它的k-最近鄰的距離給定。離群點得分對k的取值高度敏感。如果k太小(例如1),則少量的鄰近離群點可能導致較低的離群點得分;如果k太大,則點數少於k的簇中所有的對象可能都成了離群點。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。
優缺點:(1)簡單;(2)缺點:基於鄰近度的方法需要O(m^2)時間,大數據集不適用;(3)該方法對參數的選擇也是敏感的;(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。
3、基於密度的離群點檢測。
從基於密度的觀點來說,離群點是在低密度區域中的對象。一個對象的離群點得分是該對象周圍密度的逆。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類演算法使用的密度定義,即一個對象周圍的密度等於該對象指定距離d內對象的個數。需要小心的選擇d,如果d太小,則許多正常點可能具有低密度,從而具有高離群點得分。如果d太大,則許多離群點可能具有與正常點類似的密度(和離群點得分)。使用任何密度定義檢測離群點具有與基於鄰近度的離群點方案類似的特點和局限性。特殊地,當數據包含不同密度的區域時,它們不能正確的識別離群點。
為了正確的識別這種數據集中的離群點,我們需要與對象鄰域相關的密度概念,也就是定義相對密度。常見的有兩種方法:(1)使用基於SNN密度的聚類演算法使用的方法;(2)用點x的密度與它的最近鄰y的平均密度之比作為相對密度。
使用相對密度的離群點檢測(局部離群點要素LOF技術):首先,對於指定的近鄰個數(k),基於對象的最近鄰計算對象的密度density(x,k) ,由此計算每個對象的離群點得分;然後,計算點的鄰近平均密度,並使用它們計算點的平均相對密度。這個量指示x是否在比它的近鄰更稠密或更稀疏的鄰域內,並取作x的離群點得分(這個是建立在上面的離群點得分基礎上的)。
優缺點:
(1)給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理;
(2)與基於距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對於低維數據使用特定的數據結構可以達到O(mlogm);
(3)參數選擇是困難的。雖然LOF演算法通過觀察不同的k值,然後取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。
4、基於聚類的技術
一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇。這個方法可以和其他任何聚類技術一起使用,但是需要最小簇大小和小簇與其他簇之間距離的閾值。這種方案對簇個數的選擇高度敏感。使用這個方案很難將離群點得分附加到對象上。一種更系統的方法,首先聚類所有對象,然後評估對象屬於簇的程度(離群點得分)(基於原型的聚類可用離中心點的距離來評估,對具有目標函數的聚類技術該得分反映刪除對象後目標函數的改進(這個可能是計算密集的))。基於聚類的離群點:一個對象是基於聚類的離群點,如果該對象不強屬於任何簇。離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在一個問題:結構是否有效。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。還有一種更復雜的方法:取一組不能很好的擬合任何簇的特殊對象,這組對象代表潛在的離群點。隨著聚類過程的進展,簇在變化。不再強屬於任何簇的對象被添加到潛在的離群點集合;而當前在該集合中的對象被測試,如果它現在強屬於一個簇,就可以將它從潛在的離群點集合中移除。聚類過程結束時還留在該集合中的點被分類為離群點(這種方法也不能保證產生最優解,甚至不比前面的簡單演算法好,在使用相對距離計算離群點得分時,這個問題特別嚴重)。
對象是否被認為是離群點可能依賴於簇的個數(如k很大時的雜訊簇)。該問題也沒有簡單的答案。一種策略是對於不同的簇個數重復該分析。另一種方法是找出大量小簇,其想法是(1)較小的簇傾向於更加凝聚,(2)如果存在大量小簇時一個對象是離群點,則它多半是一個真正的離群點。不利的一面是一組離群點可能形成小簇而逃避檢測。
優缺點:
(1)基於線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;
(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;
(3) 產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;
(4)聚類演算法產生的簇的質量對該演算法產生的離群點的質量影響非常大。
新穎性和離群值檢測
離群值檢測:訓練數據包含離群值,即與其他觀測值相距甚遠的觀測值。離群檢測估計器會嘗試擬合訓練數據最集中的區域,忽略異常觀察。
新穎性檢測:訓練數據不受異常值的污染,有興趣檢測新觀察值是否是異常值。該情況下離群值也稱為新穎性。
離群值檢測和新穎性檢測均用於異常檢測,離群值檢測稱為無監督異常檢測,新穎性檢測稱為半監督異常檢測。離群值檢測的情況下,離群值/異常不能形成密集的群集,可假設離群值/異常位於低密度區域;新穎性檢測的情況下,只要新穎性/異常位於訓練數據的低密度區域,就可以形成密集的簇。
通過對玩具數據集進行異常檢測比較異常檢測演算法
數據集中包含一種或兩種模式(高密度區域),以說明演算法處理多模式數據的能力。
對於每個數據集,將生成15%的樣本作為隨機均勻雜訊。該比例是OneClassSVM的nu參數和其他異常值檢測演算法的污染參數提供的值。離群值之間的決策邊界以黑色顯示,但是LOF除外,因為當採用LOF用於離群值檢測時,沒有適用於新數據的預測方法。
OneClassSVM對異常值敏感,對異常值檢測執行的不好。當訓練集不受異常值污染時,此估計器最適合新穎性檢測。即不適用在高維中進行離群值檢測或者不對基礎數據的分布進行任何假設,OneClassSVM在這些情況下可能會根據其超參數給出有用的結果。
covariance EllipticEnvelope(協方差橢圓密度)假定數據是高斯分布並學習一個橢圓。在數據不是單峰時,會退化。此估計器對異常值具有魯棒性。
IsolationFrorest和LocalOutlierFactor針對多模式數據集效果顯著。LOF針對第三種數據集,明顯優於其它三種估計器,該數據集中兩種模式的密度不同。LOF的局部方面,即它僅將一個樣本的異常評分與其鄰居評分作比較,從何體現了該方法的優勢。
針對最後一個均勻分布在超立方體中的數據集,很難說一個樣本比另一個樣本異常得多。除了OneClassSVM有些過擬合外,所有估計器都針對該情況提出不錯的解決方案。針對這種情況,應該仔細觀察樣本的異常分數,性能好的估算器應該為所有樣本分配相似的分數。
使用局部離群因子(LOF)進行離群值檢測
LOF演算法是一種無監督的異常檢測方法,可計算給定數據點相對於其鄰居的局部密度偏差。其中密度遠低於其鄰居的樣本為異常值。
LOF演算法的優勢在於同時考慮了數據集的局部和全局屬性:即使在異常樣本具有不同底層密度的數據集中,仍能保持良好性能。問題不在於樣本有多孤立,而在於樣本相對於周圍鄰域有多孤立。
通常考慮的鄰居數量(1)大於群集必須包含的最小樣本數量,以便其他樣本可以是相對於該群集的局部離散值;(2)小於可能是局部異常值的最大進距采樣數,此類消息通常不可用,採用n_neighbors=20。
具有局部異常值的新穎性檢驗
LOF是一種無監督的異常檢測方法,可計算給定數據點相對於其鄰居的局部密度偏差,密度遠低於其鄰居的樣本為異常值。LOF用於新穎性檢驗時,切勿在訓練集上使用預測、決定函數、實例得分,會導致結果錯誤。只能對新的看不見的數據(不在訓練集中)使用這些方法。
通常考慮鄰居數量(1)大於群集必須包含的最小樣本數,以便其他樣本可以是相對於該群集的局部離群值;(2)小於可能是局部異常值的最大進距采樣數,此類消息通常不可用,採用n_neighbors=20。
隔離林
在高維數據集中執行異常檢測的一種有效方法是使用隨機森林,分離的觀察通過隨機選擇一個函數,隨機選擇所選擇的特徵的最大值和最小值之間的分割值。遞歸分區可用樹結構表示,隔離樣本所需的拆分數量等於從根節點到終止結點的路徑長度。隨機樹的森林中的平均路徑長度是對正態性和決策函數的度量。隨機分區產生的異常路徑明顯較短,因此如果隨機樹森林為特定樣本生成的較短路徑,則該樹代表的值很可能是異常的。
OneClassSVM
無監督的離群值檢測,支持高維分布,基於libsvm
不假定數據分布的任何參數形式,可以更好的對數據的復雜形狀進行建模,能夠捕獲真實的數據結構,難點在於調整核函數寬度參數,以便在數據散布矩陣的形狀和數據過度擬合的風險間取得折中。
協方差橢圓密度
用於檢測高斯分布數據集中的異常值的對象
經驗協方差估計(作為非穩健估計)受到觀測值異質結構的高度影響;魯棒協方差估計能夠集中於數據分布的主要模式,但是它堅持假設數據是高斯分布,產生了對數據結構的某些估計,在一定程度上是准確的。
HBOS單維效果極佳,但是標准差方法的mask 掩碼效應嚴重。例如 數據通常在100以內,但是有兩個異常點,500,1000000。這個演算法就不能檢出500這個異常點。
對比而言,孤立森林理論上更適合大數據的異常檢測,且無掩碼效應。孤立森林確定異常時訓練只用樣本數據。每顆樹樣本數量默認只有256個,默認只用100顆樹。所以理論上25600個樣本就能確定海量數據中的異常點了。
Sklearn的 isolation forest 例子默認是讀入全量數據再采樣。如果配上warm up 選項就能分批放入采樣。
異常檢測的深度學習研究綜述
2. 立體聲音響測試方法技巧
立體聲音響測試方法技巧
音箱在房間中的擺放位置,對音箱的低頻通常有影響。所以,在檢查音箱的擺位時,要特別注意音箱的低頻。下面是我為大家分享立體聲音響測試方法技巧,歡迎大家閱讀瀏覽。
1. 主音箱的相位校準
(a) 播放測試CD上的第45~49軌,它們是左右聲道的粉紅雜訊信號,先是同相播放5秒(s),而後是反相播放5秒(s),最後再同相播放5秒(s)。
(b) 使用你的耳朵進行相位的判斷。首先需要保證你坐在聽音點上,如果信號同相,你會聽到更多的低頻信號,而聲音也是來源於揚聲器間的一個固定點。如果信號反相,聲像將失去低頻,聲像變散,指向性的信息變得模糊起來。
也可以使用RTA軟體進行相位的測定。
2. 檢查音箱的擺放位置
(a) 音箱在房間中的擺放位置,對音箱的低頻通常有影響。所以,在檢查音箱的擺位時,要特別注意音箱的低頻。
(b) 我們使用測試CD中的第31~39軌的低頻掃頻信號,進行音箱擺位的檢查。
(c) 在掃頻的過程中,你會聽到“滴”的聲音,這是在告訴你信號正在經過某一個ISO的中心頻率。連續兩次“滴”聲,表示信號正在經過一個倍頻程的中心頻率,而一次“滴”聲則表示正在經過1/3倍頻程的中心頻率。
(d) 每次僅使用1隻揚聲器播放信號。
(e) 用你的耳朵聆聽,如果擺位合適,沒有任何的頻率染色,你將聽到音調平滑地逐漸升高(請記住,人耳的頻率響應不是平直的)。如果有某些頻率相對於其他頻率點被加強或者衰減,請記下大致的頻率范圍。這個頻率點應恰好在你所選的`主音箱和低頻音箱的分頻點之上。
(f) 如果實在找不到合適的放置位置,你可以考慮對房間的聲學條件進行改善。如果有前級處理設備,也可以考慮通過均衡來獲得一個更加平滑的頻率響應。但是記住:均衡永遠不可能彌補不佳的聲學條件。
(g) 如果你進行了均衡調整,請在15分鍾(min)以後,重新回來,聆聽你熟悉的音樂。這時,從音箱里獲得的第一印象非常重要,因為長時間的聆聽會讓感受到的音色發生變化。確保第一印象是你所需要的聲音。
3. 校準主音箱
(a) 校準音箱是為了保證,在輸入相同信號的條件下,每隻音箱在聽音點都以相同的聲壓級回放。一旦校準完成,請在前級處鎖定輸入信號電平。
(b) 把總音量旋鈕置於通常設定的位置上。
(c) 播放第12或23軌,這是500Hz~2kHz的帶通粉紅雜訊。每次只測量一隻音箱。使用聲級計在聽音點,分別測量兩只音箱播放的聲音在該處的聲壓級,調整每隻音箱的增益,使兩只音箱的聲壓級相同。
( d) 注意,在測量聲壓的時候,請在聲壓計或軟體中選擇C計權。
(e) 如果是為音頻製作所進行的揚聲器校準,請將-20dBFS的粉紅雜訊輸入,校準至以下聲壓級:
電影 83dB(C) 電視 78dB(C) 音樂 78~93dB(C)
如果有低音音箱(Subwoofer),請繼續進行以下步驟。
4. 檢查低音音箱的擺位
(a) 我們使用測試CD中的第31~39軌的低頻掃頻信號,進行音箱擺位的檢查。
(b) 在掃頻的過程中,你會聽到“滴”的聲音,這是在告訴你信號正在經過某一個ISO的中心頻率。連續兩次“滴”聲,表示信號正在經過一個倍頻程的中心頻率,而一次“滴”聲則表示正在經過1/3倍頻程的中心頻率。
(c) 每次僅使用低音揚聲器播放信號,將其他音箱靜音。
(d) 用你的耳朵聆聽,如果擺位合適,沒有任何的頻率染色,你將聽到音調平滑地逐漸升高(請記住,人耳的頻率響應不是平直的)。如果有某些頻率相對於其他頻率點被加強或者衰減,請記下大致的頻率范圍,並對低音音箱的位置進行調整。如果使用聲級計進行測定,請將計權撥至LIN檔,如果聲級計沒有LIN選項,則選擇C計權。
5. 檢查分頻點以及低音音箱的增益
(a) 打開所有的音箱以及功放的低頻管理功能。但每次只測試一個聲道。從左聲道開始。
(b) 播放CD中的低頻掃頻信號(31~42軌),聆聽頻率響應,或是使用聲級計/RTA軟體進行測量。如果使用RTA軟體,可以播放全頻段的粉紅雜訊,並使用頻譜分析儀進行觀察,調整低音音箱的增益,使分頻點兩邊的響應一致。
(c) 如果分頻點不合適,請到功放中改選合適的分頻點。
(d) 檢查完一個聲道,再檢查下一個聲道。最後兩個聲道同時校準。
6. 相位檢查
(a) 本項檢查是要保證低音音箱的相位與主音箱一致。
(b) 打開所有的音箱以及低頻管理。播放CD中第46軌。該測試信號為20~200Hz帶通粉紅雜訊,以同相、反相、同相的順序播放。
(c) 如果反相,你會感覺到低頻缺失,響度變弱。如果同相,則聲音飽滿。請注意粉紅雜訊的次序。
;