① 基於無監督生成模型的圖像異常定位方法研究
摘要 親親,我們目前這邊查詢到的資料是異常檢測,簡單地說就是讓學習到的模型能夠區分開正常樣本和異常樣本。比如在醫學領域,根據CT影像學習的癌症檢測模型也可以說是異常檢測,正常樣本就是正常人地CT影像,異常樣本就是癌症患者的CT影像。再比如在智能監控領域,要求模型能夠檢測高速公路上出現的影響通行的阻擋物,那麼這也是異常檢測。總之,異常檢測就是根據任務的需求定義好正常樣本(比如正常人的CT影響,干凈的路面),並 在測試階段能夠檢測出異常樣本(可疑的癌症患者,公路上的阻礙物)。
② 樣本量的計算公式
(1)重復抽樣方式下:n為樣本容量、d為抽樣誤差范圍、σ為標准差,一般取0.5。
變數總體重復抽樣計算公式:
(2)樣本不均衡評測方法視頻擴展閱讀
合理確定樣本容量的意義:
1、樣本容量過大,會增加調查工作量,造成人力、物力、財力、時間的浪費;
2、樣本容量過小,則樣本對總體缺乏足夠的代表性,從而難以保證推算結果的精確度和可靠性;
3、樣本容量確定的科學合理,一方面,可以在既定的調查費用下,使抽樣誤差盡可能小,以保證推算的精確度和可靠性;另一方面,可以在既定的精確度和可靠性下,使調查費用盡可能少,保證抽樣推斷的最大效果。
③ 機器學習中非均衡數據集的處理方法
不管是在學術界還是工業界,不平衡學習已經吸引了越來越多的關注,不平衡數據的場景也出現在互聯網應用的方方面面,如搜索引擎的點擊預測(點擊的網頁往往占據很小的比例),電子商務領域的商品推薦(推薦的商品被購買的比例很低),信用卡欺詐檢測,網路攻擊識別等等。
問題定義
那麼什麼是不平衡數據呢?顧名思義即我們的數據集樣本類別極不均衡,以二分類問題為例,假設我們的數據集是$S$,數據集中的多數類為$S_maj$,少數類為$S_min$,通常情況下把多數類樣本的比例為$100:1$,$1000:1$,甚至是$10000:1$這種情況下為不平衡數據,不平衡數據的學習即需要在如此分布不均勻的數據集中學習到有用的信息。
為什麼不平衡學習
傳統的學習方法以降低總體分類精度為目標,將所有樣本一視同仁,同等對待,如下圖1所示,造成了分類器在多數類的分類精度較高而在少數類的分類精度很低。機器學習模型都有一個待優化的損失函數,以我們最常用最簡單的二元分類器邏輯回歸為例,其損失函數如下公式1所示,邏輯回歸以優化總體的精度為目標,不同類別的誤分類情況產生的誤差是相同的,考慮一個$500:1$的數據集,即使把所有樣本都預測為多數類其精度也能達到$500/501$之高,很顯然這並不是一個很好的學習效果,因此傳統的學習演算法在不平衡數據集中具有較大的局限性。
④ 如何提高機器學習演算法的召回率
最近在做文本分類,遇到了一些問題,想問問大家有沒有好的方法。為了節省時間,我只採取了部分數據來跑演算法(全部數據跑了之後的結果和這個差不多)
訓練集:4837 documents
測試集:2074 documents
樣本比例:正樣本:負樣本 = 1:3
預測結果中,有的演算法在正樣本中預測的精確率還行(0.95-1.00之間),但是召回率非常差,通常只有0.01和0.02左右,KNeighbors和DecisionTree的精確率和召回率都是0,只有NaiveBayes和BernoulliNB的PR和Recall比較平均,但是也沒有到0.8。
問題:我查了一下那些召回率較低(0.01)的演算法,475個樣本中(正樣本),實際上只有5個被預測正確了的,但是具體原因沒有查出來。
我想請問一下:1.召回率低是因為樣本極度不平衡造成的嗎?(雖然我認為1:3的比例不算極度不平衡。)2.在這種樣本不平衡的問題上,有沒有什麼好的方法可以提高召回率?我試過SMOTE方法(過采樣和欠采樣都有試過),但對於我的數據集並沒有什麼好的效果,不止到有沒有有什麼好的方法可以解決這個問題?謝謝!
添加評論
分享
查看全部 11 個回答
0贊同反對,不會顯示你的姓名
Elvin 全是細枝末節,做一個樂於分享的人
兩個問題一並回答一下,根據你的描述,我覺得問題應該不是出在正負樣本比上,1比3這個比例不但不是非常不均衡,相反在我看來已經是非常均衡了。以前做比賽有處理過正負比1比10000的數據,我覺得這才叫不平衡,才需要使用類似上采樣,下采樣,以及SMOTE演算法(都用過),而且這樣的情況下recall,F1等指標的提升是顯著的。我覺得正負比例在1:1至1:100間差別都不會太大,需要根據具體問題做離線交叉驗證去找到最好的比例。
所以我建議你不用再糾結正負樣本比的問題,可以再回頭看一看你的數據集,一方面看一看代碼是否有誤?數據集是否太小?(總覺得你的數據集太小,而且測試集相對於訓練集太大)另外訓練集,測試集的劃分是否正確?或者重新劃分一下訓練測試集做一下交叉驗證看一看各項指標再具體研究。
⑤ SPSS樣本不均衡會造成什麼
分類時,由於訓練集合中各樣本數量不均衡,導致模型訓偏在測試集合上的泛化性不好。解決樣本不均衡的方法主要包括兩類:(1)數據層面,修改各類別的分布;(2)分類器層面,修改訓練演算法或目標函數進行改進。還有方法是將上述兩類進行融合。
_裳?
_「奼鏡墓裳核婊裳盜費局惺勘冉仙俚氖藎蝗鋇悖菀墜夂希?
_凡裳?
_牘裳椒ㄏ嘍粵⒌氖喬凡裳椒ǎ饕且瞥萘拷隙嗬啾鷸械牟糠質蕁U飧齜椒ǖ奈侍庠謨冢_荽吹男畔⑷筆АN朔庖蝗鋇悖梢遠粢恍├啾鴇囈綺糠值氖蕁?
⑥ 樣本為什麼不能低於30
因為樣本量低於30,不具備普遍性,統計結果不科學。
一般來說,樣本的容量大的話,樣本的誤差就小。反之則大。通常樣本單位數大於30的樣本可稱為大樣本,小於30的樣本則稱為小樣本。樣本容量的大小涉及到調研中所要包括的單元數。確定樣本容量的大小是比較復雜的問題,既要有定性的考慮也要有定量的考慮。
從定性的方面考慮樣本量的大小,其考慮因素有:決策的重要性,調研的性質,變數個數,數據分析的性質,同類研究中所用的樣本量,發生率,完成率,資源限制等。具體地說,更重要的決策,需要更多的信息和更准確的信息,這就需要較大的樣本。
樣本抽樣方法的選擇:
選擇適當的抽樣方法要考慮可行性,例如一個教師要研究珠三角地區的教師職業倦怠問題,需要在珠三角的不同地區選取樣本,研究者應該考慮是否有能力獲得可靠的樣本信息。考慮抽樣的可行性也是考慮抽樣的經濟性,開展一項研究的人、財、時間是有限的。
必須考慮充分運用有限資源獲得最有價值的信息。再次,好的抽樣設計應該具有可測性,也就是說樣本提供的信息可以有效推斷出總體特徵。最適當的抽樣設計應該是既充分包含了所要研究的問題,又是可行的,研究者通過努力可以完成。
⑦ 機器學習中訓練樣本不均衡問題
機器學習中訓練樣本不均衡問題
在實際中,訓練模型用的數據並不是均衡的,在一個多分類問題中,每一類的訓練樣本並不是一樣的,反而是差距很大。比如一類10000,一類500,一類2000等。解決這個問題的做法主要有以下幾種:
欠采樣:就是把多餘的樣本去掉,保持這幾類樣本接近,在進行學習。(可能會導致過擬合)
過采樣:就是增加比較少樣本那一類的樣本數量,比如你可以收集多一些數據,或者對數據增加雜訊,如果是圖像還可以旋轉,裁剪,縮放,平移等,或者利用PCA增加一些樣本,等方法
第三種:就是直接採用不均衡數據進行訓練,可以在代價函數那裡需要增加樣本權重,用來平衡這個問題,也就是類別數量少的那一類代價就高,權重就比較大。在評價模型好壞的時候也需要考慮樣本權重問題。
⑧ 什麼是平衡忽略如何進行評定
杠桿不平衡,會直接影響結果,杠桿兩邊自身的重力和它兩邊掛的鉤碼一樣,屬於動力及阻力的一部分,只有調平衡以後,它本身的動力乘以動力臂才等於阻力乘以阻力臂,這樣才能用於實驗,所以是為了忽略自重,使它的自身重力不影響實驗結果。
給予人視覺平衡感最強的大概就是水平線了,平衡的首要前提是讓照片上的主體與地平線保持水平,且主要景物距離邊框的距離應該大致相等。
水平線明顯傾斜的照片會讓人一看就覺得不怎麼樣,就感覺像是隨手拍。
這里舉個栗子:
修正後的畫面明顯比上一張圖片看起來舒服很多,這是因為與海平面是持水平狀態,從而給整個畫面加分了不少。
(2)利用幾何圖形進行平衡構圖
善於觀察的人都會發現,日常生活中充斥著各式各樣的幾何圖案。小到布製品上的花紋,大到建築物的外觀設計,往往能帶給人們特殊的視覺感,有時若再加上特別的拍攝角度,更能讓人有別樣的感受。
上班的路上不要只顧著看手機,不妨多留心觀察四周是否存在有趣的幾何圖案,可用手機紀錄下來,再思考是否可用其他視角,甚至結合光線變化來呈現不一樣的效果。久而久之,或許就連無意間地向窗外一瞥,也能發現與眾不同的風景。
⑨ 如何解決樣本不均衡的問題
簡單。加大樣本數量就可以了。
⑩ 做差異分析的時候如果兩個組樣本量差太多,會有影響嗎
影響是肯定有的,兩組樣本量一致,誤差會更小。不一致的話,軟體分析肯定會出結果,但有沒有意義。
1、差距分析是戰略分析方法之一。對企業制定的目標與企業預期可取得的結果進行比較,或者對企業制定的目標與企業實際取得的結果進行比較,分析兩者之間是否存在差距。若存在差距,進一步分析造成差距的原因並制定措施(如改變目標、改變戰略等)減少或消除差距。
差異化分析的作用:
(1)差異分析指標可反映現象分布或發展的均衡性、穩定性和節奏性。一般來說,某現象所表現出來的差異越小,說明該現象分布或發展得越均衡;否則,該現象分布或發展得越不均衡。
(2)差異分析指標可說明平均指標的代表性大小。用平均指標來代表某種現象的一般水平時,其代表性的大小與總體各單位標志值的差異程度有直接關系。一般說來,某一總體內部的差異越小,其平均數的代表性就越大;反之,其平均數的代表性就越小。因此,在研究平均數的代表性時,差異分析就顯得非常重要了。
(3)差異分析指標可以用來評價兩個總體或兩個個體之間的差距程度,以說明工作的好壞。
(4)差異分析指標是科學地進行抽樣推斷、統計預測應考慮的重要因素。