① 數據收集和分析常用方法
一、頭腦風暴法:
常用於「收集需求」過程中,屬於群體創新技術。聯想是產生新觀念的基本過程。在集體討論問題的過程中,每提出一個新的觀念,都能引發他人的聯想。相繼產生一連串的新觀念,產生連鎖反應,形成新觀念堆,為創造性地解決問題提供了更多的可能性。
在不受任何限制的情況下,集體討論問題能激發人的熱情。人人自由發言、相互影響、相互感染,能形成熱潮,突破固有觀念的束縛,最大限度地發揮創造性地思維能力。
在有競爭意識情況下,人人爭先恐後,競相發言,不斷地開動思維機器,力求有獨到見解,新奇觀念。心理學的原理告訴我們,人類有爭強好勝心理,在有競爭意識的情況下,人的心理活動效率可增加50%或更多。
二、德爾菲技術:
常用於「收集需求」過程中,屬於群體創新技術。這一方法的步驟是:
(1)根據問題的特點,選擇和邀請做過相關研究或有相關經驗的專家。
(2)將與問題有關的信息分別提供給專家,請他們各自獨立發表自己的意見,並寫成書面材料。
(3)管理者收集並綜合專家們的意見後,將綜合意見反饋給各位專家,請他們再次發表意見。如果分歧很大,可以開會集中討論;否則,管理者分頭與專家聯絡。
(4)如此反復多次,最後形成代表專家組意見的方案。
德爾菲法的典型特徵
(1)吸收專家參與預測,充分利用專家的經驗和學識;
(2)採用匿名或背靠背的方式,能使每一位專家獨立自由地作出自己的判斷;
(3)預測過程幾輪反饋,使專家的意見逐漸趨同。
優點:能充分發揮各位專家的作用,集思廣益,准確性高。能把各位專家意見的分歧點表達出來,取各家之長,避各家之短。
缺點:德爾菲法的主要缺點是過程比較復雜,花費時間較長。
三、帕累托圖:
常用於「實施質量控制」過程中。帕累托圖又叫排列圖、主次圖,是按照發生頻率大小順序繪制的直方圖,表示有多少結果是由已確認類型或范疇的原因所造成。它是將出現的質量問題和質量改進項目按照重要程度依次排列而採用的一種圖表。可以用來分析質量問題,確定產生質量問題的主要因素。標准帕累托圖按等級排序的目的是指導如何採取糾正措施:項目班子應首先採取措施糾正造成最多數量缺陷的問題。從概念上說,帕累托圖與帕累托法則一脈相承,該法則認為相對來說數量較少的原因往往造成絕大多數的問題或缺陷。
排列圖用雙直角坐標系表示,左邊縱坐標表示頻數,右邊縱坐標表示頻率.分析線表示累積頻率,橫坐標表示影響質量的各項因素,按影響程度的大小(即出現頻數多少)從左到右排列,通過對排列圖的觀察分析可以抓住影響質量的主要因素.
帕累托法則往往稱為二八原理,即百分之八十的問題是百分之二十的原因所造成的。帕累托圖在項目管理中主要用來找出產生大多數問題的關鍵原因,用來解決大多數問題。
X(經典帕累托圖)
四、控制圖:
常用於「規劃質量、實施質量控制」過程中,就是對生產過程的關鍵質量特性值進行測定、記錄、評估並監測過程是否處於控制狀態的一種圖形方法。根據假設檢驗的原理構造一種圖,用於監測生產過程是否處於控制狀態。它是統計質量管理的一種重要手段和工具。
它是一種有控制界限的圖,用來區分引起的原因是偶然的還是系統的,可以提供系統原因存在的資訊,從而判斷生產過於受控狀態。控制圖按其用途可分為兩類,一類是供分析用的控制圖,用來控制生產過程中有關質量特性值的變化情況,看工序是否處於穩定受控狀;再一類的控制圖,主要用於發現生產過程是否出現了異常情況,以預防產生不合格品。
7點規則:如果遇到連續7點數據落在平均線的同一側。那麼,應當考慮是否存在特殊原因。因為,一個點落在平均線一側的概率是1/2。連續兩點落在同一側的概率是1/2中的1/2=1/4。連續三點落在同一側的概率是1/4中的1/2=1/8。如此下去,連續七點落在同一側的概率是(1/2)X(1/2)X(1/2)X(1/2)X(1/2)X(1/2)X(1/2)=1/128=0.0078。這個概率值是千分之8。這個概率應當講是很小的。當我們在生產抽樣的時候,這樣小的概率是不應當被抽到的。現在被抽到了,說明不正常了,就有可能發生了特殊原因。
五、SWOT分析:
常用於「識別風險」過程中,其中,S代表strength(優勢),W代表weakness(弱勢),O代表opportunity(機會),T代表threat(威脅)。其中,S、W是內部因素,O、T是外部因素。這種分析常用於企業內部分析方法,即根據企業自身的既定內在條件進行分析,找出企業的優勢、劣勢及核心競爭力之所在。
近來,SWOT分析已廣被應用在許多領域上,如學校的自我分析、個人的能力自我分析等方面。比如,在利用SWOT對自己進行職業發展分析時,可以遵循以下五個步驟:
第一步,評估自己的長處和短處每個人都有自己獨特的技能、天賦和能力。在當今分工非常細的環境里,每個人擅長於某一領域,而不是樣樣精通。(當然,除非天才)。舉個例子,有些人不喜歡整天坐在辦公室里,而有些人則一想到不得不與陌生人打交道時,心裡就發麻,惴惴不安。請作個列表,列出你自己喜歡做的事情和你的長處所在。同樣,通過列表,你可以找出自己不是很喜歡做的事情和你的弱勢。找出你的短處與發現你的長處同等重要,因為你可以基於自己的長處和短處上,作兩種選擇;或者努力去改正常的錯誤,提高你的技能,或是放棄那些對你不擅長的技能要求的學系。列出你認為自己所具備的很重要的強項和對你的學習選擇產生影響的弱勢,然後再標出那些你認為對你很重要的強弱勢。
第二步,找出您的職業機會和威脅。我們知道,不同的行業(包括這些行業里不同的公司)都面臨不同的外部機會和威脅,所以,找出這些外界因素將助您成功地找到一份適合自己的工作,對您求職是非常重要的,因為這些機會和威脅會影響您的第一份工作和今後的職業發展。如果公司處於一個常受到外界不利因素影響的行業里,很自然,這個公司能提供的職業機會將是很少的,而且沒有職業升遷的機會。相反,充滿了許多積極的外界因素的行業將為求職者提供廣闊的職業前景。請列出您感興趣的一兩個行業,然後認真地評估這些行業所面臨的機會和威脅。
第三步,提綱式地列出今後3-5年內您的職業目標。仔細地對自己做一個SWOT分析評估,列出您5年內最想實現的四至五個職業目標。這些目標可以包括:您想從事哪一種職業,您將管理多少人,或者您希望自己拿到的薪水屬哪一級別。請時刻記住:您必須竭盡所能地發揮出自己的優勢,使之與行業提供的工作機會完滿匹配。
第四步,提綱式地列出一份今後3-5年的職業行動計劃。這一步主要涉及到一些具體的內容。請您擬出一份實現上述第三步列出的每一目標的行動計劃,並且詳細地說明為了實現每一目標,您要做的每一件事,何時完成這些事。如果您覺得您需要一些外界幫助,請說明您需要何種幫助和您如何獲取這種幫助。例如,您的個人SWOT分析可能表明,為了實現您理想中的職業目標,您需要進修更多的管理課程,那麼,您的職業行動計劃應說明要參加哪些課程、什麼水平的課程以及何時進修這些課程等等。您擬訂的詳盡的行動計劃將幫助您做決策,就像外出旅遊前事先制定的計劃將成為您的行動指南一樣。
第五步,尋求專業幫助。能分析出自己職業發展及行為習慣中的缺點並不難,但要去以合適的方法改變它們卻很難。相信您的朋友、上級主管、職業咨詢專家都可以給您一定的幫助,特別是很多時候藉助專業的咨詢力量會讓您大走捷徑。有外力的協助和監督也會讓您更好的取得效。
六、敏感性分析:
常用於「實施定量風險分析」過程中,敏感性分析的作用是確定影響項目風險的敏感因素。尋找出影響最大、最敏感的主要變數因素,進一步分析、預測或估算其影響程度,找出產生不確定性的根源,採取相應有效措施。敏感性分析有助於確定哪些風險對項目具有最大的潛在影響。它把所有其他不確定因素保持在基準值的條件下,考察項目的每項要素的不確定性對日標產生多大程度的影響。敏感性分析最常用的顯示方式是龍卷風圖。龍卷風圖有助於比較具有較高不確定性的變數與相對穩定的變數之間的相對重要程度。
七、預期貨幣價值:
又稱風險暴露值、風險期望值,是定量風險分析的一種技術,常和決策樹一起使用,它是將特定情況下可能的風險造成的貨幣後果和發生概率相乘,此項目包含了風險和現金的考慮。正值表示機會,負值表示風險。每個可能結果的數值與發生機率相乘後加總即得到。
例:一專案投資100萬,有50%機率會延誤而罰款20萬則EMV值為多少?
答:100+(-20*50%)=90
八、蒙特卡羅法:
用於定量風險分析,是一種採用隨機抽樣(Random Sampling)統計來估算結果的計算方法。項目管理中蒙特卡羅模擬方法的一般步驟是:
1.對每一項活動,輸入最小、最大和最可能估計數據,並為其選擇一種合適的先驗分布模型;
2.計算機根據上述輸入,利用給定的某種規則,快速實施充分大量的隨機抽樣
3.對隨機抽樣的數據進行必要的數學計算,求出結果
4.對求出的結果進行統計學處理,求出最小值、最大值以及數學期望值和單位標准偏差
5.根據求出的統計學處理數據,讓計算機自動生成概率分布曲線和累積概率曲線(通常是基於正態分布的概率累積S曲線)
6.依據累積概率曲線進行項目風險分析。
② 數據採集的方法有哪兩類
1、離線搜集:
工具:ETL;
在數據倉庫的語境下,ETL基本上便是數據搜集的代表,包括數據的提取(Extract)、轉換(Transform)和載入(Load)。在轉換的過程中,需求針對具體的事務場景對數據進行治理,例如進行不合法數據監測與過濾、格式轉換與數據規范化、數據替換、確保數據完整性等。
2、實時搜集:
工具:Flume/Kafka;
實時搜集首要用在考慮流處理的事務場景,比方,用於記錄數據源的履行的各種操作活動,比方網路監控的流量辦理、金融運用的股票記賬和 web 伺服器記錄的用戶訪問行為。在流處理場景,數據搜集會成為Kafka的顧客,就像一個水壩一般將上游源源不斷的數據攔截住,然後依據事務場景做對應的處理(例如去重、去噪、中心核算等),之後再寫入到對應的數據存儲中。
3、互聯網搜集:
工具:Crawler, DPI等;
Scribe是Facebook開發的數據(日誌)搜集體系。又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規矩,自動地抓取萬維網信息的程序或者腳本,它支持圖片、音頻、視頻等文件或附件的搜集。
除了網路中包含的內容之外,關於網路流量的搜集能夠運用DPI或DFI等帶寬辦理技術進行處理。
4、其他數據搜集方法
關於企業生產經營數據上的客戶數據,財務數據等保密性要求較高的數據,能夠通過與數據技術服務商合作,運用特定體系介面等相關方式搜集數據。比方八度雲核算的數企BDSaaS,無論是數據搜集技術、BI數據剖析,還是數據的安全性和保密性,都做得很好。
③ 大數據科學家需要掌握的幾種異常值檢測方法
引言
異常值檢測與告警一直是工業界非常關注的問題,自動准確地檢測出系統的異常值,不僅可以節約大量的人力物力,還能盡早發現系統的異常情況,挽回不必要的損失。個推也非常重視大數據中的異常值檢測,例如在運維部門的流量管理業務中,個推很早便展開了對異常值檢測的實踐,也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。
1、異常值檢測研究背景
2、異常值檢測方法原理
3、異常值檢測應用實踐
異常值檢測研究背景
異常值,故名思議就是不同於正常值的值。 在數學上,可以用離群點來表述,這樣便可以將異常值檢測問題轉化為數學問題來求解。
異常值檢測在很多場景都有廣泛的應用,比如:
1、流量監測
互聯網上某些伺服器的訪問量,可能具有周期性或趨勢性:一般情況下都是相對平穩的,但是當受到某些黑客攻擊後,其訪問量可能發生顯著的變化,及早發現這些異常變化對企業而言有著很好的預防告警作用。
2、金融風控
正常賬戶中,用戶的轉賬行為一般屬於低頻事件,但在某些金融詐騙案中,一些嫌犯的賬戶就可能會出現高頻的轉賬行為,異常檢測系統如果能發現這些異常行為,及時採取相關措施,則會規避不少損失。
3、機器故障檢測
一個運行中的流水線,可能會裝有不同的感測器用來監測運行中的機器,這些感測器數據就反應了機器運行的狀態,這些實時的監測數據具有數據量大、維度廣的特點,用人工盯著看的話成本會非常高,高效的自動異常檢測演算法將能很好地解決這一問題。
異常值檢測方法原理
本文主要將異常值檢測方法分為兩大類:一類是基於統計的異常值檢測,另一類是基於模型的異常值檢測。
基於統計的方法
基於模型的方法
1、基於統計的異常值檢測方法
常見的基於統計的異常值檢測方法有以下2種,一種是基於3σ法則,一種是基於箱體圖。
3σ法則
箱體圖
3σ法則是指在樣本服從正態分布時,一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本,其中μ為樣本均值,σ為樣本標准差。在實際使用中,我們雖然不知道樣本的真實分布,但只要真實分布與正太分布相差不是太大,該經驗法則在大部分情況下便是適用的。
箱體圖也是一種比較常見的異常值檢測方法,一般取所有樣本的25%分位點Q1和75%分位點Q3,兩者之間的距離為箱體的長度IQR,可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。
基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點,但缺點也非常明顯,例如需要大量的樣本數據進行統計,難以對高維樣本數據進行異常值檢測等。
2、基於模型的異常值檢測
通常可將異常值檢測看作是一個二分類問題,即將所有樣本分為正常樣本和異常樣本,但這和常規的二分類問題又有所區別,常規的二分類一般要求正負樣本是均衡的,如果正負樣本不均勻的話,訓練結果往往會不太好。但在異常值檢測問題中,往往面臨著正(正常值)負(異常值)樣本不均勻的問題,異常值通常比正常值要少得多,因此需要對常規的二分類模型做一些改進。
基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測,比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來,它用一個超球面替代了超平面,超球面以內的值為正常值,超球面以外的值為異常值。
經典的SVM
1
基於模型的方法
2
基於神經網路的自編碼器結構如下圖所示。
自編碼器(AE)
將正常樣本用於模型訓練,輸入與輸出之間的損失函數可採用常見的均方誤差,因此檢測過程中,當正常樣本輸入時,均方誤差會較小,當異常樣本輸入時,均方誤差會較大,設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點,就是對於訓練樣本比較相近的正常樣本判別較好,但若正常樣本與訓練樣本相差較大,則可能會導致模型誤判。
無監督模型的異常值檢測是異常值檢測中的主流方法,因為異常值的標注成本往往較高,另外異常值的產生往往無法預料,因此有些異常值可能在過去的樣本中根本沒有出現過, 這將導致某些異常樣本無法標注,這也是有監督模型的局限性所在。 較為常見的無監督異常值檢測模型有密度聚類(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一種典型的無監督聚類方法,對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多,本文不作詳細介紹。
IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出,是一種非常高效的異常值檢測方法,該方法不需要對樣本數據做任何先驗的假設,只需基於這樣一個事實——異常值只是少數,並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣,IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree,簡稱iTree。iTree樹和決策樹不太一樣,其構建過程也比決策樹簡單,因為其中就是一個完全隨機的過程。
假設數據集有N條數據,構建一顆iTree時,從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來,作為這顆樹的訓練樣本。
在樣本中,隨機選一個特徵,並在這個特徵的所有值范圍內(最小值與最大值之間)隨機選一個值,對樣本進行二叉劃分,將樣本中小於該值的劃分到節點的左邊,大於等於該值的劃分到節點的右邊。
這樣得到了一個分裂條件和左、右兩邊的數據集,然後分別在左右兩邊的數據集上重復上面的過程,直至達到終止條件。 終止條件有兩個,一個是數據本身不可再分(只包括一個樣本,或者全部樣本相同),另外一個是樹的高度達到log2(n)。 不同於決策樹,iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行,但出於效率考慮,演算法一般要求高度達到log2(n)深度即可。
把所有的iTree樹構建好了,就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走,直到達到葉子節點,並記錄這過程中經過的路徑長度h(x),即從根節點,穿過中間的節點,最後到達葉子節點,所走過的邊的數量(path length)。最後,將h(x)帶入公式,其中E(.)表示計算期望,c(n)表示當樣本數量為n時,路徑長度的平均值,從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質:
1)如果分數s越接近1,則該樣本是異常值的可能性越高;
2)如果分數s越接近0,則該樣本是正常值的可能性越高;
RCF演算法與IF演算法思想上是比較類似的,前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素,RCF演算法考慮了該因素,並且在數據樣本采樣策略上作出了一些改進,使得異常值檢測相對IF演算法變得更加准確和高效,並能更好地應用於流式數據檢測。
IF演算法
RCF演算法
上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值,對於後一個較大的突變異常值,IF演算法和RCF演算法都檢測了出來,但對於前一個較小的突變異常值,IF演算法沒有檢測出來,而RCF演算法依然檢測了出來,這意味著RCF有更好的異常值檢測性能。
異常值檢測應用實踐
理論還需結合實踐,下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例,對異常值檢測的實際應用場景予以介紹:
從上圖中可以看出該應用的日活存在著一些顯著的異常值(比如紅色圓圈部分),這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。
基於3σ法則(基於統計)
RCF演算法(基於模型)
從圖中可以看出,對於較大的突變異常值,3σ法則和RCF演算法都能較好地檢測出來, 但對於較小的突變異常值,RCF演算法則要表現得更好。
總結
上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看,異常值檢測演算法多種多樣 ,每一種都有自己的優缺點和適用范圍,很難直接判斷哪一種異常檢測演算法是最佳的, 具體在實戰中,我們需要根據自身業務的特點,比如對計算量的要求、對異常值的容忍度等,選擇合適的異常值檢測演算法。
接下來,個推也會結合自身實踐,在大數據異常檢測方面不斷深耕,繼續優化演算法模型在不同業務場景中的性能,持續為開發者們分享前沿的理念與最新的實踐方案。
④ 收集數據通常可以採用的方法有哪三種
1、訪問調查:訪問調查又稱派員調查,它是調查者與被調查者通過面對面地交談從而得到所需資料的調查方法。
2、郵寄調查:郵寄調查是通過郵寄或其他方式將調查問卷送至被調查者,由被調查者填寫,然後將問卷寄回或投放到指定收集點的一種調查方法。
3、電話調查:電話調查是調查人員利用電話通受訪者進行語言交流,從而獲得信息的一種調查方式。電話調查優點是時效快、費用低;不足是調查問題的數量不能過多。
(4)有哪些新奇的數據監測的方法擴展閱讀:
收集數據的步驟:
1、確定數據分析的目標
沒有目標的數據分析才真的是無從下手。有了明確的目標導向後,數據收集的范圍和著手點就比較明確了。現實工作當中,一般都是遇到了問題,需要去解決問題的時候,想出來的解決方案就可以成為數據分析的目標。
2、分析需要收集哪些數據
明確了數據分析的目標之後,就需要確定採集哪些數據來分析。目標可以告訴我們范圍,比如取消訂單的操作場景下會涉及到哪些頁面;進一步的要確認這些頁面上有哪些表單數據、操作按鈕、頁面跳轉是需要記錄操作事件的。
考慮每個數據收集點的成本
數據埋點是有成本的,最直觀的就是在性能上會帶來比較大的影響,現在也有一些無埋點的採集技術,本人沒有做過相應研究,這里只以需要埋點採集的來說明。