A. 面對數據治理的挑戰及難點,如何找到最佳解決辦法
一、建立數據治理計劃時,您將遇到幾個挑戰:
· 數據治理是更大的 IT治理策略的一部分。 數據與IT部門需要相互配合才能成功。
· 進行任何類型的優化都很難,讓員工關心數據治理更是難上加難。 需要激勵和動力來讓你的員工遵循新數據治理計劃。
· 數據治理工作需要靈活地適應團隊需求,並且對用戶來說必須簡單易用。 如果數據治理阻礙了政正常業務工作,則不會促進業務目標。
二、面對這些挑戰,您應該如何實施數據治理方案?
以下是8點數據治理最佳實踐方法,它們將幫助您進行數據治理。
1. 為您的數據設置格式標准, 並在後期處理和將數據提取到大數據平台中時使用技術來實施這些標准。您將要從許多不同的來源中提取數據,因此您應該對大數據系統中的數據進行規范化。
2. 非託管數據也是重要數據! 文件,文件夾和共享中的數據是您最有價值的數據中的一部分,而且通常比託管數據具有更大的風險。確保您的數據治理策略涵蓋非結構化數據。
3. 盡早制定 業務目標 以進行數據治理,並分配一名首席數據官(CDO)。使CDO負責管理和實現數據治理目標。
4. 把事情簡單化! 數據治理不是企業大多數人的主要工作。最大限度地減少對個人貢獻者和團隊的影響。
5. 為數據治理團隊的成員建立不同的角色。 數據所有者是關鍵,因為它們與創建和管理的數據最接近。您可以分配數據管理人員與數據所有者合作,以進行指導並促進溝通。您的數據治理團隊應具有跨職能並有權推動您的數據治理計劃。
6. 對所有數據進行分類和標記。 為元數據建立標准,以促進您的業務目標並允許重復使用數據。
7. 用幾種不同的方式衡量您的進度。 您可以收集的指標越多越好。數據治理的一些關鍵指標可能是您要保存多少陳舊數據,已分配數據所有者的文件夾數量以及所創建的敏感數據數量。
8. 盡可能自動化。 自動化工作流程,批准流程, 數據請求,許可權請求以及您可以執行的其他所有操作,以使數據治理計劃能夠高效運轉。
三、數據治理工具推薦--睿治數據治理工具
面對以上8點數據治理最佳實踐方法,我為您推薦一款好用的數據治理工具配合實施數據治理方案,不僅可以保證您的數據治理項目按計劃實施,也可以將每一個過程都以實時可視化的方式展示給您。以下為數據治理工具推薦:
睿治數據治理平台融合數據集成、數據交換、實時計算存儲、元數據管理、數據標准管理、數據質量管理、主數據管理、數據資產管理、數據安全管理、數據生命周期管理十大產品模塊,打通數據治理各個環節,十大產品模塊可獨立或任意組合使用,快速滿足政府、企業各類不同的數據治理場景。
四、睿治數據治理工具實施案例
山東某能源集團大數據資產平台
建設內容:
建設集團 數據治理體系 ,從根本解決問題,掌握數據來龍去脈,發現數據質量原因從源頭提升數據質量;實現數據賦能對人財物產供銷環數據集市建設,全面實現業務人員自助取數分析;建設集團數據應用商店實現數字化運營,實現數據市場化管理,通過智能化、自動化減少運營成本,降低安全風險,提升工作效率,增加企業市場競爭力。
項目價值:
基於數據治理體系建立集團大數據資產平台,運用大數據技術實現數據採集、清洗、分析建模的設計,形成集團高質量數據資產,通過數據資產目錄對全集團發布,並用業務元數據解釋數據含義,便於業務人員定位自己所需數據,與此同時,業務人員可以對自己所需數據提出申請,審批通過後,可直接基於治理數據利用敏捷分析工具實現自助探索分析,真正實現數據賦能,保障日常生產經營管理。
免費試用數據治理工具
B. 怎麼處理缺失值/異常值
https://www.hu.com/question/58230411?sort=created
https://blog.csdn.net/Forlogen/article/details/89534235
(1)隨機丟失(MAR,Missing at Random)(數據丟失的概率與丟失的數據本身無關,而依賴於其他完全變數(無缺失變數))
隨機丟失意味著數據丟失的概率與丟失的數據本身無關,而僅與部分已觀測到的數據有關。也就是說,數據的缺失不是完全隨機的,該類數據的缺失依賴於其他完全變數。
(2)完全隨機丟失(MCAR,Missing Completely at Random)(數據缺失完全隨機事件,無依賴關系)
數據的缺失是完全隨機的,不依賴於任何不完全變數或完全變數,不影響樣本的無偏性。簡單來說,就是數據丟失的概率與其假設值以及其他變數值都完全無關。
(3)非隨機丟失(MNAR,Missing not at Random)
數據的缺失與不完全變數自身的取值有關。分為兩種情況:缺失值取決於其假設值(例如,高收入人群通常不希望在調查中透露他們的收入);或者,缺失值取決於其他變數值(假設基礎數據很正常,也無臨床症狀,醫生可能就覺得無需進一步檢查,所以會有數據缺失)。
在前兩種情況下可以根據其出現情況刪除缺失值的數據,同時,隨機缺失可以通過已知變數對缺失值進行估計。
在第三種情況下,刪除包含缺失值的數據可能會導致模型出現偏差,同時,對數據進行填充也需要格外謹慎。
如果一個病人的體溫測量值是有時缺失的,其原因是醫生覺得病得太重的病人不需要量體溫,那這個缺失顯然不是MAR或者MCAR的。對於離散型特徵,如果將特徵中的缺失值單獨編碼成一個獨立的類別(比如missing),而這個missing類別訓練出來後對response有預測作用,那麼這個特徵中的缺失行為基本不是MAR或者MCAR的。
(1)generative methods:這些方法主要依賴於EM演算法和深度學習,如DAE、GAN等
(2)discriminative methods:如MICE、MissForest、matrix completion等
目前的生成式填補演算法存在著一些缺點,它們是以一種基於對數據分布的先驗假設的方法,當數據中含有混合類別和連續變數時,它的泛化能力就會很差。DAE在一定程度上解決了這個問題,但是它在訓練的過程中需要完整的數據集,在很多情況下,缺失的數據部分在一定程度上反映了完整數據集的內在結構信息,所以獲取到完整的數據集是不太可能的。DAE的另一種方法允許使用不完整的數據集進行訓練,但是它只能根據觀察到的部分來表示數據。而使用DCGANs來完成圖像填補的演算法,同樣需要完整的數據集來訓練判別器。
難點:如果其他變數和缺失變數無關,則預測的結果無意義。如果預測結果相當准確,則又說明這個變數是沒必要加入建模的。一般情況下,介於兩者之間。
方法 0(最簡單粗暴):在構建模型時忽略異常值。 如果缺失數據量少的話
方法1(快速簡單但效果差):把數值型(連續型)變數中的缺失值用其所對應的類別中的中位數替換。把描述型(離散型)變數缺失的部分用所對應類別中出現最多的數值替代。
方法2(耗時費力但效果好):雖然依然是使用中位數和出現次數最多的數來進行替換,方法2引入了權重。即對需要替換的數據先和其他數據做相似度測量也就是下面公式中的Weight,在補全缺失點是相似的點的數據會有更高的權重W。
方法3 (類xgboost):把缺失值當做稀疏矩陣來對待,本身的在節點分裂時不考慮的缺失值的數值。缺失值數據會被分到左子樹和右子樹分別計算損失,選擇較優的那一個。如果訓練中沒有數據缺失,預測時出現了數據缺失,那麼默認被分類到右子樹。這樣的處理方法固然巧妙,但也有風險:即我們假設了訓練數據和預測數據的分布相同,比如缺失值的分布也相同,不過直覺上應該影響不是很大:)
方法4 (回歸):基於完整的數據集,建立回歸方程。對於包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。當變數不是線性相關時會導致有偏差的估計。
方法5 (Kmeans)先根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權平均來估計該樣本的缺失數據。
方法6 (離散化)為缺失值定製一個特徵值比如,男/女/缺失 分別對應[0/1,0/1,0/1]=>[0,0,1] 這種onehot編碼,特徵離散化後加入計算。
方法1(AutoEncoder系列):在訓練的時候使用0作為缺失值,相當於不激活邊,在輸出的時候不論輸出了什麼都強行置為0,防止反向傳播的時候影響到邊的權重。
方法2 GAN(GAIN),目前的SOTA
方法1(MissForest):對於一個有n個特徵的數據來說,其中特徵T有缺失值,我們就把特徵T當作標簽,其他的n-1個特徵和原本的標簽組成新的特徵矩陣。那對於T來說,它沒有缺失的部分,就是我們的Y_test,這部分數據既有標簽也有特徵,而它缺失的部分,只有特徵沒有標簽,就是我們需要預測的部分。
那如果數據中除了特徵T之外,其他特徵也有缺失值怎麼辦?答案是遍歷所有的特徵,從缺失最少的開始進行填補(因為填補缺失最少的特徵所需要的准確信息最少)。
填補一個特徵時,先將其他特徵的缺失值若為連續型值可用中位數、平均數代替,離散可用眾數代替,每完成一次回歸預測,就將預測值放到原本的特徵矩陣中,再繼續填補下一個特徵。每一次填補完畢,有缺失值的特徵會減少一個,所以每次循環後,需要用0來填補的特徵就越來越少。當進行到最後一個特徵時(這個特徵應該是所有特徵中缺失值最多的),已經沒有任何的其他特徵需要用0來進行填補了,而我們已經使用回歸為其他特徵填補了大量有效信息,可以用來填補缺失最多的特徵。
方法2(matrix factorization):矩陣分解
然後梯度下降一把梭
「年收入」:商品推薦場景下填充平均值,借貸額度場景下填充最小值;
「行為時間點」:填充眾數;
「價格」:商品推薦場景下填充最小值,商品匹配場景下填充平均值;
「人體壽命」:保險費用估計場景下填充最大值,人口估計場景下填充平均值;
「駕齡」:沒有填寫這一項的用戶可能是沒有車,為它填充為0較為合理;
」本科畢業時間」:沒有填寫這一項的用戶可能是沒有上大學,為它填充正無窮比較合理;
「婚姻狀態」:沒有填寫這一項的用戶可能對自己的隱私比較敏感,應單獨設為一個分類,如已婚1、未婚0、未填-1。
主流的機器學習模型千千萬,很難一概而論。但有一些經驗法則(rule of thumb)供參考:
1)樹模型對於缺失值的敏感度較低,大部分時候可以在數據有缺失時使用。
2)涉及到距離度量(distance measurement)時,如計算兩個點之間的距離,缺失數據就變得比較重要。因為涉及到「距離」這個概念,那麼缺失值處理不當就會導致效果很差,如K近鄰演算法(KNN)和支持向量機(SVM)。
3)線性模型的代價函數(loss function)往往涉及到距離(distance)的計算,計算預測值和真實值之間的差別,這容易導致對缺失值敏感。
4)神經網路的魯棒性強,對於缺失數據不是非常敏感,但一般沒有那麼多數據可供使用。
5)貝葉斯模型對於缺失數據也比較穩定,數據量很小的時候首推貝葉斯模型。
總結來看,對於有缺失值的數據在經過缺失值處理後:
C. 大學數據中心機房運維風險的識別和應對論文
大學數據中心機房運維風險的識別和應對論文
無論是身處學校還是步入社會,許多人都寫過論文吧,論文是探討問題進行學術研究的一種手段。還是對論文一籌莫展嗎?下面是我整理的大學數據中心機房運維風險的識別和應對論文,歡迎閱讀,希望大家能夠喜歡。
摘要:
高校數據中心機房作為學校重要的場所,為學校日常教學辦公提供重要的網路保障。如何保障數據中心的安全,已經變得越來越重要。本文通過研究風險管理在高校數據中心機房的應用研究。以我校數據中心機房運維項目為例,進行風險管理各方面的研究。旨在提高機房管理人員管理能力,保障數據中心機房安全。
關鍵詞:
風險識別;風險應對;數據中心機房;
引言:
數據中心機房是學校數據匯聚交互的核心場所,所有接入校園網的數據都是通過數據中心機房進行交互。信息化大背景下,高校數據中心機房為師生提供更加便捷的服務,在教學、科研、辦公等方面都有體現。
近些年來,隨著數字校園,智慧校園的推進,全國各高校的數據中心機房規模不斷發展。「一表通系統」上線,「最多跑一次」改革,高校越來越多的業務都轉到校園網上,辦公流程的簡化,業務流程的電子化,極大地方便了廣大師生。但同時,伴隨著不斷增長的業務,擴增的機房設備,我們對數據中心的要求不斷提升,日常的運維管理面臨的風險也越來越大。
1、高校數據中心運維引入風險管理的意義
數據中心機房是全校網路的核心區域,包括伺服器,IPS設備,業務系統等,是一系列硬體軟體設備的總和。一般高中小學校不會涉及數據中心機房,而大學的數據中心機房則不同,需要專人管理。數據中心機房的日常維護絕不是簡單的設備維修,而是一項長期且細致的工作,涉及的內容很多,包括機房設備維修,系統升級,安防檢查等。因此我們需要引入一整套科學合理的管理方法來應對風險。
數據中心機房的風險管理涉及內容很多有:風險識別,風險分析,風險應對等。其中,風險識別就是識別出潛在的風險,例如:機房火災,漏水,停電等,是風險管理中最重要的內容之一,是確定潛在風險並分析找出應對方法的前提。所以一般對於風險識別的內容,我們會花費大量的時間來收集匯總,識別中會用到的德爾菲法,頭腦風暴等方法。在數據中心日常運維中,針對識別出的高風險因素,我們需要制定相關的策略,包括消極和積極2方面的風險應對策略。風險存在是必然,我們需要積極引入風險管理機制,才能在出現問題時候迅速解決。
2、數據中心機房運維的風險識別
每個項目特性是千差萬別,項目獨特性決定項目實施過程存在很多不確定性,盡可能識別出不確定因素,是確保項目成功的重要因素[1]。風險識別不僅是風險管理的核心部分,更是基礎內容。風險識別就是運用各種科學方法,識別項目的潛在風險,識別引發潛在風險的原因以及可能引發的`後果。特點:風險識別覆蓋整個項目的生命周期。項目管理過程中,需要對風險進行反復地識別。風險識別的方法很多,包括德爾菲法,頭腦風暴,專家判斷等。
為了盡可能全面地識別出潛在的風險,結合實際情況,對數據中心機房風險識別步驟包括3步,第一步,進行工作分解結構WBS,目的就是為了更直觀地進行風險識別。第二步,風險收集,針對運維項目,需要組織人員進行現場勘查,發現存在的問題,收集數據中心的資料。針對運維現狀,組織全體人員進行頭腦風暴法識別潛在的風險,再利用專家調查法對收集的潛在風險進行識別。第三步,風險確認,組織相關人員進行總結分析歸納,最終得到運維項目風險登記冊。
(1)工作分解結構WBS
數據中心運維項目按照一定原則進行工作分解,其目的是為了給風險識別提供依據。首先,組織運維項目的各部門的負責人員,技術人員等進行現場勘查,摸清機房現狀。按照整體機房運維的思路做好地勘工作,地勘需要記錄各個領域的工作,並進行工作分解。
(2)風險收集
本次運維項目的風險收集採用頭腦風暴會議。在會議之前,需要收集項目相關資料,包括項目技術文件,運維記錄,機房資料,合同等。然後提前將地勘記錄和收集到的項目資料發給參與會議的人員,確保參會人員能提前充分了解項目內容。會議針對運維項目期間可能存在的風險,進行充分的討論和匯總。由項目經理擔任本次會議支持人,在主持人的推動下,與參會人員就項目的風險集思廣益。所有參與人員均有平等發言權,對潛在的風險提出自己的觀點。最後將會議的內容進行整理匯總,初步得到機房運維的風險因素。
(3)風險確認
風險確認即將收集匯總的風險因素發給專家小組,由專家小組再次確認,記錄整理並完成風險識別。專家小組包括各行業專家、部門負責人等。專家小組通過了解數據中心機房運維項目的基本情況,背景等,對頭腦風暴會議收集的風險因素進行多次征詢,直至達成一致意見,完成項目風險識別。
最終將運維項目風險分為5類,包括設備風險,業務風險,運維管理風險,自然風險,其他風險。設備風險包含:伺服器風險,IPS設備風險,環控設備風險等。業務風險包括:特大網路故障風險,一般業務故障風險,業務質量下降風險等。運維管理風險包括:團隊管理風險,溝通交流風險,人員管理風險等。自然風險包括:火災,水災,電磁干擾等,其他風險包括:合同風險,需求變化風險,人員技術風險等。
3、數據中心機房運維的風險分析
風險分析從2方面進行,第一個是定性風險分析,定性分析是指採取一定手段,綜合評估分析存在的風險概率以及它的影響程度,並對風險按風險程度排序。同時為下一步分析提供依據。本次運維項目研究所用到的分析工具有概率-影響矩陣,風險分類,專家判斷法等。定性風險分析過程作用是為了降低項目的不確定性,並重點關注高優先順序的風險,有利於後續針對性開展風險應對。
概率-影響矩陣(P-I矩陣)是經常使用的工具,它是針對不同程度的風險,進行分級和排序,便於下一步進行定量分析及應對。在概率-影響矩陣中,一般將橫坐標和縱坐標從低到高劃分為5個標准,用數值0.1、0.3、0.5、0.7、0.9表示,一共劃分為25個方格,方格內數字表示風險值R,公式為R=P*I。R數值越低,概率越小,影響程度越小。R數值越高,概率越高,影響程度越大。概率高,影響程度高的區域,一般在右上角,屬於高風險,需要採取重點措施,並採取積極地應對策略。概率低,影響程度低的區域,一般在左下角,屬於低風險區域,一般列入待觀察風險清單,一般不需要採取積極管理措施,監測即可。
第二個是定量風險分析,它是對定性分析過程中,對項目影響很大,風險等級很高的風險進行更加具體的分析。它是對風險事件的影響程度分析,一般高風險事件分配高數值,低風險分配低數值。定量風險分析的目的是為了確定重大的風險,同時提醒管理人員對高風險,進行密切關注,做好應對准備。
4、數據中心機房運維的風險應對
風險應對過程是在風險分析之後,針對存在的風險,在分析風險概率及其影響程度基礎上,制定一系列措施降低風險、提高有利機會。通過科學合理的管理理論和措施,可以有效規避和降低項目風險。風險應對措施必須及時有效,並制定多種應對方式,擇優選擇。
風險應對方法有很多,針對已總結的風險,結合數據中心項目的具體情況制定相關的應對策略包括:風險規避,風險轉移,風險預防,風險減輕。
(1)風險規避:風險規避是為了達到項目目的,改變原來計劃,從而規避風險,減少風險帶來的影響。如:調試項目范圍,利用多種手段達到目的等。在機房檢修的時候,必須秉承著不影響機房正常運行的原則。檢修UPS蓄電池,進行放電時,不能影響機房正常運行。檢修空調時,應該要一個一個進行檢查,不能同時關閉所有機房空調,否則會影響機房正常散熱,導致伺服器出現故障。維護業務伺服器時,必須不能影響其他業務的運行。
(2)風險轉移:風險轉移目的是將風險轉嫁給第三方人員,包括風險的影響和責任。在數據中心機房運維中,常見的風險轉移就是第三方公司維保。因為數據中心機房的重要性,所以必須保證機房7*24小時都要穩定運行。單單依靠網路中心一個部門是無法保障機房的一年365天的安全,還必須要有其他部門和第三方運維公司的配合。現在高校的數據中心機房都會有第三方公司運維,包括伺服器的維保,環境監控的維保,網路安全維保等。轉移工具包括合同、履約保證協議、保密協議,保證書等。通過簽署合同或協議,能將風險的責任轉移給第三方。
(3)風險預防:風險預防就是針對存在的風險,制定應急預案,避免風險的發生。施工或運維過程中一旦出現風險或者發現目標與預期有較大偏差時,即可按照應急方案採取相應措施。機房定期進行應急演練是必要的,針對運維情況制定不同的應急演練內容,如:特大網路故障,一般業務故障,火災等。有利於提高運維人員對突發安全事件的響應與處置能力,保障學校機房安全、持續和穩定運行。機房內不需要的設備必須及時清理,必須建立定期檢查制度,對相關設備進行詳細檢查[2]。
(4)風險減輕:風險減輕就是減輕風險事件所帶來的影響,減低風險發生的概率。它分為兩個方面,第一個是已經發生的風險,要採取積極的措施減少風險帶來的影響。第二個是還沒發生的風險,要採取積極措施減少發生概率。例如:在機房整理線纜時候,必須按照行業規范,進行走線,並按照統一標准添加標簽,確保線材整潔。這樣能減少後期維護的成本,當出現線路問題時,能在第一時間找到問題線路。此外,在機房配備UPS電源,也是為了保護伺服器設備,在斷電情況下能繼續工作一段時間,減少伺服器突然斷電引發的一系列問題。
5、結語
數據中心機房承擔著高校全部的信息化業務,運維內容包括伺服器,IPS設備,業務系統等軟硬體設備,涉及多個部門和第三方運維公司。因此,高校數據中心機房運維是一個長期、復雜的項目,需要持續性地管理。
風險管理作為一種科學的管理手段,在數據中心機房的運維中的應用有著重要的意義,通過風險管理研究,識別、分析和應對等,我們可以清晰地了解整個運維項目存在的風險。識別潛在風險,通過科學的風險分析手段,應對不同程度的風險。
參考文獻
[1]鄭渝莎.淺談通信機房搬遷項目的風險管理[J].江西建材,2017(13):261+263.
[2]王欣.信息機房運維及其管理的主要策略分析[J].計算機產品與流通,2020(01):131.
;D. 什麼是操作風險如何應對操作風險
操作風險是指由於信息系統或內部控制缺陷導致意外損失的風險。引起操作風險的原因包括: 人為錯誤、電腦系統故障、工作程序和內部控制不當,等等。
應對:
1、加大改革力度
2、不斷完善內部控制制度
3、全面落實操作風險管理責任制
4、切實改進操作風險管理方法
5、加強人員管理
(4)解決數據集中風險的方法擴展閱讀
類型:
1、內部欺詐
有機構內部人員參與的詐騙、盜用資產、違犯法律以及公司的規章制度的行為。
2、外部欺詐
第三方的詐騙、盜用資產、違犯法律的行為。
3、風險事件
由於不履行合同,或者不符合勞動健康、安全法規所引起的賠償要求。
操作風險的特殊性決定了對其計量也不同於市場風險和信貸風險。其次是操作風險損失的不可預測性。對於市場風險,可以根據市場因素變化的程度計算出標的資產相應的損失狀況,而市場因素變化的范圍通常是可以大致估計的;
操作風險分布的不平衡性。對於市場風險,當市場因素變化時銀行標的資產在不同部門、不同分支機構的損失狀況是基本相同的。
E. 數據挖掘中要避免的11大錯誤
數據挖掘中要避免的11大錯誤
1. 缺乏數據(Lack Data)
對於分類問題或預估問題來說,常常缺乏准確標注的案例。
例如:
欺詐偵測(Fraud Detection):在上百萬的交易中,可能只有屈指可數的欺詐交易,還有很多的欺詐交易沒有被正確標注出來,這就需要在建模前花費大量人力來修正。
信用評分(Credit Scoring):需要對潛在的高風險客戶進行長期跟蹤(比如兩年),從而積累足夠的評分樣本。
2. 太關注訓練(Focus on Training)
IDMer:就象體育訓練中越來越注重實戰訓練,因為單純的封閉式訓練常常會訓練時狀態神勇,比賽時一塌糊塗。
實際上,只有樣本外數據上的模型評分結果才真正有用!(否則的話,直接用參照表好了!)
例如:
癌症檢測(Cancer detection):MD Anderson的醫生和研究人員(1993)使用神經網路來進行癌症檢測,驚奇地發現,訓練時間越長(從幾天延長至數周),對訓練集的性能改善非常輕微,但在測試集上的性能卻明顯下降。
機器學習或計算機科學研究者常常試圖讓模型在已知數據上表現最優,這樣做的結果通常會導致過度擬合(overfit)。
解決方法:
解決這個問題的典型方法是重抽樣(Re-Sampling)。重抽樣技術包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。
3. 只依賴一項技術(Rely on One Technique)
IDMer:這個錯誤和第10種錯誤有相通之處,請同時參照其解決方法。沒有對比也就沒有所謂的好壞,辯證法的思想在此體現無遺。
「當小孩子手拿一把錘子時,整個世界看起來就是一枚釘子。」要想讓工作盡善盡美,就需要一套完整的工具箱。
不要簡單地信賴你用單個方法分析的結果,至少要和傳統方法(比如線性回歸或線性判別分析)做個比較。
研究結果:按照《神經網路》期刊的統計,在過去3年來,只有1/6的文章中做到了上述兩點。也就是說,在獨立於訓練樣本之外的測試集上進行了開集測試,並與其它廣泛採用的方法進行了對比。
解決方法:
使用一系列好的工具和方法。(每種工具或方法可能最多帶來5%~10%的改進)。
4. 提錯了問題(Ask the Wrong Question)
IDMer:一般在分類演算法中都會給出分類精度作為衡量模型好壞的標准,但在實際項目中我們卻幾乎不看這個指標。為什麼?因為那不是我們關注的目標。
項目的目標:一定要鎖定正確的目標
例如:
欺詐偵測(關注的是正例!)(Shannon實驗室在國際長途電話上的分析):不要試圖在一般的通話中把欺詐和非欺詐行為分類出來,重點應放在如何描述正常通話的特徵,然後據此發現異常通話行為。
模型的目標:讓計算機去做你希望它做的事
大多數研究人員會沉迷於模型的收斂性來盡量降低誤差,這樣讓他們可以獲得數學上的美感。但更應該讓計算機做的事情應該是如何改善業務,而不是僅僅側重模型計算上的精度。
5. 只靠數據來說話(Listen (only) to the Data)
IDMer:「讓數據說話」沒有錯,關鍵是還要記得另一句話:兼聽則明,偏聽則暗!如果數據+工具就可以解決問題的話,還要人做什麼呢?
投機取巧的數據:數據本身只能幫助分析人員找到什麼是顯著的結果,但它並不能告訴你結果是對還是錯。
經過設計的實驗:某些實驗設計中摻雜了人為的成分,這樣的實驗結果也常常不可信。
6. 使用了未來的信息(Accept Leaks from the Future)
IDMer:看似不可能,卻是實際中很容易犯的錯誤,特別是你面對成千上萬個變數的時候。認真、仔細、有條理是數據挖掘人員的基本要求。
預報(Forecast)示例:預報芝加哥銀行在某天的利率,使用神經網路建模,模型的准確率達到95%。但在模型中卻使用了該天的利率作為輸入變數。
金融業中的預報示例:使用3日的移動平均來預報,但卻把移動平均的中點設在今天。
解決方法:
要仔細查看那些讓結果表現得異常好的變數,這些變數有可能是不應該使用,或者不應該直接使用的。
給數據加上時間戳,避免被誤用。
7. 拋棄了不該忽略的案例(Discount Pesky Cases)
IDMer:到底是「寧為雞頭,不為鳳尾」,還是「大隱隱於市,小隱隱於野」?不同的人生態度可以有同樣精彩的人生,不同的數據也可能蘊含同樣重要的價值。
異常值可能會導致錯誤的結果(比如價格中的小數點標錯了),但也可能是問題的答案(比如臭氧洞)。所以需要仔細檢查這些異常。
研究中最讓激動的話語不是「啊哈!」,而是「這就有點奇怪了……」
數據中的不一致性有可能會是解決問題的線索,深挖下去也許可以解決一個大的業務問題。
例如:
在直郵營銷中,在對家庭地址的合並和清洗過程中發現的數據不一致,反而可能是新的營銷機會。
解決方法:
可視化可以幫助你分析大量的假設是否成立。
8. 輕信預測(Extrapolate)
IDMer:依然是辯證法中的觀點,事物都是不斷發展變化的。
人們常常在經驗不多的時候輕易得出一些結論。
即便發現了一些反例,人們也不太願意放棄原先的想法。
維度咒語:在低維度上的直覺,放在高維度空間中,常常是毫無意義的。
解決方法:
進化論。沒有正確的結論,只有越來越准確的結論。
9. 試圖回答所有問題(Answer Every Inquiry)
IDMer:有點像我爬山時鼓勵自己的一句話「我不知道什麼時候能登上山峰,但我知道爬一步就離終點近一步。」
「不知道」是一種有意義的模型結果。
模型也許無法100%准確回答問題,但至少可以幫我們估計出現某種結果的可能性。
10. 隨便地進行抽樣(Sample Casually)
降低抽樣水平。例如,MD直郵公司進行響應預測分析,但發現數據集中的不響應客戶佔比太高(總共一百萬直郵客戶,其中超過99%的人未對營銷做出響應)。於是建模人員做了如下抽樣:把所有響應者放入樣本集,然後在所有不響應者中進行系統抽樣,即每隔10人抽一個放入樣本集,直到樣本集達到10萬人。但模型居然得出如下規則:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都會響應營銷。這顯然是有問題的結論。(問題就出在這種抽樣方法上,因為原始數據集已經按照郵政編碼排序,上面這三個地區中不響應者未能被抽取到樣本集中,故此得出了這種結論)。
解決方法:「喝前搖一搖!」先打亂原始數據集中的順序,從而保證抽樣的隨機性。
提高抽樣水平。例如,在信用評分中,因為違約客戶的佔比一般都非常低,所以在建模時常常會人為調高違約客戶的佔比(比如把這些違約客戶的權重提高5倍)。建模中發現,隨著模型越來越復雜,判別違約客戶的准確率也越來越高,但對正常客戶的誤判率也隨之升高。(問題出在數據集的劃分上。在把原始數據集劃分為訓練集和測試集時,原始數據集中違約客戶的權重已經被提高過了)
解決方法:先進行數據集劃分,然後再提高訓練集中違約客戶的權重。
11. 太相信最佳模型(Believe the Best Model)
IDMer:還是那句老話-「沒有最好,只有更好!」
可解釋性並不一定總是必要的。看起來並不完全正確或者可以解釋的模型,有時也會有用。
「最佳」模型中使用的一些變數,會分散人們太多的注意力。(不可解釋性有時也是一個優點)
一般來說,很多變數看起來彼此都很相似,而最佳模型的結構看上去也千差萬別,無跡可循。但需注意的是,結構上相似並不意味著功能上也相似。
解決方法:把多個模型集裝起來可能會帶來更好更穩定的結果。
數據挖掘最重要的要素是分析人員的相關業務知識和思維模式。豐富的業務知識是設計有效的相關變數的必要條件,而分析人員的思維模式從另外一個方面也保障了設計變數的結構化和完整性。所以我們在掌握豐富的業務知識同時,如果能夠按照正確的思維模式去思考問題,將會發現解決問題並不是很困難的。
F. 信息系統風險的應對措施包括哪些
1、提高警惕:
當整體行情出現較大升幅,成交量屢屢創出天量,股市中賺錢效應普及,市場人氣鼎沸,投資者踴躍入市,股民對風險意識逐漸淡漠時,往往是系統性風險將要出現的徵兆。從投資價值分析,當市場整體價值有高估趨勢的時候,投資者切不可放鬆對系統性風險的警惕。
2、投入比例:
股市行情的運行過程中,始終存在著不確定性因素,投資者可以根據行情發展的階段來不斷調整資金投入比例。由於股市升幅較大,從有效控制風險的角度出發,投資者不宜採用重倉操作的方式,至於全進全出的滿倉操作更加不合時宜。
這一時期需要將資金投入比例控制在可承受風險的范圍內。倉位較重的投資者可以有選擇地拋出一些股票,減輕倉位,或者將部分投資資金用於相對較安全的投資中,如申購新股等。
3、贏損准備:
投資者無法預測什麼時候會出現系統性風險,尤其在行情快速上升的時期。如果提前賣出手中的股票,往往意味著投資者無法享受「瘋狂」行情的拉升機會。這時,投資者可以在控制倉位的前提下繼續持股,但隨時做好止贏或止損的准備,一旦市場出現系統性風險的時候,投資者可以果斷斬倉賣出,從而防止損失的進一步擴大。
(6)解決數據集中風險的方法擴展閱讀:
信息系統風險的主要影響因素:
1、股價過高:
當股市經過狂炒後特別是無理性的炒作後,股價就會大幅飆升,從而導致股市的平均市盈率偏高、相對投資價值不足,此時先入市資金的盈利已十分豐厚,一些股民就會率先撤出,將資金投向別處,從而導致股市的暴跌。股市上有一句名言,暴漲之後必有暴跌,暴漲與暴跌是一對孿生兄弟,就是對這種風險的一種客觀描述。
2、從眾行為
在股市上,許多股民並無主見,看見別人拋售股票時,也不究其緣由,就認為該股票行情看跌,便跟著大量拋售,以致引起一個拋售狂潮,從而使該股票價格猛跌,造成股票持有人的損失。
3、環境惡化:
當一個國家宏觀經濟政策發生變化而將對上市公司的經營乃至整個國民經濟產生不利影響時,如政權或政府的更迭及某個領導人的逝世、戰爭及其他因素引起的社會動盪,在此時,所有企業的經營都無一例外地要受其影響,其經營水平面臨普遍下降的危險,股市上所有的股票價格都將隨之向下調整。
G. 數據收集和分析常用方法
一、頭腦風暴法:
常用於「收集需求」過程中,屬於群體創新技術。聯想是產生新觀念的基本過程。在集體討論問題的過程中,每提出一個新的觀念,都能引發他人的聯想。相繼產生一連串的新觀念,產生連鎖反應,形成新觀念堆,為創造性地解決問題提供了更多的可能性。
在不受任何限制的情況下,集體討論問題能激發人的熱情。人人自由發言、相互影響、相互感染,能形成熱潮,突破固有觀念的束縛,最大限度地發揮創造性地思維能力。
在有競爭意識情況下,人人爭先恐後,競相發言,不斷地開動思維機器,力求有獨到見解,新奇觀念。心理學的原理告訴我們,人類有爭強好勝心理,在有競爭意識的情況下,人的心理活動效率可增加50%或更多。
二、德爾菲技術:
常用於「收集需求」過程中,屬於群體創新技術。這一方法的步驟是:
(1)根據問題的特點,選擇和邀請做過相關研究或有相關經驗的專家。
(2)將與問題有關的信息分別提供給專家,請他們各自獨立發表自己的意見,並寫成書面材料。
(3)管理者收集並綜合專家們的意見後,將綜合意見反饋給各位專家,請他們再次發表意見。如果分歧很大,可以開會集中討論;否則,管理者分頭與專家聯絡。
(4)如此反復多次,最後形成代表專家組意見的方案。
德爾菲法的典型特徵
(1)吸收專家參與預測,充分利用專家的經驗和學識;
(2)採用匿名或背靠背的方式,能使每一位專家獨立自由地作出自己的判斷;
(3)預測過程幾輪反饋,使專家的意見逐漸趨同。
優點:能充分發揮各位專家的作用,集思廣益,准確性高。能把各位專家意見的分歧點表達出來,取各家之長,避各家之短。
缺點:德爾菲法的主要缺點是過程比較復雜,花費時間較長。
三、帕累托圖:
常用於「實施質量控制」過程中。帕累托圖又叫排列圖、主次圖,是按照發生頻率大小順序繪制的直方圖,表示有多少結果是由已確認類型或范疇的原因所造成。它是將出現的質量問題和質量改進項目按照重要程度依次排列而採用的一種圖表。可以用來分析質量問題,確定產生質量問題的主要因素。標准帕累托圖按等級排序的目的是指導如何採取糾正措施:項目班子應首先採取措施糾正造成最多數量缺陷的問題。從概念上說,帕累托圖與帕累托法則一脈相承,該法則認為相對來說數量較少的原因往往造成絕大多數的問題或缺陷。
排列圖用雙直角坐標系表示,左邊縱坐標表示頻數,右邊縱坐標表示頻率.分析線表示累積頻率,橫坐標表示影響質量的各項因素,按影響程度的大小(即出現頻數多少)從左到右排列,通過對排列圖的觀察分析可以抓住影響質量的主要因素.
帕累托法則往往稱為二八原理,即百分之八十的問題是百分之二十的原因所造成的。帕累托圖在項目管理中主要用來找出產生大多數問題的關鍵原因,用來解決大多數問題。
X(經典帕累托圖)
四、控制圖:
常用於「規劃質量、實施質量控制」過程中,就是對生產過程的關鍵質量特性值進行測定、記錄、評估並監測過程是否處於控制狀態的一種圖形方法。根據假設檢驗的原理構造一種圖,用於監測生產過程是否處於控制狀態。它是統計質量管理的一種重要手段和工具。
它是一種有控制界限的圖,用來區分引起的原因是偶然的還是系統的,可以提供系統原因存在的資訊,從而判斷生產過於受控狀態。控制圖按其用途可分為兩類,一類是供分析用的控制圖,用來控制生產過程中有關質量特性值的變化情況,看工序是否處於穩定受控狀;再一類的控制圖,主要用於發現生產過程是否出現了異常情況,以預防產生不合格品。
7點規則:如果遇到連續7點數據落在平均線的同一側。那麼,應當考慮是否存在特殊原因。因為,一個點落在平均線一側的概率是1/2。連續兩點落在同一側的概率是1/2中的1/2=1/4。連續三點落在同一側的概率是1/4中的1/2=1/8。如此下去,連續七點落在同一側的概率是(1/2)X(1/2)X(1/2)X(1/2)X(1/2)X(1/2)X(1/2)=1/128=0.0078。這個概率值是千分之8。這個概率應當講是很小的。當我們在生產抽樣的時候,這樣小的概率是不應當被抽到的。現在被抽到了,說明不正常了,就有可能發生了特殊原因。
五、SWOT分析:
常用於「識別風險」過程中,其中,S代表strength(優勢),W代表weakness(弱勢),O代表opportunity(機會),T代表threat(威脅)。其中,S、W是內部因素,O、T是外部因素。這種分析常用於企業內部分析方法,即根據企業自身的既定內在條件進行分析,找出企業的優勢、劣勢及核心競爭力之所在。
近來,SWOT分析已廣被應用在許多領域上,如學校的自我分析、個人的能力自我分析等方面。比如,在利用SWOT對自己進行職業發展分析時,可以遵循以下五個步驟:
第一步,評估自己的長處和短處每個人都有自己獨特的技能、天賦和能力。在當今分工非常細的環境里,每個人擅長於某一領域,而不是樣樣精通。(當然,除非天才)。舉個例子,有些人不喜歡整天坐在辦公室里,而有些人則一想到不得不與陌生人打交道時,心裡就發麻,惴惴不安。請作個列表,列出你自己喜歡做的事情和你的長處所在。同樣,通過列表,你可以找出自己不是很喜歡做的事情和你的弱勢。找出你的短處與發現你的長處同等重要,因為你可以基於自己的長處和短處上,作兩種選擇;或者努力去改正常的錯誤,提高你的技能,或是放棄那些對你不擅長的技能要求的學系。列出你認為自己所具備的很重要的強項和對你的學習選擇產生影響的弱勢,然後再標出那些你認為對你很重要的強弱勢。
第二步,找出您的職業機會和威脅。我們知道,不同的行業(包括這些行業里不同的公司)都面臨不同的外部機會和威脅,所以,找出這些外界因素將助您成功地找到一份適合自己的工作,對您求職是非常重要的,因為這些機會和威脅會影響您的第一份工作和今後的職業發展。如果公司處於一個常受到外界不利因素影響的行業里,很自然,這個公司能提供的職業機會將是很少的,而且沒有職業升遷的機會。相反,充滿了許多積極的外界因素的行業將為求職者提供廣闊的職業前景。請列出您感興趣的一兩個行業,然後認真地評估這些行業所面臨的機會和威脅。
第三步,提綱式地列出今後3-5年內您的職業目標。仔細地對自己做一個SWOT分析評估,列出您5年內最想實現的四至五個職業目標。這些目標可以包括:您想從事哪一種職業,您將管理多少人,或者您希望自己拿到的薪水屬哪一級別。請時刻記住:您必須竭盡所能地發揮出自己的優勢,使之與行業提供的工作機會完滿匹配。
第四步,提綱式地列出一份今後3-5年的職業行動計劃。這一步主要涉及到一些具體的內容。請您擬出一份實現上述第三步列出的每一目標的行動計劃,並且詳細地說明為了實現每一目標,您要做的每一件事,何時完成這些事。如果您覺得您需要一些外界幫助,請說明您需要何種幫助和您如何獲取這種幫助。例如,您的個人SWOT分析可能表明,為了實現您理想中的職業目標,您需要進修更多的管理課程,那麼,您的職業行動計劃應說明要參加哪些課程、什麼水平的課程以及何時進修這些課程等等。您擬訂的詳盡的行動計劃將幫助您做決策,就像外出旅遊前事先制定的計劃將成為您的行動指南一樣。
第五步,尋求專業幫助。能分析出自己職業發展及行為習慣中的缺點並不難,但要去以合適的方法改變它們卻很難。相信您的朋友、上級主管、職業咨詢專家都可以給您一定的幫助,特別是很多時候藉助專業的咨詢力量會讓您大走捷徑。有外力的協助和監督也會讓您更好的取得效。
六、敏感性分析:
常用於「實施定量風險分析」過程中,敏感性分析的作用是確定影響項目風險的敏感因素。尋找出影響最大、最敏感的主要變數因素,進一步分析、預測或估算其影響程度,找出產生不確定性的根源,採取相應有效措施。敏感性分析有助於確定哪些風險對項目具有最大的潛在影響。它把所有其他不確定因素保持在基準值的條件下,考察項目的每項要素的不確定性對日標產生多大程度的影響。敏感性分析最常用的顯示方式是龍卷風圖。龍卷風圖有助於比較具有較高不確定性的變數與相對穩定的變數之間的相對重要程度。
七、預期貨幣價值:
又稱風險暴露值、風險期望值,是定量風險分析的一種技術,常和決策樹一起使用,它是將特定情況下可能的風險造成的貨幣後果和發生概率相乘,此項目包含了風險和現金的考慮。正值表示機會,負值表示風險。每個可能結果的數值與發生機率相乘後加總即得到。
例:一專案投資100萬,有50%機率會延誤而罰款20萬則EMV值為多少?
答:100+(-20*50%)=90
八、蒙特卡羅法:
用於定量風險分析,是一種採用隨機抽樣(Random Sampling)統計來估算結果的計算方法。項目管理中蒙特卡羅模擬方法的一般步驟是:
1.對每一項活動,輸入最小、最大和最可能估計數據,並為其選擇一種合適的先驗分布模型;
2.計算機根據上述輸入,利用給定的某種規則,快速實施充分大量的隨機抽樣
3.對隨機抽樣的數據進行必要的數學計算,求出結果
4.對求出的結果進行統計學處理,求出最小值、最大值以及數學期望值和單位標准偏差
5.根據求出的統計學處理數據,讓計算機自動生成概率分布曲線和累積概率曲線(通常是基於正態分布的概率累積S曲線)
6.依據累積概率曲線進行項目風險分析。