㈠ 1. 概率圖模型
對現實世界的不確定性進行建模
1.4 貝葉斯公式
通過上面的加法規則和乘法規則,以及P(X,Y)=P(Y,X)。我們可以得到 貝葉斯公式 :
其中P(X)為:
貝葉斯公式寫成另外的一種常見的符號形式:
其中D表示觀察到的數據,也成為Evidence, w表示相應的參數。
p(D|w)表示似然函數(likehood function)。P(w)成為參數w的先驗。p(w|D)表示參數w的後驗概率。
所以可以得到:
其中
優點:
圖模型分為三類。
常用於描述變數之間的因果關系
貝葉斯網路中的聯合概率:
p(x)=P(xk|parent)
假設三個變數a,b,c上的聯槐檔攔合概率分布p(a,b,c).
那麼p(a,b,c)=p(c|ba)p(ba)=p(c|ba)p(b|a)p(a)
上面的圖是全連接的。但是真實世界中變數之間確實是全連接的嗎?
而且真正傳遞出概率分布性質的有趣信息是圖中信息的缺失。
** 為什麼呢?**
因為對於全連接的圖模型可以用來代表所有的概率分布。這樣的狀態空間是巨大的。意義不大。
但是對於圖中缺少邊的模型,則只能對應於具有某些條件獨立性質的
概率分布。
比如說:
對於如下的圖模型:
非全鏈接的圖模型中包含了相應的領域知識和因果關系。
對於下面一個關於學生成績的例子。
我們假設各個隨機變數出現的概率如下:
有了每個因子的分鉛胡布之後, 就可以得到任意的概率分布了。方法就是:使用加法公式和乘積公式。
另外的一個問題是: 對於圖模型中的變數怎麼快速的知道它們之間是否相互影響。例如:
在左邊對應的六種情況下,只有最後一種情況X→W←Y下X的概率不會影響到Y的概率。這是因為W不是被觀察變數,其值是未蠢沒知的,因此隨機變數X的值不會影響隨機變數Y的取值。有趣的是,當中間W變數成為被觀察變數,上述結論就會發生變化。如下圖所示
當WєZ時,即W為觀察變數時,所有判斷會變得相反。仍然以 X→W← Y 為例,此時W的值已知,比如已知某個學生Grade為B,那麼此時學生的聰明程度Intelligence和課程難度Difficulty就不再條件獨立了。比如,這種情況下如果課程比較容易,那邊學生很聰明的概率較小;反之,若課程很難,則學生很聰明的概率較大。
結論: 概率影響的流動性反應了貝葉斯網路中隨機變數條件獨立性關系
那麼貝葉斯網路中的獨立性或者說影響的流動性是如何的呢?
先來看看 ,圖模型結構圖中,三種常見的本地結構。
一般的如果沒有觀察變數,見結構1中的圖,但是變數c是未知的。 那麼:
對兩邊進行積分或者求和:
因為:
結構2:
可以得到:
結構3:
因為:
考慮一個一般的有向圖,其中A,B,C是任意無交集的集合。我們的目的在於希望從圖中迅速的觀察到在給定C的情況下A與B是否相互獨立。考慮A中任意節點到B中任意節點的所有可能路徑,如果路徑中包含一個滿足下面任何一條的節點,那麼就認為該路徑是被阻隔的。
馬爾科夫毯 :
我們以馬爾科夫毯來結束對貝葉斯網路獨立性的討論。考慮如下的圖模型:
考慮變數x(i)對應節點上的條件概率分布,其中條件為所有剩餘的變數。使用分解性質,可得:
最後與x(i)無關的變數可以提取,進行消除。唯一剩下的因子包括:p(xi|pai)以及p(Xk|Pak)其中xi為xk的父節點。
p(Xk|Pak)不僅僅依賴於xi,還依賴於xk的父節點。
我們可以將馬爾科夫毯想像成為將xi與圖中剩餘部分隔離開的最小集合。
(用於引出貝葉斯概率圖模型中的表示)
考慮一個多項式回歸的問題:
其中參數w為多項式稀疏,a為超參,t為觀測變數。x為輸入,另外一個為高斯分布的方差。
概率圖模型為了清晰的在圖形中表明各種的變數的狀態。引入了特殊的表示法:包括觀察變數,隱含變數,輸入,參數,以及plate的概念。
其他的參考模型:LDA, PLSA模型圖。
有了t,我們可以計算w的後驗概率:
最終目標是對輸入變數進行預測,假設給定一個輸入值x^,我們需要預測輸出。概率模型圖如下:
那麼模型的聯合分布為:
對w進行積分就可以得到相應的預測值:
圖模型描述了生成觀測數據的生成式模型。因此這種模型通常被稱為生成式模型。
對於概率模型的實際應用,通常情況下是,數量眾多的變數對應於圖的終端節點,較少的對應隱變數(hidden variables)。隱變數的主要作用是使得觀測變數上的復雜分布可以表示為由簡單條件分布構建的模型。(具體的原因,在E-M演算法部分進行說明)
一個馬爾科夫隨機場也成為馬爾科夫網路,或者無向圖模型,包含了一組節點,每個節點都對應一個變數或者一組變數。鏈接是無向的,即不含箭頭。
無向圖的連接沒有了方向,所以父子節點之間的對稱性也消除了。所以可以使用一下兩種方法判斷是否獨立:
無向圖的馬爾科夫毯 非常簡單,因為節點只依賴於相鄰的節點,而z給定鄰居節點的情況下,條件獨立於任何其他的節點。
剩下的一個問題是:如何寫出馬爾科夫隨機場的聯合分布。也就是如何對聯合分布進行 分解。
先來考慮圖中的一個概念clique:
維基網路中的解釋: a clique is a subset of vertices of an [undirected graph] such that its [inced subgraph]is [complete]; that is, every two distinct vertices in the clique are adjacent 。
馬爾科夫隨機場的聯合概率可以分解為圖中最大團快的勢函數(potential functions )的乘積形式:
其中Z被稱為劃分函數,是一個歸一化常數,等於:
我們假定勢函數是大於0的,因此可以將勢函數表示為指數的形式:
其中E(Xc)稱為能量函數。
因子圖主要用於模型的推斷過程。
參考文獻:
書籍《Pattern Recognition andMachine Learning》 第八章
㈡ 數據挖掘中建立模型 採用的是什麼研究方法
1.可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數據挖掘演算法
大數據分析的理論核心就是數據挖掘演算法,各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計 學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據,如 果一個演算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
3. 預測性分析
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學的建立模型,之後便可以通過模型帶入新的數據,從而預測未來的數據。
4. 語義引擎
非結構化數據的多元化給數據分析帶來新的挑戰,我們需要一套工具系統的去分析,提煉數據。語義引擎需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。
5.數據質量和數據管理。 大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面,當然更加深入大數據分析的話,還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。
大數據的技術
數據採集: ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成,最後載入到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取: 關系資料庫、NOSQL、SQL等。
基礎架構: 雲存儲、分布式文件存儲等。
數據處理: 自然語言處理(NLP,Natural Language Processing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機」理解」自然語言,所以自然語言處理又叫做自然語言理解也稱為計算語言學。一方面它是語言信息處理的一個分支,另一方面它是人工智慧的核心課題之一。
統計分析: 假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、 方差分析 、 卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、 因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
數據挖掘: 分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預測 :預測模型、機器學習、建模模擬。
結果呈現: 雲計算、標簽雲、關系圖等。
大數據的處理
1. 大數據處理之一:採集
大數據的採集是指利用多個資料庫來接收發自客戶端(Web、App或者感測器形式等)的 數據,並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型資料庫MySQL和Oracle等來存儲每一筆事務數據,除 此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。
在大數據的採集過程中,其主要特點和挑戰是並發數高,因為同時有可能會有成千上萬的用戶 來進行訪問和操作,比如火車票售票網站和淘寶,它們並發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間 進行負載均衡和分片的確是需要深入的思考和設計。
2. 大數據處理之二:導入/預處理
雖然採集端本身會有很多資料庫,但是如果要對這些海量數據進行有效的分析,還是應該將這 些來自前端的數據導入到一個集中的大型分布式資料庫,或者分布式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使 用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。
導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鍾的導入量經常會達到百兆,甚至千兆級別。
3. 大數據處理之三:統計/分析
統計與分析主要利用分布式資料庫,或者分布式計算集群來對存儲於其內的海量數據進行普通 的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基於 MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
4. 大數據處理之四:挖掘
與前面統計和分析過程不同的是,數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數 據上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於 統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很復雜,並 且計算涉及的數據量和計算量都很大,常用數據挖掘演算法都以單線程為主。
整個大數據處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大數據處理。
㈢ 構建模型圖是什麼論文研究方法
論文研究模型構建的方法,主要是需要掌握學員的論文構建模式。利用論文的框架結構來完成模式的修改以及模板的操作。
㈣ 統計分析中常用的有哪幾種「方法圖」
統計質量控制分析方法之一:排列圖法,利用排列圖尋找影響質量主次因素的一種有效方法。統計質量控制分析方法之二:統計調查表法,利用專門設計的統計表對質量數據進行收集、整理和粗略分析質量狀態的一種方法。統計質量控制分析方法之三:直方圖法,將收集到的質量數據進行分組整理,繪製成頻數分布直方圖,用以描述質量分布狀態的一種分析方法。統計質量控制分析方法之四:分層法,將調查收集的原始數據,根據不同的目的和要求,按某一性質進行分組、整理的分析方法。統計質量控制分析方法之五:因果分析圖法,利用因果分析圖來系統整理分析某個質量問題(結果)與其產生原因之間關系的有效工具。統計質量控制分析方法之六:控制圖,用途主要有兩個:過程分析,即分析生產過程是否穩定。過程式控制制,即控制生產過程質量狀態。統計質量控制分析方法之七:相關圖,在質量控制中它是用來顯示兩種質量數據之間關系的一種圖形。以上就是統計質量控制的幾種分析方法及用途,它不僅適用於質量控制,更可應用於一切管理過程。採用統計質量控制的這幾種方法可以幫助企業在質量控制上真正作到"事前"預防和控制。
㈤ 概率圖模型的概率圖模型表示理論
概率圖模型的表示方法,研究如何利用概率網路中的獨立性來簡化聯合概率分布的方法表示。概率圖模型能有效處理不確定性推理,從手或樣本數據中准確高效地學習概率圖模型是其在實際應用中的關鍵問題.概率圖模型的表示由參數和結構兩部分組成,PGM的分類如圖1. :
(1)根據邊有無方向性分類;
(2)根據表示的抽象級別不同分類。
根據邊有無方向性,PGM可以分為三類
(1)有向圖模型,也稱為貝葉斯網(BayesianNetwork,BN),其網路結構使用有向無環圖;
(2)無向圖模型,也稱為馬爾可夫網(MarkovNetwork,MN),其網路結構為無向圖;
(3) 局部有向模型,即同時存在有向邊和無向邊的模型,包括條件隨機場(ConditionalRandomField,CRF)和鏈圖(ChainGraph).根據表示的抽象級別不同,PGM可分兩類:
(1)基於隨機變數的概率圖模型,如貝葉斯網、馬爾可夫網、條件隨機場和鏈圖等;
(2)基於模板的概率圖模型.這類模型根據應用場景不同又可分為兩種:
(a)為暫態模型,包括動態貝葉斯網(Dynamic Bayesian Network,DBN)[6]和狀態觀測模型,其中狀態觀測模型又包括線性動態系統(Linear Dynamic System,LDS)和隱馬爾可夫模型(Hidden Markov Model,HMM);
(b)為對象關系領域的概率圖模型,包括盤模型(Plate Model,PM)、概率關系模型(Probabilistic Relational Model,PRM)和關系馬爾可夫網(Relational Markov Network,RMN).總結如下
(1)單個節點上的條件概率分布的表示模族轎型及其引起的獨立性,包括表格CPD、確定性CPD、特定上下文CPD、因果影響CPD、高斯模型和混合模型,並把單個分布模型推廣到指數分布族中。
(2)貝葉斯網路中的獨立性以及兆薯肆圖與概率分布的關系,高斯分布和指數分布族的貝葉斯網路表示理論。馬爾可夫網路的參數化問題及其獨立性,高斯分布和指數分布族的馬爾可夫網路表示理論。
(3)兩種局部有向圖模型:條件隨機場和鏈圖。
(4)基於模板的概率模型表示,包括動態貝葉斯網路和狀態觀測模型這兩種暫態模型,
(5)盤模型和概率關系模型這兩種對象關系領域的有向概率模型,對象關系領域的無向表示。