導航:首頁 > 研究方法 > 關聯分析方法

關聯分析方法

發布時間:2022-01-09 00:43:15

1. 生物信息學中的連鎖分析與關聯分析有哪些區別和聯系呢

‍‍

生物信息學,是一門綜合學科。涉及到數學,生物學和計算機的內容。但在我看來,計算機的基礎需要,但要求不是很高,關鍵是要有很好的生物學知識,包括遺傳學的、生物化學的、發育生物學的、分子生物學的、植物生理學的知識等等,也就說需要達到這樣的一個要求:在進行數據分析時,能對各種分析結果進行生物學的評價,並給出最優的分析策略。同時也應該有純熟的數理基礎,包括統計學的、拓撲學的,這樣才能把待分析的問題轉換成可計算的模型,最後能給出實現的程序。從個人來說,因為生物信息學是一個非常大的領域,所以,關鍵是要確定自己的研究方向。比如,以關聯分析為方向的生物信息學,那麼就要掌握好各種關聯分析的統計分析方法,有很強的數據管理能力,足夠好的序列分析能力(這是進行variation查找和分析的基礎)。回到6年以前,如果決定在生物信息學上發展,那麼我也許會做下面這些事情:首先,從最不重要的計算機這個方面來說:要掌握好bash等腳本語言,一般的linux問題都能很好的解決。熟練使用apache,mysql等基礎軟體工具,用joomla等CMS配置搭建網站。應該努力精通perl,bioperl,以基於此的各種分析工具,比如gbrowser,cmap等。足夠好的c/c++語言能力,這是實現新演算法的最高效語言。應該努力精通R語言,這是進行統計分析的基礎工具。如果有機會,學學erlang這樣一些函數式語言吧。

‍‍

2. 灰色關聯分析法

通過確定合理的參考數列和因素數列,採用灰色關聯分析法可以篩選出對含水影響較大的單井,從而為採取針對性的措施提供依據。其步驟如下:

1)參考數列確定:以油田含水為參考數列。

2)因素數列確定:油田含水的變化主要受單井產水量的影響,因此因素數列為所有油井,指標為各油井的產水量。

3)初始序列的無量綱化:由於含水率和產水量都為趨小指標,採用式(3-44)進行標准化。

4)關聯系數、關聯度、關聯序的計算方法同前。

5)應用。

2008年永8斷塊油藏共有21口油井生產,利用灰色關聯分析對油藏含水影響較大的油井進行了篩選,各井關聯序如表3-8,可以看出對該年度含水影響最大的為XLA8P8井,月產水量從1月份的3141m3增加到12月份的4684m3,而月產油量卻從572t減小到345t;其次為XLA8X22井。2009年對兩口井分別採取了完善注采井網和補孔改層的調整措施,取得了良好效果。

表3-8 永8油藏2008年油井對含水關聯度計算結果

3. 如何產生關聯分析的輸入數據

產生合適的交易流數據(transactions)是進行關聯規則分析的前提條件,下面將用四種方法來產生交易流數據。
一、使用list來產生:
(1)形成list
a_list <- list(
+ c("a","b","c"),
+ c("a","b"),
+ c("a","b","d"),
+ c("c","e"),
+ c("a","b","d","e")
+ )
> a_list
[1]
[1] "a" "b" "c"
[2]
[1] "a" "b"
[3]
[1] "a" "b" "d"
[4]
[1] "c" "e"
[5]
[1] "a" "b" "d" "e"
(2)#命名
> names(a_list) <- paste("Tr",c(1:5), sep = "")
(3)#轉換
> trans <- as(a_list, "transactions")
(4)#test是否建立成功
> trans
> summary(trans)
二、使用matrix數據來產生:
(1)矩陣
>a_matrix <- matrix(
+ c(1,1,1,0,0,
+ 1,1,0,0,0,
+ 1,1,0,1,0,
+ 0,0,1,0,1,
+ 1,1,0,1,1), ncol = 5)
(2)命名
> dimnames(a_matrix) <- list(
+ c("a","b","c","d","e"),
+ paste("Tr",c(1:5), sep = ""))
(3)查看矩陣與轉化
> a_matrix
Tr1 Tr2 Tr3 Tr4 Tr5
a 1 1 1 0 1
b 1 1 1 0 1
c 1 0 0 1 0
d 0 0 1 0 1
e 0 0 0 1 1
> trans2 <- as(a_matrix, "transactions")
(4)檢查是否成功
> inspect(trans2)
三、使用 data frame 來產生:
(1)因子變數轉化為數據框
> a_df <- data.frame(
+ age = as.factor(c(6,8,7,6,9,5)),
+ grade = as.factor(c(1,3,1,1,4,1)))
(2)轉化
> trans3 <- as(a_df, "transactions")
(3)驗證是否成功
> inspect(trans3)
四、當 data frame 中有缺失值時:
(1)取樣樣本
> a_df2 <- sample(c(LETTERS[1:5], NA),10,TRUE) #有缺失值
> a_df2
[1] "C" "C" "D" "A" "A" "E" "A" "D" "E" NA
(2)轉化為數據框
> a_df2 <- data.frame(X = a_df2, Y = sample(a_df2))
> a_df2
X Y
1 C E
2 C A
3 D A
4 A C
5 A C
6 E E
7 A D
8 D A
9 E <NA>
10 <NA> D
(3)轉換
> trans4 <- as(a_df2, "transactions")
(4)再轉為數據框
> as(trans4, "data.frame")
(5)檢驗是否成功
> inspect(trans4)
五、當 data frame 中包含交易ID 和交易物品時:
(1)數據源
> a_df3 <- data.frame(TID = c(1,1,2,2,2,3), item=c("a","b","a","b","c", "b"))
> a_df3
TID item
1 1 a
2 1 b
3 2 a
4 2 b
5 2 c
6 3 b
(2)拆分轉換
> trans5<- as(split(a_df3[,"item"], a_df3[,"TID"]), "transactions")
> inspect(trans5)
> LIST(trans5)
$`1`
[1] "a" "b"
$`2`
[1] "a" "b" "c"
$`3`
[1] "b"

4. 什麼是數據挖掘中的關聯分析

FineBI數據挖掘的結果將以欄位和記錄的形式添加到多維資料庫中,並可以在新建分析時從一個專門的數據挖掘業務包中被使用,使用的方式與拖拽任何普通的欄位沒有任何區別。
配合FineBI新建分析中的各種控制項和圖表,使用OLAP的分析人員可以輕松的查看他們想要的特定的某個與結果,或是各種各樣結果的匯總。

5. 關聯分析 分析在哪些情況下,一種演算法比其他演算法好

灰色關聯度分析法是一種多因素統計分析方法,它是以各因素的樣本數據為依據用灰色關聯度來描述因素間關系的強弱、大小和次序,若樣本數據反映出的兩因素變化的態勢(方向、大小和速度等)基本一致,則它們之間的關聯度較大

6. 灰色系統的關聯分析

由灰色理論提出的灰關聯度分析方法,是基於行為因子序列的微觀或宏觀幾何接近,以分析和確定因子間的影響程度或因子對甚主行為的貢獻測度而進行的一種分析方法。灰關聯是指事物之間的不確定性關聯,或系統因子與主行為因子之間的不確定性關聯。它根據因素之間發展態勢的相似或相異程度來衡量因素間的關聯程度。由於關聯度分析是按發展趨勢作分析,因而對樣本量的大小沒有太高的要求,分析時也不需要典型的分布規律,而且分析的結果一般與定性分析相吻合,具有廣泛的實用價值。

7. 用數據挖掘中頻繁關聯分析的方法,尋找最有可能同時購買的一對商品.

首先建立的tree,然後查看頻繁節點

1

lift提升度1.13效果還是比較好的,當然還有三個1.5的,但是支持度不明顯

手寫的字好難看,不要笑話我啊

8. 關聯分析的關聯分析的方法


Apriori演算法是挖掘產生布爾關聯規則所需頻繁項集的基本演算法,也是最著名的關聯規則挖掘演算法之一。Apriori演算法就是根據有關頻繁項集特性的先驗知識而命名的。它使用一種稱作逐層搜索的迭代方法,k—項集用於探索(k+1)—項集。首先,找出頻繁1—項集的集合.記做L1,L1用於找出頻繁2—項集的集合L2,再用於找出L3,如此下去,直到不能找到頻繁k—項集。找每個Lk需要掃描一次資料庫。
為提高按層次搜索並產生相應頻繁項集的處理效率,Apriori演算法利用了一個重要性質,並應用Apriori性質來幫助有效縮小頻繁項集的搜索空間。
Apriori性質:一個頻繁項集的任一子集也應該是頻繁項集。證明根據定義,若一個項集I不滿足最小支持度閾值min_sup,則I不是頻繁的,即P(I)<min_sup。若增加一個項A到項集I中,則結果新項集(I∪A)也不是頻繁的,在整個事務資料庫中所出現的次數也不可能多於原項集I出現的次數,因此P(I∪A)<min_sup,即(I∪A)也不是頻繁的。這樣就可以根據逆反公理很容易地確定Apriori性質成立。
針對Apriori演算法的不足,對其進行優化:
1)基於劃分的方法。該演算法先把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊並對它生成所有的頻繁項集,然後把產生的頻繁項集合並,用來生成所有可能的頻繁項集,最後計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而演算法的正確性是由每一個可能的頻繁項集至少在某一個分塊中是頻繁項集保證的。
上面所討論的演算法是可以高度並行的。可以把每一分塊分別分配給某一個處理器生成頻繁項集。產生頻繁項集的每一個循環結束後.處理器之間進行通信來產生全局的候選是一項集。通常這里的通信過程是演算法執行時間的主要瓶頸。而另一方面,每個獨立的處理器生成頻繁項集的時間也是一個瓶頸。其他的方法還有在多處理器之間共享一個雜湊樹來產生頻繁項集,更多關於生成頻繁項集的並行化方法可以在其中找到。
2)基於Hash的方法。Park等人提出了一個高效地產生頻繁項集的基於雜湊(Hash)的演算法。通過實驗可以發現,尋找頻繁項集的主要計算是在生成頻繁2—項集Lk上,Park等就是利用這個性質引入雜湊技術來改進產生頻繁2—項集的方法。
3)基於采樣的方法。基於前一遍掃描得到的信息,對它詳細地做組合分析,可以得到一個改進的演算法,其基本思想是:先使用從資料庫中抽取出來的采樣得到一些在整個資料庫中可能成立的規則,然後對資料庫的剩餘部分驗證這個結果。這個演算法相當簡單並顯著地減少了FO代價,但是一個很大的缺點就是產生的結果不精確,即存在所謂的數據扭曲(Dataskew)。分布在同一頁面上的數據時常是高度相關的,不能表示整個資料庫中模式的分布,由此而導致的是采樣5%的交易數據所花費的代價同掃描一遍資料庫相近。
4)減少交易個數。減少用於未來掃描事務集的大小,基本原理就是當一個事務不包含長度為志的大項集時,則必然不包含長度為走k+1的大項集。從而可以將這些事務刪除,在下一遍掃描中就可以減少要進行掃描的事務集的個數。這就是AprioriTid的基本思想。 由於Apriori方法的固有缺陷.即使進行了優化,其效率也仍然不能令人滿意。2000年,Han Jiawei等人提出了基於頻繁模式樹(Frequent Pattern Tree,簡稱為FP-tree)的發現頻繁模式的演算法FP-growth。在FP-growth演算法中,通過兩次掃描事務資料庫,把每個事務所包含的頻繁項目按其支持度降序壓縮存儲到FP—tree中。在以後發現頻繁模式的過程中,不需要再掃描事務資料庫,而僅在FP-Tree中進行查找即可,並通過遞歸調用FP-growth的方法來直接產生頻繁模式,因此在整個發現過程中也不需產生候選模式。該演算法克服了Apriori演算法中存在的問顥.在執行效率上也明顯好於Apriori演算法。

9. 灰色關聯分析方法如何計算

灰關聯分析的具體計算步驟如下:
(1)確定反映系統行為特徵的參考數列和影響系統行為的比較數列
反映系統行為特徵的數據序列,稱為參考數列。影響系統行為的因素組成的數據序列,稱比較數列。
(2)對參考數列和比較數列進行無量綱化處理
由於系統中各因素的物理意義不同,導致數據的量綱也不一定相同不便於比較,或在比較時難以得到正確的結論。因此在進行灰色關聯度分析時,一般都要進行無量綱化的數據處理。
(3)、求差序列(4)、求兩級最大差與最小差(5)、求關聯系數(6)、計算關聯度
我自己在word中編輯的公式粘貼不過來

閱讀全文

與關聯分析方法相關的資料

熱點內容
125x88用三種方法簡便演算法怎麼算 瀏覽:43
dota2更新慢解決方法 瀏覽:317
怎樣教育男孩子才是正確的方法 瀏覽:757
三能土司模具使用方法 瀏覽:701
什麼是系統治療方法 瀏覽:583
怎麼設置屏幕按鈕在哪裡設置方法 瀏覽:586
膠水管粘接方法視頻 瀏覽:202
燒傷疤痕的治療方法 瀏覽:980
列舉甲骨文的造艦方法有哪些 瀏覽:31
魅族的語音助手在哪裡設置方法 瀏覽:158
治便秘最有效的方法是什麼 瀏覽:137
沖浪泵的正確安裝方法 瀏覽:887
fresh綠茶麵膜使用方法 瀏覽:938
手老是抽搐的原因及解決方法 瀏覽:893
三點共線的常用證明方法初中 瀏覽:548
小兒長咳嗽有哪些方法 瀏覽:191
暖氣管的正確方法 瀏覽:618
快速批量刪除朋友圈方法 瀏覽:362
寶寶鍛煉腳的力量訓練方法 瀏覽:908
女啞鈴鍛煉方法圖解 瀏覽:778