1. 生物信息学中的连锁分析与关联分析有哪些区别和联系呢
生物信息学,是一门综合学科。涉及到数学,生物学和计算机的内容。但在我看来,计算机的基础需要,但要求不是很高,关键是要有很好的生物学知识,包括遗传学的、生物化学的、发育生物学的、分子生物学的、植物生理学的知识等等,也就说需要达到这样的一个要求:在进行数据分析时,能对各种分析结果进行生物学的评价,并给出最优的分析策略。同时也应该有纯熟的数理基础,包括统计学的、拓扑学的,这样才能把待分析的问题转换成可计算的模型,最后能给出实现的程序。从个人来说,因为生物信息学是一个非常大的领域,所以,关键是要确定自己的研究方向。比如,以关联分析为方向的生物信息学,那么就要掌握好各种关联分析的统计分析方法,有很强的数据管理能力,足够好的序列分析能力(这是进行variation查找和分析的基础)。回到6年以前,如果决定在生物信息学上发展,那么我也许会做下面这些事情:首先,从最不重要的计算机这个方面来说:要掌握好bash等脚本语言,一般的linux问题都能很好的解决。熟练使用apache,mysql等基础软件工具,用joomla等CMS配置搭建网站。应该努力精通perl,bioperl,以基于此的各种分析工具,比如gbrowser,cmap等。足够好的c/c++语言能力,这是实现新算法的最高效语言。应该努力精通R语言,这是进行统计分析的基础工具。如果有机会,学学erlang这样一些函数式语言吧。
2. 灰色关联分析法
通过确定合理的参考数列和因素数列,采用灰色关联分析法可以筛选出对含水影响较大的单井,从而为采取针对性的措施提供依据。其步骤如下:
1)参考数列确定:以油田含水为参考数列。
2)因素数列确定:油田含水的变化主要受单井产水量的影响,因此因素数列为所有油井,指标为各油井的产水量。
3)初始序列的无量纲化:由于含水率和产水量都为趋小指标,采用式(3-44)进行标准化。
4)关联系数、关联度、关联序的计算方法同前。
5)应用。
2008年永8断块油藏共有21口油井生产,利用灰色关联分析对油藏含水影响较大的油井进行了筛选,各井关联序如表3-8,可以看出对该年度含水影响最大的为XLA8P8井,月产水量从1月份的3141m3增加到12月份的4684m3,而月产油量却从572t减小到345t;其次为XLA8X22井。2009年对两口井分别采取了完善注采井网和补孔改层的调整措施,取得了良好效果。
表3-8 永8油藏2008年油井对含水关联度计算结果
3. 如何产生关联分析的输入数据
产生合适的交易流数据(transactions)是进行关联规则分析的前提条件,下面将用四种方法来产生交易流数据。
一、使用list来产生:
(1)形成list
a_list <- list(
+ c("a","b","c"),
+ c("a","b"),
+ c("a","b","d"),
+ c("c","e"),
+ c("a","b","d","e")
+ )
> a_list
[1]
[1] "a" "b" "c"
[2]
[1] "a" "b"
[3]
[1] "a" "b" "d"
[4]
[1] "c" "e"
[5]
[1] "a" "b" "d" "e"
(2)#命名
> names(a_list) <- paste("Tr",c(1:5), sep = "")
(3)#转换
> trans <- as(a_list, "transactions")
(4)#test是否建立成功
> trans
> summary(trans)
二、使用matrix数据来产生:
(1)矩阵
>a_matrix <- matrix(
+ c(1,1,1,0,0,
+ 1,1,0,0,0,
+ 1,1,0,1,0,
+ 0,0,1,0,1,
+ 1,1,0,1,1), ncol = 5)
(2)命名
> dimnames(a_matrix) <- list(
+ c("a","b","c","d","e"),
+ paste("Tr",c(1:5), sep = ""))
(3)查看矩阵与转化
> a_matrix
Tr1 Tr2 Tr3 Tr4 Tr5
a 1 1 1 0 1
b 1 1 1 0 1
c 1 0 0 1 0
d 0 0 1 0 1
e 0 0 0 1 1
> trans2 <- as(a_matrix, "transactions")
(4)检查是否成功
> inspect(trans2)
三、使用 data frame 来产生:
(1)因子变量转化为数据框
> a_df <- data.frame(
+ age = as.factor(c(6,8,7,6,9,5)),
+ grade = as.factor(c(1,3,1,1,4,1)))
(2)转化
> trans3 <- as(a_df, "transactions")
(3)验证是否成功
> inspect(trans3)
四、当 data frame 中有缺失值时:
(1)取样样本
> a_df2 <- sample(c(LETTERS[1:5], NA),10,TRUE) #有缺失值
> a_df2
[1] "C" "C" "D" "A" "A" "E" "A" "D" "E" NA
(2)转化为数据框
> a_df2 <- data.frame(X = a_df2, Y = sample(a_df2))
> a_df2
X Y
1 C E
2 C A
3 D A
4 A C
5 A C
6 E E
7 A D
8 D A
9 E <NA>
10 <NA> D
(3)转换
> trans4 <- as(a_df2, "transactions")
(4)再转为数据框
> as(trans4, "data.frame")
(5)检验是否成功
> inspect(trans4)
五、当 data frame 中包含交易ID 和交易物品时:
(1)数据源
> a_df3 <- data.frame(TID = c(1,1,2,2,2,3), item=c("a","b","a","b","c", "b"))
> a_df3
TID item
1 1 a
2 1 b
3 2 a
4 2 b
5 2 c
6 3 b
(2)拆分转换
> trans5<- as(split(a_df3[,"item"], a_df3[,"TID"]), "transactions")
> inspect(trans5)
> LIST(trans5)
$`1`
[1] "a" "b"
$`2`
[1] "a" "b" "c"
$`3`
[1] "b"
4. 什么是数据挖掘中的关联分析
FineBI数据挖掘的结果将以字段和记录的形式添加到多维数据库中,并可以在新建分析时从一个专门的数据挖掘业务包中被使用,使用的方式与拖拽任何普通的字段没有任何区别。
配合FineBI新建分析中的各种控件和图表,使用OLAP的分析人员可以轻松的查看他们想要的特定的某个与结果,或是各种各样结果的汇总。
5. 关联分析 分析在哪些情况下,一种算法比其他算法好
灰色关联度分析法是一种多因素统计分析方法,它是以各因素的样本数据为依据用灰色关联度来描述因素间关系的强弱、大小和次序,若样本数据反映出的两因素变化的态势(方向、大小和速度等)基本一致,则它们之间的关联度较大
6. 灰色系统的关联分析
由灰色理论提出的灰关联度分析方法,是基于行为因子序列的微观或宏观几何接近,以分析和确定因子间的影响程度或因子对甚主行为的贡献测度而进行的一种分析方法。灰关联是指事物之间的不确定性关联,或系统因子与主行为因子之间的不确定性关联。它根据因素之间发展态势的相似或相异程度来衡量因素间的关联程度。由于关联度分析是按发展趋势作分析,因而对样本量的大小没有太高的要求,分析时也不需要典型的分布规律,而且分析的结果一般与定性分析相吻合,具有广泛的实用价值。
7. 用数据挖掘中频繁关联分析的方法,寻找最有可能同时购买的一对商品.
首先建立的tree,然后查看频繁节点
1
lift提升度1.13效果还是比较好的,当然还有三个1.5的,但是支持度不明显
手写的字好难看,不要笑话我啊
8. 关联分析的关联分析的方法
Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法,也是最着名的关联规则挖掘算法之一。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。它使用一种称作逐层搜索的迭代方法,k—项集用于探索(k+1)—项集。首先,找出频繁1—项集的集合.记做L1,L1用于找出频繁2—项集的集合L2,再用于找出L3,如此下去,直到不能找到频繁k—项集。找每个Lk需要扫描一次数据库。
为提高按层次搜索并产生相应频繁项集的处理效率,Apriori算法利用了一个重要性质,并应用Apriori性质来帮助有效缩小频繁项集的搜索空间。
Apriori性质:一个频繁项集的任一子集也应该是频繁项集。证明根据定义,若一个项集I不满足最小支持度阈值min_sup,则I不是频繁的,即P(I)<min_sup。若增加一个项A到项集I中,则结果新项集(I∪A)也不是频繁的,在整个事务数据库中所出现的次数也不可能多于原项集I出现的次数,因此P(I∪A)<min_sup,即(I∪A)也不是频繁的。这样就可以根据逆反公理很容易地确定Apriori性质成立。
针对Apriori算法的不足,对其进行优化:
1)基于划分的方法。该算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频繁项集,然后把产生的频繁项集合并,用来生成所有可能的频繁项集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频繁项集至少在某一个分块中是频繁项集保证的。
上面所讨论的算法是可以高度并行的。可以把每一分块分别分配给某一个处理器生成频繁项集。产生频繁项集的每一个循环结束后.处理器之间进行通信来产生全局的候选是一项集。通常这里的通信过程是算法执行时间的主要瓶颈。而另一方面,每个独立的处理器生成频繁项集的时间也是一个瓶颈。其他的方法还有在多处理器之间共享一个杂凑树来产生频繁项集,更多关于生成频繁项集的并行化方法可以在其中找到。
2)基于Hash的方法。Park等人提出了一个高效地产生频繁项集的基于杂凑(Hash)的算法。通过实验可以发现,寻找频繁项集的主要计算是在生成频繁2—项集Lk上,Park等就是利用这个性质引入杂凑技术来改进产生频繁2—项集的方法。
3)基于采样的方法。基于前一遍扫描得到的信息,对它详细地做组合分析,可以得到一个改进的算法,其基本思想是:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。这个算法相当简单并显着地减少了FO代价,但是一个很大的缺点就是产生的结果不精确,即存在所谓的数据扭曲(Dataskew)。分布在同一页面上的数据时常是高度相关的,不能表示整个数据库中模式的分布,由此而导致的是采样5%的交易数据所花费的代价同扫描一遍数据库相近。
4)减少交易个数。减少用于未来扫描事务集的大小,基本原理就是当一个事务不包含长度为志的大项集时,则必然不包含长度为走k+1的大项集。从而可以将这些事务删除,在下一遍扫描中就可以减少要进行扫描的事务集的个数。这就是AprioriTid的基本思想。 由于Apriori方法的固有缺陷.即使进行了优化,其效率也仍然不能令人满意。2000年,Han Jiawei等人提出了基于频繁模式树(Frequent Pattern Tree,简称为FP-tree)的发现频繁模式的算法FP-growth。在FP-growth算法中,通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到FP—tree中。在以后发现频繁模式的过程中,不需要再扫描事务数据库,而仅在FP-Tree中进行查找即可,并通过递归调用FP-growth的方法来直接产生频繁模式,因此在整个发现过程中也不需产生候选模式。该算法克服了Apriori算法中存在的问颢.在执行效率上也明显好于Apriori算法。
9. 灰色关联分析方法如何计算
灰关联分析的具体计算步骤如下:
(1)确定反映系统行为特征的参考数列和影响系统行为的比较数列
反映系统行为特征的数据序列,称为参考数列。影响系统行为的因素组成的数据序列,称比较数列。
(2)对参考数列和比较数列进行无量纲化处理
由于系统中各因素的物理意义不同,导致数据的量纲也不一定相同不便于比较,或在比较时难以得到正确的结论。因此在进行灰色关联度分析时,一般都要进行无量纲化的数据处理。
(3)、求差序列(4)、求两级最大差与最小差(5)、求关联系数(6)、计算关联度
我自己在word中编辑的公式粘贴不过来