如何利用序列比对方法_详细介绍双序列比对、blast 以及多序列比对的区别

‘壹’ 生物信息怎样序列比对需要哪些数据

生物信息学在短短十几年间，已经形成了多个研究方向，以下简要介绍一些主要的研究重点。
序列比对
序列比对（Sequence Alignment）的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看，这一问题包含了以下几个意义：从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据（probe data）中决定物理和基因图存贮，遍历和比较数据库中的DNA序列，比较两个或多个序列的相似性，在数据库中搜索相关序列和子序列，寻找核苷酸（nucleotides）的连续产生模式，找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性，如序列局部发生的插入，删除（前两种简称为indel）和替代，序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和，对齐的方法包括全局对齐，局部对齐，代沟惩罚等。两个序列比对常采用动态规划算法，这种算法在序列长度较小时适用，然而对于海量基因序列（如人的DNA序列高达10^9bp），这一方法就不太适用，甚至采用算法复杂性为线性的也难以奏效。因此，启发式方法的引入势在必然，着名的BLAST和FASTA算法及相应的改进方法均是从此前提出发的。
蛋白质比对
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的，一般认为，具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链，长度从50到1000~3000AA（Amino Acids），蛋白质具有多种功能，如酶，物质的存贮和运输，信号传递，抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为，蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是：医药上可以理解生物的功能，寻找dockingdrugs的目标，农业上获得更好的农作物的基因工程，工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留，同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应（不一定全真），物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模（homology modeling）和指认（Threading）方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构（超过30%氨基酸相同），后者则用于比较进化族中不同的蛋白质结构。然而，蛋白结构预测研究现状还远远不能满足实际需要。

‘贰’ 怎么利用bioedit做序列的比较

1、网络搜索下载并安装BioEdit软件。

‘叁’ 怎么序列比对。。

看你要怎么比，和谁比了。

一般ncbi的blast是最常用。登录参考资料里面的网址，根据需要进入需要比对的序列类型，然后把序列放进去就好了。

nucleotideblast:
proteinblast:
blastx:
tblastn:
tblastx:

‘肆’ 序列比对的算法过程

实际操作中利用计算机程序实现序列比对的基本算法。序列比对不仅需要考虑子序列之间的匹配，而且需要对整个序列进行比较。也就是说，必须考虑两个序列中所有残基的匹配。这就意味着，不可能使所有残基都能严格匹配。在这种情况下，序列比对中确定空位的过程变得十分复杂。
在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。空位罚分是为了补偿插入和缺失对序列相似性的影响，由于没有什么合适的理论模型能很好地描述空位问题，因此空位罚分缺乏理论依据而更多的带有主观特色。一般的处理方法是用两个罚分值，一个对插入的第一个空位罚分，如10－15；另一个对空位的延伸罚分，如1－2。对于具体的比对问题，采用不同的罚分方法会取得不同的效果。
对于比对计算产生的分值，到底多大才能说明两个序列是同源的，对此有统计学方法加以说明，主要的思想是把具有相同长度的随机序列进行比对，把分值与最初的比对分值相比，看看比对结果是否具有显着性。相关的参数E代表随机比对分值不低于实际比对分值的概率。对于严格的比对，必须E值低于一定阈值才能说明比对的结果具有足够的统计学显着性，这样就排除了由于偶然的因素产生高比对得分的可能。

‘伍’ 如何进行序列比对如何进行序列拼接

序列比对：分为局部比对全局比对还有短reads比对
序列拼接：有短reads拼接，还有sanger测序的长reads拼接，楼至直接网络会比较好一点，资料很多

‘陆’ 详细介绍双序列比对、blast 以及多序列比对的区别,以及均适用于哪些场景

序列比对是将两个或多个序列排列在一起，标明其相似之处。使用间隔表示未比对上，比对上的相同或相似的符号排列在同一列上。序列比对是生物信息学以及基因组学与进化的基础之一，其基本思想是：在生物学中普遍存在的序列决定结构、结构决定功能的规律，通过将核酸序列或者蛋白质序列的一级结构看成由基本字符构成的字符串，通过序列比对我们可以找到相似的序列并由此发现生物序列中的功能、结构和进化信息。
全局比对：全局比对是指将参与比对的两条序列里面的所有字符进行比对。全局比对在全局范围内对两条序列进行比对打分，找出最佳比对，主要被用来寻找关系密切的序列。其可以用来鉴别或证明新序列与已知序列家族的同源性，是进行分子进化分析的重要前提。其代表是Needleman-Wunsch算法。
局部比对：与全局比对不同，局部比对不必对两个完整的序列进行比对，而是在每个序列中使用某些局部区域片段进行比对。其产生的需求在于、人们发现有的蛋白序列虽然在序列整体上表现出较大的差异性，但是在某些局部区域能独立的发挥相同的功能，序列相当保守。这时候依靠全局比对明显不能得到这些局部相似序列的。其次，在真核生物的基因中，内含子片段表现出了极大变异性，外显子区域却较为保守，这时候全局比对表现出了其局限性，无法找出这些局部相似性序列。其代表是Smith-Waterman局部比对算法。
双重序列比对：双序列比对是指对两条序列M和N进行比对，找到其相似性关系，这种寻找生物序列相似性关系的过程被称为双序列比对。其算法可以主要分成基于全局比对的Needleman-Wunsch算法和基于局部比对的Smith-Waterman局部比对算法
多重序列比对：多序列比对是双序列比对推广，即把两个以上字符序列对齐，逐列比较其字符的异同，使得每一列字符尽可能一致，以发现其共同的结构特征的方法称为多序列比对。多序列比对算法可以分成渐进法和同步法。其可以发现不同的序列之间的相似部分，从而推断它们在结构和功能上的相似关系，主要用于分子进化关系，预测蛋白质的二级结构和三级结构、估计蛋白质折叠类型的总数，基因组序列分析等。
基因组比对：是多序列比对的一种特例，指对基因组范围内的序列信息进行比对的过程。通过对不同亲缘关系物种的基因组序列进行比较，能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对，可以了解不同物在核苷酸组成、同线性关系和基因顺序方面的异同，进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。
BLAST：BLAST[1]（Basic Local Alignment Search Tool）是在在1990年由Altschul等人提出的双序列局部比对算法，是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST是一种启发式算法，用于在大型数据库中寻找比对序列，是一种在局部比对基础上的近似比对算法，可以在保持较高精度的情况下大大减少程序运行的时间。
算法思想描述：
双重序列比对主要分成以Needleman-Wunsch算法为代表的全局比对和以Smith-Waterman局部比对算法为代表的局部比对，BLAST是局部比对的一种推广。多重比对算法可以主要分成动态规划算法、随机算法、迭代法和渐进比对算法。
（1）双重序列比对：
Needleman-Wunsch算法：该算法是基于动态规划思想的全局比对的基本算法，动态规划的比对算法的比对过程可以用一个以序列S为列，T为行的(m+1)×(n+1)的二维矩阵来表示，用
sigma表示置换矩阵。
在计算完矩阵后，从矩阵的右下角单元到左上单元回溯最佳路径（用箭头表示），根据最佳路径给出两序列的比对结果。其中，斜箭头表示2个残基匹配，水平箭头表示在序列S的相应位置插入一个空位，垂直方向的箭头表示在序列T的相应位置插入一个空位。

Smith-Waterman算法：该算法是一种用来寻找并比较具有局部相似性区域的动态规划算法，这种算法适用于亲缘关系较远、整体上不具有相似性而在一些较小的区域上存在局部相似性的两个序列。该算法的基本思想是：使用迭代方法计算出两个序列的相似分值，存在一个得分矩阵M中，然后根据这个得分矩阵，通过动态规划的方法回溯找到最优的比对序列。与全局比对相比，这种算法的改变是把矩阵单元值为负者一律取为0，这是因为分值为负的比对丧失了比对的生物学意义，因此把得分为负值的子序列丢弃。

BLAST: BLAST算法的基本思想是通过产生数量更少的但质量更好的增强点来提高比对的速度。算法的原理主要分为以下五步：（1）过滤：首先过滤掉低复杂度区域，即含有大量重复的序列；（2）Seeding：将Query序列中每k个字组合成一个表，即将一个序列拆分成多个连续的‘seed words’（通常蛋白质k=3，核酸k=11）；（3）比对：列出我们所关心的所有可能的字组，再配合置换矩阵给出高分值的字组并组织成快速搜索树结构或者哈希索引，因此此步骤可以快速搜索出大数据集中的所有匹配序列，找到每个seed words在参考序列中的位置；（4）延伸：当找到seed words的位置后，接下来需要将seed word延伸成长片段，延伸过程中，得分值也在变化，当得分值小于阈值时即停止延伸，最后得到的片段成为高分片段对，HSP（High-scoring segment pair）；（5）显着性分析，最后我们使用如下公式计算E值，E值衡量了在随机情况下，数据库存在的比当前匹配分数更好的比对的数目，因此可以用该值作为指标评价HSP比对序列的可信度。
其中，m是数据库长度，n是query的长度，S是HSP分数，其他两个参数是修正系数。

（2）多重序列比对

动态规划算法：其基本思想是将一个二维的动态规划矩阵扩展到三维或者多维，多序列比对的积分是n个序列中两两进行比对所得积分之和。矩阵的维度反映了参与比对的序列数。这种方法对计算资源要求比较高[6]。
随机算法：主要包括遗传算法和模拟退火算法，遗传算法是一类借鉴生物界进化规律演化来的全局意义上的自适应随机搜索方法。当用遗传算法进行生物序列分析时，每一代包含固定数量的个体，这些个体用他们的适应度来评价。变异则模拟了生物进化过程中的偶然残基突变现象。对产生的新一代群体进行重新评价、选择、交叉、变异，如此循环往复，使群体中最优个体的适应度不断提高，直到达到一个阈值，算法结束。模拟退火的基本思想是用一物质系统的退火过程来模拟优化问题的寻优方法，当物质系统达到最小能量状态时，优化问题的目标函数也相应地达到了全局最优解。这两种方法都是对构造好的目标函数进行最优解搜索，但实际比对效果并不好[6,7]。
迭代法：迭代法的代表是Muscle[8], Muscle是一个新的渐进比对和迭代比对的综合算法，主要由两部分构成，第一部分是迭代渐进比对：第一次渐进比对的目的是快速产生一个多序列比对而不强调准确率，以此为基础再对渐进比对进行改良。经过两次渐进比对，形成一个相对准确的多序列比对；第二部分是迭代比对：该过程类似于Prrp算法[9]，即通过不断的迭代，逐步优化最终比对结果。其主要特点包括：使用kmer counting进行快速的距离测量，使用一个新的图谱比对打分函数进行渐进比对，使用依赖于数的有限分隔进行细化。
渐进比对算法：该算法以Feng和Doolittle提出的最为经典[10]。渐进比对算法的基本思想是迭代地利用两序列动态规划比对算法,先由两个序列的比对开始，逐渐添加新序列，直到所有序列都加入为止。但是不同的添加顺序会产生不同的比对结果。确定合适的比对顺序是渐进比对算法的一个关键问题。通常，整个序列的比对应该从最相似的两个序列开始，由近至远逐步完成。作为全局多序列比对的渐进比对算法有个基本的前提假设:所有要比对的序列是同源的，即由共同的祖先序列经过一系列的突变积累，并经自然选择遗传下来的，分化越晚的序列之间相似程度就越高。因此，在渐进比对过程中，应该对近期的进化事件比远期的进化事件给予更大的关注。由于同源序列是进化相关的，因此可以按着序列的进化顺序，即沿着系统发育树(指导树)的分支，由近至远将序列或已比对序列按双序列比对算法逐步进行比对，重复这一过程直到所有序列都己添加到这个比对中为止[10]。其三个步骤为：（1）利用双序列比对方法对所有的序列进行两两比对，得到相似性分值；（2）利用相似性矩阵（或距离矩阵）产生辅助导向树；（3）根据导向树进行渐进比对。渐进比对算法是最常用、简单又有效的启发式多序列比对方法，它所需时间较短、所占内存较小，其算法很多，主要有CLUSTAL W, T-Coffee和DiAlign等，其中 CLUSTAL W应用最广泛。
应用：
类型+应用
双重序列对比：判断两个序列的同源性和一致性。（1）全局多序列比对可以鉴别或证明新序列与己有序列家族的同源性;帮助预测新蛋白质序列的二级和二级结构，是进行分子进化分析的重要前提。适合序列相似性较高，序列长度近似时的比对；（2）局部比对考虑序列部分区域的相似性。局部多序列比对可以用来刻画蛋白质家族和超家族。适合于未知两个序列相似程度的，可能存在一些片段极其相似而另一些片段相异的序列比对情况。
多重序列比对：多重比对经常用来研究序列间的进化关系，构建进化树；探究序列间的保守性。主要用于分子进化关系，预测蛋白质的二级结构和三级结构、估计蛋白质折叠类型的总数，基因组序列分析等。
基因组比对：通过对不同亲缘关系物种的基因组序列进行比较，能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对，可以了解不同物在核苷酸组成、同线性关系和基因顺序方面的异同，进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。
其中，BLAST作为最重要的比对工具，意义特殊，拿出来单独讨论。BLAST可以分成Basic BLAST和 Specialized BLAST, BLAST包括常规的nucleotide blast, Protein blast和Translating blast；Specialize blast可以对特殊生物或特殊研究领域的序列数据库进行检索。

‘柒’ excel中如何按序列号比对数据

现在的人提问都不上数据和图片的，很难准确回答。
如果是序号一一对应，直接参考 =Sheet1!A1=Sheet2!A1 这样的公式比对，如果顺序不同，参考使用 vlookup函数取数，然后比对。

‘捌’ 如何进行序列比对

最简单的是在ncbi里面blast

ncbi的地址:http://www.ncbi.nlm.nih.gov
选一下blast,把你的序列输入,选一下基本参数,然后就可以比对了.

‘玖’ 多序列比对的步骤

多序列比对一般通过3个步骤完成：
（1）两两进行双重比对。
（2）生成一系统树图（dendrogram），将序列按相似性大致地分组。
（3）使用系统树图作为引导，产生出最终的多序列比对结果。

导航:首页 > 方法技巧 > 如何利用序列比对方法

如何利用序列比对方法

与如何利用序列比对方法相关的资料