导航:首页 > 治疗方法 > 连乘进化距离最佳方法

连乘进化距离最佳方法

发布时间:2022-12-16 05:46:21

Ⅰ 运算最慢的分子进化树构建方法

运算最慢的分子进化树构建方法是贝叶斯法。
从计算速度来看,最快的是基于距离的方法,几十条序列几秒钟即可完成。其次是最大简约法。最大似然法就要慢得多。最慢的是贝叶斯法。但是不算准确度来看,算得最慢的贝叶斯法确是最准确,而算得最快的基于距离法结果确是最粗糙。从实用的角度,建议使用最大似然法。因为这种方法价从速度还是准确度都比较适中。
虽然软件可以快速自动地完成系统发生树的构建,但是对于基本算法的了解还是必不可少的。以非加权分组平均法(UPGMA法)为例,介绍如何通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。
虽然软件可以快速自动地完成系统发生树的构建,但是对于基本算法的了解还是必不可少的。
(1)连乘进化距离最佳方法扩展阅读:
保守区用于构建进化树
保守区选择是系统发育分析过程中一个重要的步骤。分析时可以选择保守位点,也可以选择基因全长序列,但是当序列差异大时,建议保留保守序列用于进化树构建。常用的保留序列保守区的软件有Gblock、MEME等。
进化树构建方法的选择
算法英文名算法中文名
ML,Maximum likelihood 最大似然法
NJ,Neighbor-Joining 邻接法
MP,Maximum parsimony 最大简约法
ME,Minimum Evolution 最小进化法
Bayesian 贝叶斯推断
UPGMA 不常用

Ⅱ 进化树构建方法的选取

比较几种主要的构树方法,一般情况下,若有合适的 分子进化模型 可供选择,用 最大似然法(ML) 构树获得的结果较好;对于 近缘物种序列 ,通常情况下使用 最大简约法(MP) ;而对于 远缘物种序列 ,一般使用 邻接法(NJ)或最大似然法(ML) 。对于 相似度很低的序列 ,邻接法往往出现长枝吸引(branch attraction)现象,有时严重干扰进化树的构建。对于各种方法重建进化树的准确性,Hall (2005)认为 贝叶斯法 最好,其次是 最大似然法(ML) ,然后是 最大简约法(MP) 。其实如果 序列的相似性较高 ,各种方法都会得到不错的结果,模型间的 差别也不大 。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。 蛋白质序列 的构树模型一般选择 Poissoncorrection(泊松修正) ,而 核酸序列 的构树模型一般选择 Kimura2-parameter (Kimura一2参数) 。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。

NJ法
它的特点是重建的树相对准确,假设少,计算速度快,只得到一棵树。其缺点主要表现在将序列上的所有位点同等对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。
MP法
适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。
ML法
在进化模型选择合理的情况下,ML法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

Ⅲ 使用距离法构建进化树

下个mega4.1
去NCBI或者Eztaxon或者或者其他能链接到数据库地方下载一些细菌的16sDNA序列。
然后用mega比对就可以做一个系统树了。

比如可以做一个假单胞菌属的系统发育树,选择几个假单胞菌的序列,选择合适的计算方法,用软件计算出系统树。记得还要放一个属外种作为参考啊。

别指望有多人回答,这里大多都是中学生。

如果对您有帮助,请记得采纳为满意答案,谢谢!祝您生活愉快!

vaela

Ⅳ 分子进化树构建及数据分析方法介绍【转】

首先是方法的选择。
基于距离的方法有UPGMA、ME(Minimum Evolution,最小 进化 法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。
一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰 进化树 的构建。贝叶斯的方法则太慢。对于各种方法构建分子 进化树 的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。
对于NJ和ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。
Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的 进化树 较为可靠。如果Bootstrap的值太低,则有可能 进化树 的拓扑结构有错误, 进化树 是不可靠的。
对于 进化树 的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的 进化树 其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建 进化 树,如果所得到的 进化 树类似,则结果较为可靠。
软件的选择 表1中列出了一些与构建分子 进化 树相关的软件。
构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建 进化 树。
构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建 进化 树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。
ML的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。
贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。由于该方法需要很多背景的知识,这里不作介绍。
表1 构建分子进化树相关的软件
软件

网址

说明

ClustalX

http://bips.u-strasbg.fr/fr/Documentation/ClustalX/

图形化的多序列比对工具

ClustalW

http://www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html

命令行格式的多序列比对工具

GeneDoc

http://www.psc.e/biomed/genedoc/

多序列比对结果的美化工具

BioEdit

http://www.mbio.ncsu.e/BioEdit/bioedit.html

序列分析的综合工具

MEGA

http://www.megasoftware.net/

图形化、集成的进化分析工具,不包括ML

PAUP

http://paup.csit.fsu.e/

商业软件,集成的进化分析工具

PHYLIP

http://evolution.genetics.washington.e/phylip.html

免费的、集成的进化分析工具

PHYML

http://atgc.lirmm.fr/phyml/

最快的ML建树工具

PAML

http://abacus.gene.ucl.ac.uk/software/paml.html

ML建树工具

Tree-puzzle

http://www.tree-puzzle.de/

较快的ML建树工具

MrBayes

http://mrbayes.csit.fsu.e/

基于贝叶斯方法的建树工具

MAC5

http://www.agapow.net/software/mac5/

基于贝叶斯方法的建树工具

TreeView

http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

进化树显示工具

需要注意的几个问题是:
其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过MEGA 3.0以后的版本实现。MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。
其二,无论是核酸序列还是蛋白序列,一般应当先做成FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。将所有的FASTA格式的序列存放在同一个文件中。文件的编辑可用Windows自带的记事本工具,或者EditPlus(google搜索可得)来操作。
文件格式如图1所示:
图1 FASTA格式的序列

NCBI的COG介绍:
什么是 COG ?
“ COG ”是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写。构成每个 COG 的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是 orthologs 或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。
COG 分类是如何构建的?
COG 是通过把所有完整测序的基因组的编码蛋白一个一个的互相比较确定的。在考虑来自一个给定基因组的蛋白时,这种比较将给出每个其他基因组的一个最相似的蛋白(因此需要用完整的基因组来定义 COG 。注1)这些基因的每一个都轮番的被考虑。如果在这些蛋白(或子集)之间一个相互的最佳匹配关系被发现,那么那些相互的最佳匹配将形成一个 COG (注2)。这样,一个 COG 中的成员将与这个 COG 中的其他成员比起被比较的基因组中的其他蛋白更相像,尽管如果绝对相似性比较的。最佳匹配原则的使用,没有了人为选择的统计切除的限制,这就兼顾了进化慢和进化快的蛋白。然而,还有一个加的限制就是一个COG必须包含来自于3个种系发生上远的基因组的一个蛋白。
注1:仅仅应用在形成COG时,不包含新蛋白的信息。
注2:为了简化,许多步骤都省略的,请参考文献。
使用COG可以得到什么样的信息?
简单的说,有三方面的信息:
1,蛋白的注解。COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知蛋白。
2,种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。
3,多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员蛋白的进化关系。
COG分类有哪些
目前COG分类中每个字母代表的功能分类含义:
INFORMATION STORAGE AND PROCESSING
[J] Translation, ribosomal structure and biogenesis
[A] RNA processing and modification
[K] Transcription
[L] Replication, recombination and repair
[B] Chromatin structure and dynamics
CELLULAR PROCESSES AND SIGNALING
[D] Cell cycle control, cell division, chromosome partitioning
[Y] Nuclear structure
[V] Defense mechanisms
[T] Signal transction mechanisms
[M] Cell wall/membrane/envelope biogenesis
[N] Cell motility
[Z] Cytoskeleton
[W] Extracellular structures
[U] Intracellular trafficking, secretion, and vesicular transport
[O] Posttranslational modification, protein turnover, chaperones
METABOLISM
[C] Energy proction and conversion
[G] Carbohydrate transport and metabolism
[E] Amino acid transport and metabolism
[F] Nucleotide transport and metabolism
[H] Coenzyme transport and metabolism
[I] Lipid transport and metabolism
[P] Inorganic ion transport and metabolism
[Q] Secondary metabolites biosynthesis, transport and catabolism
POORLY CHARACTERIZED
[R] General function prediction only
[S] Function unknown

遗传密码的新排列和起源探讨
肖景发, 于军 中国科学院北京基因组研究所, 中国科学院“基因组科学及信息”重点实验室
摘要根据DNA核苷酸组分的动态变化规律将遗传密码的传统排列按 密码子 对GC和嘌呤含量的敏感性进行了重排. 新密码表可划分为两个半区(或1/2区)和四个四分区(或1/4区). 就原核生物基因组而言, 当 GC含量 增加时, 物种蛋白质组所含的氨基酸倾向于使用GC富集区和嘌呤不敏感半区所编码的氨基酸, 它们均使用四重简并密码, 对DNA序列的突变具有相对鲁棒性(Robustness). 当 GC含量 降低时, 大多数 密码子 处于AU富集区和嘌呤敏感半区, 这个区域编码的氨基酸具有物理化学性质的多样性. 因为当 密码子 第三位核苷酸(CP3)在嘌呤和嘧啶之间发生转换时, 密码子 所编码的氨基酸也倾向于发生变化.
关于遗传密码的 进化 存在多种假说, 包括凝固事件假说、共 进化 假说和立体化学假说等, 每种假说均试图解释遗传密码所表现出来的某些化学和生物学规律. 基于遗传密码的物理化学性质、基因组变异的规律和相关的生物学假说, 我们提出了遗传密码 分步进化假说 (The Stepwise Evolution Hypothesis for the Genetic Code). 在人们推断的最原始的RNA世界里, 原初(Primordial)遗传密码从只能识别嘌呤和嘧啶开始, 编码一个或两个简单而功能明确的氨基酸. 由于胞嘧啶C的化学不稳定性, 最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码, 却可得到一组七个多元化的氨基酸. 随着生命复杂性的增加, 鸟嘌呤G从主载操作信号的功能中释放出来, 再伴随着C的引入, 使遗传密码逐步扩展到12、15和20个氨基酸, 最终完成全部 进化 步骤.
遗传密码的 进化 过程同时也伴随以蛋白质为主体的分子机制和细胞过程的 进化 , 包括氨酰tRNA合成酶(AARS)从初始翻译机器上的脱离、DNA作为信息载体而取代RNA以及AARS和tRNA共 进化 等基本过程. 分子机制和细胞过程是生命的基本组成元件, 它们不但自己不断地趋于完善, 也促使生命体走着不尽相同的道路, 要么维持鲁棒性(Robustness, 如细菌), 要么寻觅多元化(Diversity, 如节肢动物和植物), 要么追求综合性(Complexity, 如脊椎动物).
自从 密码子 被全部发现以来, Crick[1]
就将遗传密码表排列成化学家所认可的形式. 尽管后来有些特殊表现形式的列方式(如同心圆、八卦式和二元密码等), 但其基本排布一直延续至今[1~3]
. 遗传密码以4个脱氧核糖核苷酸作为基本符号来组成遗传信息, 并以20个氨基酸作为基本结构单元来构建蛋白质. 遗传密码是使用4个碱基(两个嘌呤: 腺嘌呤A和鸟嘌呤G; 2个嘧啶: 尿嘧啶U和胞嘧啶C)构成的三联体 密码子 , 共64个, 分别对应20个氨基酸或翻译起始和终止信号. 生物体要将DNA分子中储存的信息内涵转变成功能内涵, 就要利用信使mRNA、解码分子tRNA和完整翻译机器等多重功能. 各种复杂分子机制和细胞过程的诞生和成熟一定会反映生命从RNA世界到RNA-蛋白质世界, 再到RNA-蛋白质-DNA世界逐渐转变的过程, 遗传密码作为一个独立的生物学机制也一定是漫长生命 进化 过程中的一个必然产物.
20世纪60年代初, 实验分子生物学最大的进展就是解码遗传密码, 发现它在生命有机体中, 基本是统一的. 自此不同的假设均试图解释遗传密码的信息和化学特性, 从简单的凝固事件假说到更复杂的统计学、共 进化 和立体化学理论. 凝固事件假说认为 密码子 与氨基酸的对应关系是在某个生命发生时段里被固定下来, 并且很难被改变[2]
, 这个假说一直被基于适应性、历史性和化学性的不同论点所挑战[4]
. 尽管关于遗传密码的 进化 也有人提出过不同的假设, 但是解释 密码子 的分配原则、物理化学性质的相关性和DNA组分变化对 密码子 使用频率的牵动, 从而揭示遗传密码表的生物学本质仍然是一个不小的挑战[2,5]
.
1 重排遗传密码表
重排遗传密码表有3个重要原因. 首先, DNA序列有4个最基本的可度量的变化, 即核苷酸序列、序列长度、 GC含量 和嘌呤(R或AG)含量. 假如把核苷酸序列和长度相对于时间的变化暂时不考虑, 那么只有后面的两个变量对于传统的遗传密码表具有影响力, 所以重排应该以GC和嘌呤含量的变化为主线. 但以前大家熟知的密码表排列只是为了简明和清晰地显示 密码子 和氨基酸的一一对应关系, 却忽略了密码表本身对氨基酸物理化学性质多样性的表现和DNA编码承受突变的鲁棒性等明显信息. 因此, 有必要把传统的密码表进行重新排列[6]
, 使其能够表现信息内涵和功能内涵之间的基本关系. 其次, 当 GC含量 和嘌呤含量变化时, 希望从密码表中找出相应蛋白质组成变化的线索. 图1展示了 GC含量 和嘌呤含量在极端状态下4个微生物基因组的氨基酸组分分布.

(1) RNA世界和早期遗传密码. RNA世界的存在首先被RNA分子具有相应催化功能的生物学特性所支持[22~26]
. 在RNA世界里, RNA具有双重的功能, 既是信息载体也是功能载体. 因为生命的基本分子机制和细胞过程起源于RNA世界, 所以没有理由说遗传密码不起源于RNA世界. 在RNA世界里RNA分子可以组成简单的核苷酸多聚物, 这种多聚物在近亿年的成熟期里, 为生命提供了足够的功能上的复杂性和多样性. 原始细胞可以通过相互争斗和吞噬获得基本的组成成分,因此基于模板的RNA合成可能对于生命的初始不是必需的. 可以想象这些RNA分子可以通过简单的聚合酶来合成, 通过自身剪接或化学修饰转变为其他相似的结构, 从而达到结构的可变性和功能的多样性. 此外, RNA的编辑(RNA Editing)也一定起了非常重要的作用, 这一分子机制一直延续到现在, 在包括人类在内的高级物种中仍然存在.
在现代生物世界里, 剪接体(Spliceosome)通常是用于RNA分子的剪接, 由蛋白质和RNA分子组成. 可以做两个假设, 生命可能起源于类真核有机体的原型细胞(在DNA引入之前)而不是类原核有机体的原型细胞. 在RNA组成的翻译机器(Translational Machinery)没有形成之前, 初始遗传密码可能不是必需的. 一旦这个初始生命进入到RNA-蛋白质组成的世界时, 多肽才逐渐按照密码子开始有序合成, 遗传密码就开始发挥其作用了. 可以认为有序的生命可以在与相对无序生命的争斗中更容易获胜和取得繁衍的空间.
现在可以推测初始遗传密码在RNA世界存在和 进化 的基本过程和起源时的基本逻辑关系. 初始生命一定比较简单, 分子间相互作用也比较宽松, 最小的编码系统可能只要区分嘌呤R和嘧啶Y就够了. 假定现代密码在生命的早期阶段已经被统一并相对忠实地继承了RNA密码的基本关系, 这个可能的原始编码就至少有7个氨基酸(I和M视为等同; 图5), 同时也有起始和终止密码子. 这7个氨基酸的侧链具有广泛的物理化学性质(氨基、酰基、苯环、羟基、酚基、烃链和甲硫基等), 但是没有小的和酸性的氨基酸. 可以推测: 体积小的氨基酸在初始蛋白质相互作用中的作用显然不如大的重要, 而碱性氨基酸的功能对于酸性DNA则是显而易见的. 另外的一种可能性是氨基酸与tRNA以及AARS之间的关系不是十分明确, 一个密码子对应多氨基酸的情况可能在遗传密码成熟前是普遍存在的[27]
. 由于7个氨基酸的编码区处于现代密码表的AU富集区, 可以确信初始密码子始于这个区域, 后来扩展到嘌呤敏感区即所谓趋变半区. 这个阶段的存在既复合由简到繁的逻辑, 也迎合了实验的证据, 那就是C的不稳定性和G在RNA操作功能上的作用[21, 28~29]
.

(3) 遗传密码的第二次拓展. 当GU和AG从作为剪接信号功能释放出来以后(剪接体的结构和功能随着蛋白质的演变而复杂化和精密化), 遗传密码引入了Arg, Ser和Val. 氨基酸的个数变成15个, 这次扩展是对已经存在的氨基酸物理化学性质和二级结构特性的扩展. Arg是Lys的替代体, Ser则对应Tyr, Val是疏水性氨基酸Leu, Ile和Met的补充[32~35]
.
最具吸引力的是六重简并的3个氨基酸Arg, Leu和Ser. 这些氨基酸在被引入后, 又由于核苷酸C在RNA世界的应用而扩展出各自的新四联码, 成为六重简并. 首先, Leu是在现代基因组中包括所有三界生物在内最丰富的氨基酸, Ser是真核生物第二丰富的氨基酸, Arg也是一个富有的氨基酸, 通常在细菌基因组中位于前10位. 其次, Leu在二重简并密码和四重简并之间最容易转换, 只需要通过简单U到C转换(UUR-CUR)即可, 这也说明Leu对于大多数蛋白质来说是用于当 GC含量 增加时维持蛋白质功能的完整性. 这些观察引出相应的假设: 这3个氨基酸的附加密码是为了当 GC含量 或AG含量增加时平衡富有氨基酸, 相应的密码分布按照平衡遗传密码的蛋白质多样性和蛋白质鲁棒性二等分. 这种平衡能力用于当编码序列突变发生时稳定蛋白质的氨基酸组成, 从而维护蛋白质结构的完整性.
(4) 遗传密码的最终拓展. 遗传密码的最终拓展是在DNA作为信息载体取代RNA使得信息载体具有更高的准确性和稳定性, 同时也产生了最为关键的从RNA到DNA的逆转录机制. 基于模板的DNA复制机制开辟了新的DNA-蛋白质-RNA世界. 很多新分子机制的 进化 包括DNA复制和修复、RNA的转录等, 使这个生物界里分子机制和细胞过程更趋于多元和完善. 同时当C和其脱氧衍生物分别作为结构模板加入RNA和DNA时, 标准遗传密码也就随之产生并被固定下来. 遗传密码本身得到新的补充并且编码能力有了很大提高. 组氨酸(His)和Glu立刻加入进来, 主要是由于它们具有相应的催化性质以及和原有的两个碱性氨基酸的相似性, Thr扩展了Ser的功能, 同时使蛋白质的结构增加了精细度, Ala同Ser相比具有类似的体积和尺度, 但其和Ser比具有很强的疏水性质[32,33]
. 这些新引入的氨基酸在蛋白质结构和功能多样性上起到非常关键的作用. 不容怀疑的是Pro的最后加入, 它具有其他氨基酸所不具备的性质, 即通过特有的方式使蛋白质的骨架结构扭曲达到蛋白质结构的紧密折叠. 相应的扩展模式在AARS同样得到支持遗传密码扩展的假设, 除了3个六重简并的遗传密码外, 这次共有六组遗传密码最终被引入, 同时编码6个氨基酸. 这6个氨基酸的AARS分类按照G和I 的配对原则延伸而来. 例如AARS对于双重编码的氨基酸His(CAR)和Gln(CAY)的对应, Glu(GAR)和Asp(GAY)的对应等.
遗传密码的 进化 就是密码子的有序发生和合理分布, 这个分布的合理性一定经过一个复杂选择过程. 首先, 通过长时间的创造和优化, 使其在基因组核苷酸序列发生突变时对蛋白质的结构起到缓冲的作用; 第二, 密码子采取这样一种特殊的排布方式: 当DNA组成从AU富集区到GC富集区改变时, 氨基酸的分布倾向于从具有催化性质的氨基酸转到具有结构性质的氨基酸; 第三, 充分利用密码子第三位多变的优势(通常体现在R和Y之间的转换), 来改变编码氨基酸的物理化学性质, 致使在趋变半区里大约有15个氨基酸对第三个位置R和Y之间的转换呈现敏感.
(5) 分子机制与细胞过程的 进化 . 尽管分子机制与细胞过程的根本界限有时会很模糊, 但还是将它们分开: 前者强调物理性的相互作用、发生的空间和组分的存在, 后者强调化学反应的结果、发生的时间和过程. 从一方面讲, DNA的变异显然是细胞过程的产物, 遗传密码的发生和最终形成也是它的产物. 从另一方面讲, 密码子与氨基酸的关系影响到细胞的蛋白质组分的变化, 即分子机制的变化[21]
. 比如, 如果在RNA世界需要产生多个拷贝的RNA分子, 一定需要一个分子机制来实现. 在现代生物世界里, 通常是由以DNA为模板的转录机制来完成, 但在RNA世界里没有RNA的复制, 多个RNA分子产生是由多聚酶和编辑体(Editosome)共同来完成的. 也许就是那个最原始的细胞机制. RNA世界的第二个分子机制发明可能是就剪接体, 这个分子机制在现代生物世界里仍然在发挥其重要的作用. 第三个分子机制也许是翻译体(Translatosome)的形成, 其用于直接进行蛋白质分子的加工, 这一分子机制是从原始的RNA世界到成熟的RNA世界再到现代生物世界里转折的重要标志. 在转折期里, 分子机制在蛋白质精确度的变化中不断完善和复杂, 直到DNA通过RNA和蛋白质的复合体引进到生命世界

Ⅳ 群体结构——系统发育树的构建

最近杂事真的非常的满,终于找到时间更新一下。。。。

通过上一篇文章的介绍, 系统发育树的基本概念 大家已经了解清楚,那到底怎么获得一棵可信的进化树呢?

对于群体遗传学分析,一般都会以群体SNPs位点数据构建系统发育树,因此,接下来我主要以SNPs数据为例,介绍系统进化树的构建方法。

序列比对->建树方法选择->计算最佳替代模型->进化树建立->进化树美化

常见的序列比对软件包括:Clustal和Muscle等。

Clustal 除了有自己独立的软件外(多种操作系统都支持),也常被整合到一些常见的软件中,如:Bioedit、MEGA等。

Muscle 同样支持多种操作系统。

两个软件的引用频率都很高,没有绝对的谁好谁坏,哪个顺手就用哪个即可。

1、Distance-based methods 距离法:

基于距离的方法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。

2、Character-based methods 特征法:

基于特征的方法:不计算序列间的距离,而是将序列中有差异的位点作为单独的特征,并根据这些特征来建树。

模型选择的依据如下图:

UPGMA法已经较少使用。一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往会出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯方法则太慢。对于各种方法构建分子进化树的准确性,有一篇综述 (Hall BG, 2005) 认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。不过现在文章普遍使用的是NJ是ML模型。

系统发育分析中,最大似然法(ML)和贝叶斯法(BI)是对替代模型非常敏感的两种算法,因此,利用ML法或BI法重建系统发育树前,替代模型的选择是必不可少的过程。

Win操作系统下jModeltest的使用方法参考这篇文章: 图解核苷酸替代模型的选择 - jModelTest 篇(By Raindy) 。
ProTest的使用方法可以参考这篇文章: 使用 ProtTest 来选择最优氨基酸替代模型 。

我自己基本都用的是Linux版本的jModelTest,使用及其简单,命令如下:

参数说明:
-d:输入文件。注意!这个软件需要输入的是.phy格式文件,不是.fasta格式。
-f:include models with unequals base frecuencies
-g:include models with rate variation among sites and number of categories
-i: include models with a proportion invariable sites
-s:number of substitution schemes
-v:do model averaging and parameter importances
-a:estimate model-averaged phylogeny for each active criterion
-BIC:calculate the Bayesian Information Criterion
-AIC:calculate the Akaike Information Criterion

结果的最下方,有如图所示的列举,也就是得分最高的模型。

计算完最佳模型,我们就要开始建树了。对于ML树的构建,推荐大家使用新一代RAxML——raxml-ng。

RAxML一直是ML建树的经典工具,其由来自德国海德堡理论科学研究所(Heidelberg Institute for Theoretical Studies)的Alexandros Stamatakis开发。近年来,其江湖地位也受到来自其他软件,尤其是IQ-Tree的挑战。Zhou等人的文章 Evaluating Fast Maximum Likelihood-Based Phylogenetic Programs Using Empirical Phylogenomic Data set 对RAxML,IQ-TREE,FastTree,Phyml四个最大似然法建树软件的实际效果和表现进行了系统比较,其中一个结论是IQTREE在准确性方面要略胜一筹。
近日,RAxML的升级版, raxml-ng 发布!

相较于上一代,raxml-ng有如下优势:

话不多说,直接建树:

参数说明:
--all:Perform an all-in-one analysis (ML tree search + non-parametric bootstrap)
--msa:对其后的序列文件
--model:直接输入上一步产生的最佳模型
--bs-trees:检查树的鲁棒性(robustness)进行自展(bootstrap)检验,进行1000次bootstrapping抽样
--threads:给定线程

运行后结果如下图所示,其中.bestTree就是我们要的树文件,导入树可视化工具即可(我比较常用MEGA和 iTOL ),下次再写一下如何美化进化树吧。

做进化分析的工友们可能都有个感觉,很多分析一等就是好几天,特别是建树(做过的都知道其中的痛苦),有时候忽然加入一个样品又要从头来。因此,一台给力的服务器是必要的工具。比如,上文提到了SNP进化树,我做的还仅仅只是相近物种,而且基因组很小(9M),SNP位点就有4万个,如果要用我MEGA这些软件调用我电脑8核的CPU,1000自展值可能要跑到毕业。

生物学背景出身的我,抄着那一点可怜的计算机常识,在我们课题组购买服务器时,我做了非常多的功课。当然,主要还是听取公司技术人员的建议,通过我非常非常非常长时间的测试,多次使用常见的生物信息分析软件(我主要从事寄生虫基因组、宿主转录组、16S宏基因组等研究),最终,找到了一个性价比超高的服务器配置,具体配置如下:

真心感谢一下烽伟的技术小哥哥们,乐死不疲的回答我各种低级的问题,如果有啥需要可以联系一下他们的技术,感觉蛮靠谱哒,官网: 烽伟科技 。

上一个他们的LOGO,以表感谢。

本文为本人的学习笔记,希望对大家有所帮助。本文大量参考网络文章,文章来源列举于全文末尾。

参考:
一文读懂进化树
使用 ProtTest 来选择最优氨基酸替代模型
RAxML进化树构建的新一代——raxml-ng

Ⅵ 同源性分析用氨基酸序列还是核苷酸序列

都有啊。你想做蛋白质氨基酸序列的同源分析当然就用氨基酸序列了,做某段非蛋白编码序列的分析那肯定是用核苷酸序列啊。进化树我没正式地做过,这里就不多说了,我以前玩票的时候用的是AA序列。我呆的组做同源性分析(印象里都是针对编码蛋白质的基因)有时是cDNA序列,有时是AA序列,貌似用AA序列为多。做RNAi时测序的克隆比对时一般就直接用测序的核苷酸序列(我们RNAi的克隆一般是针对外显子设计的片段,sourcebioscience的线虫genomic library)。

一般来说,比较同源蛋白,用cDNA和蛋白序列都可以。只不过蛋白更能看出保守区域,核酸的话,可能突变比较多没有,而且只有四种,没有二十种的氨基酸靠谱。如果,做小的基因组的比较,比如病毒序列,一般用全基因组,即核酸进行进化分析。其实最重要的是你的物种直接的亲缘关系远近及对模型的了解,选择合适的方法。具体看杨子恒和其他大牛的书。树好画,理论解释比较难。

距离较远的序列比较用氨基酸序列更合适,进化距离很近的序列之间比较用核酸更合适。 亲缘关系较近的序列比较,如果用aa序列,很多同义突变的信息都会漏掉;而亲缘较远的序列之间做align,重要的是功能保守的domain要对齐,这个时候用aa序列就比dna序列方便一点。 我个人来说,如果可以用dna align好就尽量用dna,这个时候要再translate到aa也方便。有的序列可能用dna 不好align我才会用aa序列align。有了alignment再做树就简单了。就我个人经验,相同的序列DNA树要可靠一点,因为aa树受自然选择影响更大(也可能是和我研究的序列相似性较高有关)。

Ⅶ 方舟生存进化房主与玩家的距离限制,说不能离房主太远,怎么改求解

可以将主机距离调到无限远,这样就不会出现此问题,不过这样做配置低的电脑容易卡甚至崩溃。

调主机距离的方法如下:

1、在打卡的游戏开始界面中,点击选择HOSTLOCAL的选项。

Ⅷ 关于如何分析进化树

http://blog.sina.com.cn/s/blog_1774c102e0102y3p7.html

https://www.sohu.com/a/196872269_675868
系统发育树构建的基本方法有如下几种:

1、Distance-based methods 距离法:

(基于距离的方法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。)

· Unweightedpair group method using arithmetic average(UPGMA)非加权分组平均法

· Minimum evolution(ME)最小进化法

· Neighbor joining(NJ)邻位归并法

2、Character-based methods 特征法:

(基于特征的方法:不计算序列间的距离,而是将序列中有差异的位点作为单独的特征,并根据这些特征来建树。)

· Maximum parsimony(MP) 最大简约法

· Maximum likelihood method(ML) 最大似然法

距离标尺: 进化树可以显示序列的差异度,这里的标尺就可以当做为进化树的“比例尺”。

分支长度: 在树形结构中,枝长累积距离越近的样本差异越小,反之差异越大。比如OTU16与Nitrosospira multiformis的差异度是A1+A2,OTU16与Nitrosospira briensis的距离是A2+A3+A4,以此类推。

自展值(Bootstrap): 刚才已经讲过关于自展值的评估方法。自展值可以显示可信度。一般低于50%的会隐去。那啥情况下会低于50%呢,两种情况,相似度太低或太高。一般来说,低自展值靠近分支末端,可能是由于相似度太高难以区分,这时建议可以换一个基因建树。如果低自展值靠近根,可能是由于相似度太低。

阅读全文

与连乘进化距离最佳方法相关的资料

热点内容
手变小最快最简单的方法 浏览:190
如何清空剪切板三大实用方法介绍 浏览:702
安卓系统通知权限在哪里设置方法 浏览:740
让女生心动的方法如何吸引女生 浏览:361
手机录屏怎么截屏的方法 浏览:123
工科生的研究方法有哪些 浏览:746
新手倒车最笨的方法视频 浏览:160
疫情防控的研究过程和方法 浏览:649
国网评标方法包括哪些 浏览:6
线轮廓度的测量方法 浏览:280
解决便秘最快最有效的方法17l17 浏览:607
腰椎动力位活动受限的锻炼方法 浏览:932
如何才能赚钱方法大全 浏览:40
1040无心磨床的最佳调试方法 浏览:694
手机发热降温的方法有啥 浏览:464
emoji使用方法 浏览:656
破壁松花粉的功效与作用及食用方法 浏览:776
氧气罐怎么用使用方法 浏览:691
格子裤子腰小了怎么办最简单的方法 浏览:261
uv胶使用方法 浏览:770