㈠ 怎么用UPGMA法做聚类分析
聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样
㈡ 我国科学家在遗传育种方面的成果和利用了哪些技术原理
看网站:分子遗传育种
或者:http://www.bioon.com/Index.asp
绝对有你要答案!
去找找下边的文献全文看看吧:
遗传育种
AFLP分子标记在玉米优良自交系优势群划分中的应用 吴敏生 王守才 戴景瑞 《作物学报》 2000 26(1)
摘 要:利用AFLP分子标记技术研究了17个玉米优良自交系的遗传多样性,4个AFLP引物组合分别扩增出30、30、44、41条多态性带,平均每个引物组合扩出36.25条带,4个引物组合共扩增出145条带,每一个引物组合都可将17个自交系完全分开。利用AFLP数据、进行聚类分析,将17个优良自交系聚为6群,结果表明,用AFLP标记进行玉米优势群划分与自交系系谱亲缘关系基本一致,AFLP技术可以用于玉米自交系的遗传多样性研究和优势群划分。
从事紧凑型玉米育种的回顾与展望 李登海 《作物杂志》 2000 (5)
摘 要:从探索我国玉米高产道路,进行夏玉米高产攻关研究开始,讲述了在高产试验中从平展型玉米杂交种发展到应用紧凑型玉米杂交种的历史过程,并通过紧凑型玉米与平展型玉米的株型比较试验,证明了紧凑型玉米较平展型玉米的增产作用,结合紧凑型玉米杂交种的生理特征,探索良种良法配套技术,创造出16444.35kg/hm2的夏玉米高产记录。选育出20多个被全国玉米育种单位广泛应用的紧凑型玉米自交系,所选育的紧凑型玉米杂交种占全国玉米种植面积的1/3以上。推动了我国玉米育种和高产栽培研究事业的发展。本文对紧凑型玉米育种的发展提出了作者的观点。
带遗传标记的玉米基因雄性不育的发现及遗传和利用研究 林晓怡 杨典洱 林建兴 《作物学报》 2000 26(2)
摘 要:1992年在玉米族远缘杂交组合3402F3(丹340×403-2)中首次发现带标记性状的基因雄性不育(GMS)材料。遗传分析结果表明,不育性受1对隐性基因控制。当不育株(A)与可育株(B)进行兄妹交,育性分离比例接近1∶1;而可育株(B)自交的后代,可育株与不育株的分离比例为3∶1。连锁遗传分析结果证明,不育基因(ms °)与标记性状基因(plf)紧密连锁,未发现有交换现象,它们可能位于同一染色体同一位点上。经过不育株5代兄妹交已选出几个高产核不育两用系。通过测交筛选出一个强优势高产恢复系HR-1。利用高产核不育系与强优恢复系配制出两个超高产玉米杂交种;小区(0.0066hm2)产量分别为72.0kg和78.1kg,比对照掖单13号增产18.6%和28.7%。本文还讨论了带遗传标记的高产核不育两用系的应用前景,并提出进一步研究ms°-plf基因的设想。
利用SSR标记研究玉米自交系的遗传变异 李新海 傅骏骅 张世煌 《中国农业科学》 2000 33(2)
摘 要:利用SSR标记研究了21个玉米(Zea mays L.)自交系的遗传变异,初步进行了杂种优势群划分。从69对SSR引物中筛选出43对扩增产物具有稳定多态性的引物。43对引物在供试材料中共检测出127个等位基因变异,每对引物检测等位基因2~7个,平均为2.95个;平均多态性信息量为0.511。21个自交系之间的遗传相似系数变化范围为0.480~0.768,平均为0.627。 UUPGMA 聚类分析结果表明,供试自交系可分为2个类群。黄早四自成1群;其余20个自交系又分为5个亚群。生产上利用的高产杂交组合的亲本均属于不同的类群(亚群),而在类群(亚群)内未发现高产组合。研究发现8对具有较高多态性信息量的引物,利用这些引物可以对供试材料进行初步鉴定。研究表明,利用SSR标记可以进行玉米自交系遗传变异分析,并用于杂种优势群划分。
我国21世纪玉米遗传育种工程技术展望 李晚忱 荣廷昭 《玉米科学》 2000 8(2)
摘 要:介绍了国外玉米遗传育种工程在分子生物学和基因工程技术等方面的研究动态,根据我国玉米遗传育种研究工作面临的艰苦任务和有待解决的主要问题,提出了21世纪初的发展策略。
玉米三种遗传效应研究现状与技术集成 段民孝 宋同明等 《玉米科学》2001,01
摘 要:通过大量详实资料,对玉米杂种优势、雄性不育、油分基因花粉直感等三种遗传效应的研究历史与现状作了详细概述,根据相关的遗传理论与实践,提出了将三种遗传效应进行技术集成的可能性,从而形成一种高产优质玉米生产模式,有可能是未来玉米生产的发展方向。
山东省八九十年代玉米杂种优势模式的利用 宋再华 史新海 彭守华 于福新《杂粮作物》2001,2
摘 要:通过对山东省1980~1999年生产上推广的37个主要玉米杂交种进行分析,总结探索出山东省八九十年代有10种杂种优势主体模式和19种子模式。其中,应用最多的主体模式为BSSS群×唐四平头群,子模式为8112亚群×唐四平头群、XL80亚群×唐四平头群和C103亚群×唐四平头群。
玉米轮回选择的现状与展望 谢俊贤 《杂粮作物》2001,2
摘 要:系统回顾了国内外玉米轮回选择的研究进展;扼要介绍了我国学者近年来提出的4种新的玉米轮回选择改良方法;同时对有关的几个重要问题进行了展望。
玉米产量性状配合力遗传分析 王向东 高根来 张风琴《玉米科学》2001,01
摘 要:通过对8个中晚熟玉米自交系产量性状进行双列杂交分析,表明各个自交系产量性状的一般配合力与特殊配合力存在显着差异,玉米杂交种F1的产量构成受到一般配合力与特殊配合力的共同作用,用特殊配合力对F1的作用大于一般配合力。特殊配合力高低与一般配合力无明显相关关系。因此在玉米杂交种组配与自交系改良工作中,既要兼顾双亲的一般配合力与特殊配合力,又要保持杂交优势利用模式与选系模式的种质关系。
玉米主要品质性状的配合力分析 祁新 赵颖君 邬信康等《玉米科学》2001,01
摘 要:采用不完全双列杂交法,对普通玉米4个品质性状(淀粉、油分、蛋白质、赖氨酸含量)的GCA和SCA及其相关进行了分析。同一品质性状不同亲本的GCA差异较大,同一自交系不同品质性状的GCA也有差异,同一品质性状因组合不同而SCA也不一样。亲本自交系的GCA和SCA对杂种的品质性状有重要作用,二者不能相互代替。
玉米雄性不育性研究Ⅷ.对玉米YⅡ-1不育胞质线粒体DNA RFLP分析 秦泰辰 徐明良等《作物学报》2001,2
摘 要:以玉米T、S、C群及新选育的YⅡ-1不育系为材料,用这4类群不育胞质线粒体DNA,经4种限制性内切酶酶切,长距凝胶分离酶切片段获得高分辨率的清晰谱带。再以5种线粒体特异的基因片段作为探针与酶切条带杂交,结果表明:T、S、C群表现较多差异的杂交带型,持有明显的多态性,YⅡ-1型杂交带与T、S群区别明显,与C群有少量差异。这为从遗传组成上区分不育胞质类群和YⅡ-1型不育系的归群提供试验依据。
近等基因背景下对玉米胚乳突变基因ae的遗传效应研究 滕文涛 宋同明等《作物学报》2001,2
摘 要:采用8个生产上常用的常规玉米自交系以及它们的ae近等基因系各组配16个组合进行裂区试验。测定等基因背景各对组合的直链淀粉含量、千粒重、小区产量及其它农艺性状。结果表明,纯合aeae的组合与同型马齿型组合相比千粒重、小区产量普遍降低而直链淀粉含量显着提高,遗传背景对ae基因的表达有重要影响,自交系和杂交种中可能存在着对ae基因表达不同数量的修饰基因。
利用RFLP和SSR标记划分玉米自交系杂种优势群的研究 袁力行 傅骏骅 张世煌等《作物学报》2001,2
摘 要:利用RFLP和SSR标记对29个玉米自交系进行杂种优势群划分,筛选出56个多态性RFLP探针酶组合,66对多态性SSR引物,分别在供试材料中检测到187个和232个等位基因变异。两种方法比较表明,SSR标记的平均多态性信息量(PIC,0.54)高于RFLP(0.42);但对供试材料的遗传多样性评价基本一致,平均遗传相似系数(GS)分别为0.64和0.62。综合RFLP和SSR分析结果进行聚类分析,将供试材料划分为四平头,旅大红骨,LSC,BSSS和PA五个类群,划分结果与系谱分析基本一致,并把系谱来源不清的种质划分到相应的杂种优势群。其中PN群的确认,进一步完善了我国玉米种质杂种优势群的基本框架,为育种实践提供了有价值的信息。
玉米遗传转化系统的研究进展 王罡等 《遗传》2001,1
摘 要:本文介绍了近年来玉米遗传转化系统的建立、基因导入手段、方法等方面的研究进展。
玉米野生近缘种类玉米的研究和利用 李冬郁等《玉米科学》2001,2
摘 要:玉米的野生近缘植物类玉米有两个种,一为一年生墨西哥类玉米,一为多年生类玉米.多年生类玉米有两个变种,一为四倍体多年生类玉米,一为二倍体多年生类玉米,它们是玉米属中除玉米种之外的另外两个种.这些野生种在自然界的严酷竞争和自然选择条件下形成了许多优良特征、特性,特别在抗逆性、抗病虫害、品质等方面.将其有益基因导入到栽培玉米获得丰富的多样性的种质遗传资源,以创建新的基因库,是提高玉米育种水平和效率、加快育种进程的重要基础和途径.通过玉米与其野生类玉米杂交,我们正从其杂种后代中选育出大批在粮食用和饲料用等方面有利用价值的优良植株并建立株系,从中选育出了优良异源自交系并配制出优良杂交种用于生产。
分子标记在玉米遗传育种中的应用 王彩洁等《玉米科学》2001,3
摘 要:本文综述了近年来分子标记技术在玉米目标基因的标记、玉米自交系亲缘关系与遗传多样性研究、QTL分析、杂种优势研究中的应用.
3个玉米细胞质雄性不育系的选育及分组鉴定 李晚忱等《作物学报》3
摘 要:从地理远缘杂交和亲缘远缘杂交群体中,分离选育川G、类2、类3三个玉米细胞质雄性不育系。恢保关系鉴定和线粒体DNA的RFLP分析表明,三个不育系均属C组细胞质雄性不育。但是,从线粒体DNA的RFLP带型可以推断,川G与类2、类3以及参试C组不育系属于不同亚组,对克服C组细胞质雄性不育的遗传单一性具重要意义。这三个不育系的不育性稳定且恢复容易,用以转育的生产用不育系,已经推广应用。
利用cDNA―AFLP技术研究玉米基因的差异表达 吴敏生 高志环 戴景瑞《作物学报》3
摘 要:利用cDNA-AFLP技术,对玉米强优势组合和弱优势组合及其双亲自交系在苗期和雄穗生长锥伸长期的基因表达进行了分析。结果表明,玉米强优势组合和弱优势组合的基因表达有明显差异,基因表达有多种类型,表现出质和量的差异,不仅有增强,也有双亲沉默,弱优势组合双亲沉默的数量在苗期和雄穗生长锥伸长期均高于强优势组合,杂种优势的大小可能与双亲基因间的抑制有关。
玉米细胞质线粒体DNA RFLP分类研究 李小琴等《作物学报》2001,4
摘 要:本实验用4个酶、4个探针组成16个酶/探针组合对玉米N、T、C、S、WBMs、801CMS等细胞质进行了线粒体DNA(mtDNA)RFLP分析。一方面对玉米细胞质 mtDNARFLP 分类方法进行研究,证明只要酶/探针技术体系合适,可以通过该方法对细胞质进行快速准确地分类;提出探针的选择是主要的,酶次之;认为PstⅠ/B30、HindⅢ/pBcmH3、BamHⅠ/pHJ2-7-1三个酶/探针可以作为mtDNA RFLP分类技术体系。另一方面,用 mtDNA RFLP分 类法把新发现的 WBMs 不育胞质划分为S组,801CMS划分为C组。
CIMMYT群体与中国骨干玉米自交系杂种优势关系的研究 李新海等《作物学报》2001,5
摘 要:本文旨在采用NCⅡ遗传交配设计,通过在武汉的两年试验研究10份 CIMMYT 群体与我国骨干玉米自交系之间的杂种优势关系,以探讨利用外来种质拓宽我国玉米种质遗传基础的途径.试验结果表明:在与我国优良骨干自交系交配的组合中,群体Staygreen、群体43-C11和群体21-C2三个群体穗部性状表现较好,单株产量一般配合力高,表现出较高的利用潜力.在供试的50份组合中,有13份组合的对照优势为正值,其中涉及到含有Tuxpeno血缘的3个群体(群体43-C11、群体21-C2、群体49-C6)的组合达8份,占61.54%.在4份强优势组合中,群体43-C11和群体21-C2参与形成的有3份.这些结果暗示我国现有的优良种质与Tuxpeno种质的配对有可能组成具有较大潜力的杂种优势模式.A8833和A9245群体诸性状一般配合力表现较差,与供试的我国骨干玉米自交系的杂种优势较低.群体32、基因库19-C19、黄粒综合种C3和P500四个群体农艺性状一般配合力表现中等,产量一般配合力不高,但可以作为特殊种质资源加以利用.本文的研究结果为有效利用这批外引种质提供了重要信息。
优质蛋白玉米自交系产量的特殊配合力及其杂种优势模式的初步分析 番兴明等《作物学报》2001,6
摘 要:对从国际玉米小麦改良中心(CIMMYT)引入的及省内自育的10个优质蛋白玉米(QPM)优良系进行了配合力分析及杂模式的初步研究.通过部分双列杂交获得45个杂交组合,并种植在云南省的3种不同生态条件下进行观察鉴定.产量的方差分析结果表明,品种之间、环境之间的差异达到极显着水平,而重复之间不显着;产量的一般配合力差异达极显着水平,而特殊配合力的差异不显着.杂交组合CML147噪ML23具有最高产量(8512.95kg/hm2),杂交组合YML102噪ML12具有最低产量(1486.05kg/hm2).自交系YML23产量的一般配合力效应值最高(90.90),自交系CML149(35.19)和CML147(30.57)产量的一般配合力效应值也较高;而自交系CML174产量的一般配合力效应值最低(-66.23).自交系CML140与YML102具有最高的产量特殊配合力效应值(95.95),自交系CML140与YML29产量的特殊配合力效应值也较高(86.31);而自交系YML12与YML102产量的特殊配合力效应值最低(-178.19).根据杂交组合产量性状的配合力分析,可初步将这10个优质蛋白玉米自交系划分为4个杂种优势群和4种杂种优势模式。
利用RFLP和SSR标记划分玉米自交系杂种优势群的研究 袁力行 傅骏骅 张世煌等
优质蛋白玉米遗传育种研究进展 丁占生 《中国农业科学》 2000 33(增刊)
摘 要:从遗传规律、种质资源、品种选育3个方面对优质蛋白玉米研究进行了综述。opaque-2基因可调节醇溶蛋白的合成,改善胚乳蛋白质品质;修饰基因可克服opaque-2基因的负面效应,作用机理可能与γ-醇溶蛋白含量增加有关。将opaque-2基因和修饰基因导入普通玉米种质,选育出若干优质蛋白玉米基因库、群体,并进行杂种优势和配合力研究。今后应注重遗传规律研究,为育种提供新思路、新方法。热带、亚热带地区结合杂交种选育继续拓宽遗传基础,温带地区应重点开展种质的引入、改良及创新研究,在育种工作中应用简便、有效的品质检测方法和分子标记辅助选择技术。
玉米根系性状的遗传及相关分析 王秀全 陈光明 何丹 《中国农业科学》 2000 33(增刊)
摘 要:对玉米根系性状的遗传及相关研究结果表明:各根系性状在不同亲本间存在真实的遗传差异;不同亲本之间,根系性状的配合力存在显着差异,这为组配出根系发达的玉米杂交种提供了遗传基础。同时根系性状中气生根条数、根鲜重、根干重、根总长、根总条数等性状的遗传以加性效应为主,遗传力较高,能稳定遗传,其转育及早代选择有效。相关分析表明,气生根条数与根鲜重、根干重、根总长、根总条数、土壤中根条数正相关显着或极显着,可作为玉米育种根系选择的指标。
玉米果穗苞叶性状的遗传分析 霍仕平 晏庆九 许明陆 《杂粮作物》 2000 20(2)
摘 要:采用NCⅡ交配设计,对玉米果穗苞叶数、苞叶长、苞叶宽和苞叶重进行了遗传分析。结果表明:苞叶数和苞叶宽的遗传总方差中,加性方差占绝大部分,遗传上主要表现为加性效应,符合加性——显性遗传模型,两性状的广义遗传力(hB2(%)分别为54.69%和37.81%,狭义遗传力(hB2(%)分别为49.42%和29.17%;苞叶长和苞叶重的遗传总方差中,加性方差虽占大部分,但非加性方差也约占1/4,甚至接近1/2(苞叶重),遗传上除主要表现为加性效应外,尚有显性和上位性效应存在,两性状的hB2(%)分别为61.62%和93.01%,hB2(%)分别为43.43%和55.08%。在育种上,这4个苞叶性状重点在于对亲本的选配,但苞叶长和苞叶重还应重视等位基因的显性效应和非等位基因间的上位性所产生的杂种优势。
玉米人工合成群体配合力效应及遗传潜势研究 铁双贵 郑用琏 刘丁良 《作物学报》 2000 26(1)
摘 要:选用6个自交系为测验种,采用NCⅡ遗传交配设计,对以我国西南地区优良玉米地方种质巫溪14,兰花早和北美,热、亚热带种质为主体的人工合成群体LBM、WBM、LLS、WLS和两个美国优良群体BSSSR、BS16等6个群体的配合力效应及遗传潜势进行了系统评估。两年两地(武汉、安阳)的研究结果表明:LBM、WBM、LLS、WLS群体的单株产量GCA高于BSSSR和BS16;参试的36个组合中高产组合主要集中在以LBM、WBM、LLS、WLS为亲本之一的组合中,其中WBM ?HZ85产量最高;根据SCA效应及产量表现,确定了若干杂种优势配对模式;杂种优势类群的划分存在明显的交叉,表明人工合成群体遗传变异丰富、遗传基础复杂,具有较好的轮回选择及组配优势组合的遗传潜势。
玉米杂种优势与种质扩增、改良和创新 张世煌 彭泽斌 李新海 《中国农业科学》 2000 33(增刊)
摘 要:遗传基础狭窄是当前玉米育种的首要限制因素。根据杂种优势群和杂种优势模式的原理扩增和改良玉米种质,将为育种技术创新和产品创新奠定基础。我国研究杂种优势群的技术路线可概括为系谱分析结合双列分析、NC-Ⅱ设计和DNA分子标子技术的组合。当前,我国玉米育种主要使用3个杂种优势群或5个亚群,2个主要杂种优势模式或4个子模式。根据我国玉米生产和种质结构特点,制定了玉米种质扩增、改良和创新的技术路线,主要包括外来群体接力改良、创造半外来种质和分析杂种优势群与构建杂种优势模式。杂交种选育技术的提高和杂种优势模式的构建促进群体改良技术从群体内选择转变为群体间相互轮回选择。相应的技术路线也要予以调整。
玉米种子纯度检验方法研究 孔广超 曹连莆 《种子》2000 (3)
摘 要:阐述了检验玉米种子纯度的形态学方法、生理生化方法和分子生物学方法的研究及应用情况,并对各种方法的优缺点进行了述评。
玉米株型性状的遗传参数研究 赵延明 王玲 王日方 《杂粮作物》 2000 20(2)
摘 要:选择玉米株型性状时应以GCA为主,重点考虑亲本自身的性状特点。株高GCA与穗位GCA、叶面积GCA,穗位GCA与叶面积GCA,叶长GCA与叶面积GCA,叶面积GCA与叶片数GCA之间相关显着或极显着,相互间选择有促进作用。辽76、辽87、辽5088、沈137等自交系可根据育种目标加以利用。
杂种优势模式在山东省玉米育种上的应用 陈举林 王玉林 苏波 《杂粮作物》 2000 20(2)
摘 要:山东省玉米育种取得了很大成就,但其遗传基础相对狭窄。主要种质分为改良Reid、Lancaster、塘四平头、旅大红骨和其它杂优种质群。改良Reid和塘四平头杂优群起主导作用。主要杂种利用模式以改良Reid×塘四平头,塘四平头×其它种质、改良Reid×其它种质、塘四平头×Lancaster、改良Reid×旅大红骨为辅。应加强种质改良,丰富遗传基础,探索新的杂种优势利用模式。
玉米分子图谱的构建和遗传多样性分析 王天宇 黎裕 《玉米科学》 2000 8(2)
摘要:全面评述了近一二十年来利用分子标记技术构建分子标记图、进行遗传多样性评价及杂种优势预测的研究进展。
玉米单交种选育存在的不足及弥补措施 于秀荣 邢吉敏《河北农业科学》4(2) 2000 6
摘要:玉米单交种的选育越来越集中在几个骨干自交系,造成种质遗传基础狭窄。为拓宽种质遗传基础,应进一步发掘和引进种质资源,采用群体改良和生物工程技术选育自交系。
带遗传标记的玉米基因雄性不育的发现及遗传和利用研究 林晓怡 杨典洱 林建业 《作物学报》 2000 26(2)
摘要:1992年在玉米族远源杂交组合3402F3(丹340X403-2)中首次发现带标记行状的基因雄性不育(GMS)材料。遗传分析结果表明,不育性受1对隐性基因控制。当不育株(A)与可育株(B)进行兄妹交,育性分离比例接近1:1。而可育株(B)自交的后代,可育株与不育株分离的比例为3:1。连锁遗传分析结果证明,不育基因(MS0)与 标记性基因(PLF)紧密连锁,未发现有交换现象,它们可能位于同一染色体同一位点上。经过不育株5代兄妹交已选出几个高产核不育两用系。通过测交筛选出一个强优势高产恢复系HR-1。利用高产核不育系于强优势恢复系配制出两个超高产玉米杂交种;小区(0.0066HM2)产量分别为72.0KG和 78.1KG,比对照掖单13号增产18.6%和28.7%。本文还讨论了带遗传标记性状的高产核不育两用系的应用前景,并提出了进一步研究MS0-PLF基因的设想。
矮生玉米的遗传与育种 阎淑琴 《玉米科学》 2000 8(2)
摘要:简单的概述了矮生玉米的遗传规律。回顾了我国矮生玉米育种及其发展概况。并结合嫩江农科所育种实践,论述了矮生玉米的研究使用及其发展前景。
爆裂玉米的品质及其选育 曾三省(中国农业科学院作物所 100081)1999,7(1).—14~17
摘要:本文对爆裂玉米的品质及其测定作了介绍,并对影响爆裂玉米最重要的品质特征爆裂膨胀性的因素进行分析,还论及爆裂玉米品种的选育方法。
多胞质玉米胚乳淀粉粒性状的扫描电镜观察 李敬玲(中国科学院遗传研究所 北京 100101),贾敬鸾,刘 敏… 遗传学报.— 1999,26(3).—249~253
摘要:11种多胞质系玉米胚乳淀粉粒的扫描电镜观察表明:不同的细胞质对细胞核有不同程度的互作,3种甜质胞质玉米的胚乳淀粉粒多呈球形,排列紧密,存在一定的共性;这11种玉米胚乳淀粉粒的平均直径为9.78μm~14.69μm,通过玉米胚乳粉粒形状特征的观察,在玉米淀粉性状和玉米籽粒的商品价值关系上进行一定程度探索,为玉米的进一步发展和研究提供了科学依据。
黑龙江省玉米品种发展历程及其遗传组成分析 李春霞(黑龙江省农科院玉米研究中心 150086),苏俊 玉米科学.—1999,7(1).—36~40
摘要:本文通过对黑龙江省1980~1997年18年间种植面积在1.0万hm2以上的玉米杂交种情况及其遗传组成分析,结果表明我省玉米品种的变化特点是:80年代中前期以自育、早熟品种为主,单、三、双交种同时并用80年代后期应用的中晚熟品种(如四单8、吉单101等)多为从吉林、辽宁等省引入的;90年代应用的优良品种以四单19、本育9、龙单13为主。同时还可以看出生产上应用的杂交种的种质:在80年代集中在甸11、Bup44、大黄等几个骨干系上,90年代逐渐转向以Mo17类亚群、塘四平头群为主阶段。应用的亲本材料过度集中造成了我省玉米种质遗传基础日趋狭窄。因此玉米育种工作应加强基础材料的改良研究与开发利用研究,从而拓宽基因资源,解决我省玉米育种种质资源缺乏,遗传基础狭窄的问题。
几个玉米自交系主要数量性状配合力分析 / 敖 君(黑龙江省农科院牡丹江农科所 157041)//玉米科学.—1999,7(1).—41~42
摘要:按(P1× P2)不完全双列杂交设计,分析了5个玉米自交系的株高、穗位、秃尖、穗粗、行数、行粒数、轴粗、穗重和单株产量9个性状的一般配合力和特殊配合力。结果表明秃尖、行粒数、轴粗和穗重主要受加性基因影响,其余5个性状加性和非加性基因效应同时存在。
利用DNA指纹鉴定玉米杂交种纯度及其真伪技术的研究 / 赵久然(北京市农林科学院玉米研究中心 100089),郭景伦,孔艳芳 … // 玉米科学.—1999,7(1).—9~13
摘要:从500个随机引物中筛选出30个在玉米上具有较好多态性的RAPD随机引物,并进一步筛选确定了适合我国主要玉米杂交种及其双亲的特异引物,建立了相应的DNA指纹图谱。杂交种的DNA指纹图谱表现为父、母本双亲带型的互补,均未出现互补带型之外的新带型。应用RAPD技术获得DNA指纹图谱的方法可以简便、快捷、经济、准确地鉴别玉米杂交种子纯度及真伪。目前已进行了上百份的检测实践,无一差错。
RAPD技术在玉米自交系亲缘关系研究中的应用 / 孙致良(莱阳农学院 265200),张超良,金德敏…//遗传学报.--1999,26(1). --61~68
摘要:通国对我国正在使用的12个玉米骨干自交系的RAPD分析,从220个Operon引物中筛选出12个能产生稳定的遗传多态性的引物。利用这些引物扩增出的指纹图谱,进性聚类分析,可将全部供试自交系分成3个类群。第1类群包括黄早4系统的5个自交系;第2个类群包扩478和488两个姊妹系;第3类群包括5个关系较远的自交系,其中3个来自美国,1个是全部中国血统,1个既有美国血统又有中国血统。这个结果与根据各个自交系的已知系谱确立的亲缘关系基本一致。
RAPD分子标记与玉米杂交种产量优势预测的研究 / 吴敏生(中国农业大学遗传育种系 100094),王守才,戴景瑞 / 遗传学报.-1999,26(5).-578~584
摘要:以24个优良玉米自交系按NCⅡ(11×13)设计组配成143个单杂交种为材料,利用RAPD分子标记技术研究玉米杂交种优势群划分,遗传距离(GD)与特殊配合力、杂种产量、杂种产量优势(MH)的关系。结果表明:⑴RAPD技术可用于玉米杂交优势群划分。⑵亲本遗传距离与杂种产量优势、杂种产量、特殊配合力有一定相关关系,但决定系数很小,分别是10%、10%、15%,利用RAPD技术预测杂种优势、杂种产量作用有限,应进一步研究与杂种优势有关的数量性状位点(QTL),从而使育种家预测高产组合成为可能。
玉米两个RFLP标记的原位单杂交与共杂交定位的比较 / 杭超(武汉大学生命?/div>
㈢ 如下哪个生物信息学方法可以用来寻找新基因
生物信息学方法可以用来寻找新基因.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.
8.生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9.生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
㈣ 急求!!NTSYS中Dice算法和SM算法有什么区别
1 数据的录入方法:
1.1 利用Ntedit直接录入数据
0、1二元数据中的数据缺失记为2。其中列标可以写为样品编号,在No.rows 栏中写入0、1数据总数,No.cols 栏中写入样品总数。文件另存为*.nts格式。1.2 从excel表中直接读入数据
Excel表中输入数据格式如下图。A1必须为1,B1为0、1数据总数,C1为样品总数。打开Ntedit程序,选择从Excel表输入,结果见上图。文件另存为*.Nts格式
1.3 Ntsys-pc可以直接运行*.phy格式的文件(由phylip和phytool产生)
1.4 DNA序列数据Ntsys-PC也可以分析,但好像用的人较少。建议大家使用phylip或者其他的软件。DNA序列数据在Excel中输入格式如下:1.5 其他数据的Excel输入如下2 聚类分析
Ntsys-pc2.02界面如下以下以图中数据为例介绍聚类过程:
2.1 首先用similarity程序组中的SimQual计算形似系数矩阵。Coefficient通常选用SM 或DICE,结果输出到另一文件。2.2 以上步的结果作为input file利用Clustering程序组中的SHAN或者Njoin进行计算,聚类分法选用UPGMA,ties选用FIND,Maximum no. tied trees至少大于样品数。Njoin程序组界面如下,rooting method可以选用Outgroup,但需输入外元。2.3 将SHAN或NJoin方法得到的tree file文件输入到Graphics程序组中的tree plot程序中计算得到树图如下利用options可以对树图进行描述与处理.在此略去.
2.4 一致性分析:
可以用Clustering中的consens程序进行,两个不同文件分别输入;同一文件中不同的进化树之间的分析,则只输入到input tree1 file即可。通常多选用MAJRUL方法2.5 其他数据的聚类方法与此类似,在此不再赘述。
㈤ 请教分子标记SSR标记(STMS)原理和步骤
SSR:微卫星DNA又叫简单重复序列,指的是基因组中由1~6个核苷酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。研究表明,微卫星在真核生物的基因组中的含量非常丰富,而且常常是随机分布于核DNA中。
微卫星中重复单位的数目存在高度变异,这些变异表现为微卫星数目的整倍性变异或重复单位序列中的序列有可能不完全相同,因而造成多个位点的多态性。如果能够将这些变异揭示出来,就能发现不同的SSR在不同的种甚至不同个体间的多态性,基于这一想法,人们发展起了SSR标记。
SSR标记又称为sequence tagged microsatellite site,简写为STMS,是目前最常用的微卫星标记之一。由于基因组中某一特定的微卫星的侧翼序列通常都是保守性较强的单一序列,因而可以将微卫星侧翼的DNA片段克隆、测序,然后根据微卫星的侧翼序列就可以人工合成引物进行PCR扩增,从而将单个微卫星位点扩增出来。由于单个微卫星位点重复单元在数量上的变异,个体的扩增产物在长度上的变化就产生长度的多态性,这一多态性称为简单序列重复长度多态性(SSLP),每一扩增位点就代表了这一位点的一对等位基因。由于SSR重复数目变化很大,所以SSR标记能揭示比RFLP高得多的多态性,这就是SSR标记的原理。�
与其它分子标记相比,SSR标记具有以下优点:(1)数量丰富,覆盖整个基因组,揭示的多态性高;(2)具有多等位基因的特性,提供的信息量高;(3)以孟德尔方式遗传,呈共显性;(4)每个位点由设计的引物顺序决定,便于不同的实验室相互交流合作开发引物。因而目前该技术已广泛用于遗传图谱的构建〔11,12,18,19,33〕、目标基因的标定〔8,9,21,22,26〕、指纹图〔22〕的绘制等研究中。但应看到,SSR标记的建立首先要对微卫星侧翼序列进行克隆、测序、人工设计合成引物以及标记的定位、作图等基础性研究,因而其开发费用相当高,各个实验室必须进行合作才能开发更多的标记。由于SSR标记具有较大的应用价值,且种属特异性较强,目前在一些主要的农作物中SSR标记研究都进行了合作,共同进行STMS引物的开发。
操作步骤
1、在25μl反应体系中,加入
模板DNA 1μl(20ng);
SSR引物 1μl(0.15μM)
10×PCR缓冲液 2.5μl
MgCl2 2μl (25mM)
dNTP 2μl (0.2mM)
Tap 酶 1单位
加ddH2O至 25μl
2、反应在PE 9600热循环仪上进行。PCR反应先95℃变性4min,接着94℃ 45s、55℃ 30s和72℃ 60s,35个循环,最后在72℃下延伸5min。PCR扩谱产物在测序电泳仪上用5%聚丙烯酰胺凝胶分离。点样时,样品量为5μl,电泳缓冲液为1×TBE,电泳工作电流50mA,电压1500V,时间约2~3h。DNA染色采用银染法。电泳结束后,凝胶连同胶板一起,经过固定、染色、显影、固定等步骤染色。电泳和银染具体操作与AFLP相似。
3、数据分析:
用BIO-RAD公司的Quantity One 软件统计,再用NTSYS软件计算出遗传相似性系数,用UPGMA法进行聚类分析构建聚类图。
㈥ 简述除权配对法(UPGMA)的算法思想。
通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。
㈦ 如何有效地对病毒宏基因组测序的数据进行分析
得出数据之后。
用dps 或者excel加载宏都可以进行分析
你们统计学的上机操作应该学过,再翻翻
那本教材
㈧ 种系发生学的分析方法
在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于人们了解生物进化的历史和进化机制。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
最大简约法:最大简约法(Maximum parsimony)是一种常使用于系统发生学分析的方法,根据离散型性状包括形态学性状和分子序列(DNA,蛋白质等)的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。在最大简约法的概念下,生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。
自举检验的基本方法是:从原数据集中抽取(同时替换)部分数据组成新的数据集,然后用这个新的数据集构造系统发生树。重复该过程,产生成百上千的重采样数据集,并同时生成对应的自举树,进而检验自举树对最终系统发生树各个分支的支持率。具体做法是,将最终系统发生树与各个自举树进行比较,其中,在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生相同分组的自举树的数目常常标注在系统发生树相应节点的旁边,表示树中每个部分的相对置信度。尽管有些系统发生树的构造方法会使自举过程非常耗时,但自举法已经成为系统发生分析中很受欢迎的算法。
㈨ 有了遗传距离,怎么进行UPGMA得出进化树
有了遗传距离,怎么进行UPGMA得出进化树
MEGA是一个关于序列分析以及比较统计的工具包,从3.1版本到后来的4.0版本一直都广为大家熟悉,现在推出了Mega5.0版本。功能比以前多有改进。现主要介绍使用Mega 5.0构建系统进化树的方法。供大家参考。
用MEGA构建进化树有以下步骤:
1、测序:
将克隆扩增测序得到的16S rDNA序列进行测序。
2、NCBI上做Blast
找到相似度最高的几个序列,确定一下你分离的细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个,然后寻找相似性最高的细菌,通常把该属的序列(Fasta格式文件)下载下来,或点击GenBank登录号,复制FSATA格式,整合在一个*.txt文档中(单独建立一个文件夹存放,后面的很多文件会自动装入该文件夹)
㈩ 什么是生物信息学
生物信息学
一, 生物信息学发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就
必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结
构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物
成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),
在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们
仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.
1944年Chargaff发现了着名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧
定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin
用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和Francis
Crick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形
成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基
对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的
遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.
DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大
肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接
成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验
方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递
的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心
法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起
到了极其重要的指导作用.
经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码
得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程
的技术基础.
正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息
学的出现也就成了一种必然.
2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.
由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每
天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一
个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发
现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域
的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA
序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,
分子演化及结构生物学,统计学及计算机科学等许多领域.
生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信
息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核
苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在
发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的
功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根
据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研
究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗
传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研
究的前沿.
二, 生物信息学的主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些
主要的研究重点.
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似
性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:
从相互重叠的序列片断中重构DNA的完整序列.
在各种试验条件下从探测数据(probe data)中决定物理和基因图
存贮,遍历和比较数据库中的DNA序列
比较两个或多个序列的相似性
在数据库中搜索相关序列和子序列
寻找核苷酸(nucleotides)的连续产生模式
找出蛋白质和DNA序列中的信息成分
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前
两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权
和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个
序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海
量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算
法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,着名的
BALST和FASTA算法及相应的改进方法均是从此前提出发的.
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.
蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般
相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),
蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸
的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.
研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking
drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.
直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息.
蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应
(不一定全真),物理上可用最小能量来解释.
从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同
源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用
于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较
进化族中不同的蛋白质结构.
然而,蛋白结构预测研究现状还远远不能满足实际需要.
3, 基因识别,非编码区分析研究.
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组
序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢
弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序
列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码
区DNA序列目前没有一般性的指导方法.
在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已
完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序
列是难以想象的.
侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔
可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden
Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进
化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相
关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似
性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化
的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角
度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白
质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统
的聚类方法(如UPGMA)来实现.
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,
如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列
全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直
至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个
NP-完全问题.
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上
一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.
不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说
来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源
和检验上述理论的真伪提供了新的素材.
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,
相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物
治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要
的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础
上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一
领域目的是发现新的基因药物,有着巨大的经济效益.
8, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,
逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的
学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组
学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.
从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对
与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认
识.
三, 生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.
常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问
题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完
备的生命组织理论.
西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作
时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采
用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"
模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.
机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能
[5].
机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,
而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花
费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,
快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因
而,生物信息学与机器学习相结合也就成了必然.
机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是
统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推
理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马
尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和
探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般
的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析
(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally
Linear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可
看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于
microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数
据库中获得相应的现象解释.
机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多
假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息
学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻
找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络
和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.
四, 生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息
学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型
(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质
空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓
扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理
论或多或少在生物学研究中起到了相应的作用.
但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学
和度量空间为例来说明.
1, 统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显着的悖
论莫过于均值了,如图1:
图1 两组同心圆的数据集
图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也
就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多
的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法
和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于
对数据的结构缺乏一般性认识而产生的.
2, 度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举
例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分
值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.
那么,是否这种前提假设具有普适性呢
我们不妨给出一般的描述:假定两个向量为A,B,其中,
,则在假定且满足维数间线性无关的前提下,两个
向量的度量可定义为:
(1)
依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息
学中常采用的一般性描述,即假定了变量间线性无关.
然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考
虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的
度量公式可由下式给出:
(2)
上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足
(3)
时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线
性相关性,我们正在研究这个问题.
五, 几种统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却
一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的
巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来
改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov
复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介
绍.
支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计
学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则
采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性
质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函
数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核
函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选
择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中
又一个大气泡.
Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习
的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov
复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只
适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参
数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.
BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的
惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近
年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验
的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索
的空间.
六, 讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平
上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互
关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这
些问题做出探讨和思索.
启发式方法:
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优
的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得
到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的
困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能
达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,
要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,
要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工
智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.
问题规模不同的处理:
Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数
据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这
好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法
一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同
样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据
挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用
动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.
乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因
组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在
的隐扰呢
不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出
十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相
同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成
果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,
这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的
本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不
能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现
实.
反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从
结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所
有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来
自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人
工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的
功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我
们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐
观呢 现在说肯定的话也许为时尚早.
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,
是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为
各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方
面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全
明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正
的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从
数学上的新思路来获得本质性的动力.
毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,
这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列
以及相关的内容,我们还有相当长的路要走.
(来源 ------[InfoBio.org | 生物信息学研讨组])http://www.infobio.org
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学