導航:首頁 > 安裝方法 > UPGMA聚類分析方法操作步驟

UPGMA聚類分析方法操作步驟

發布時間:2022-04-20 07:30:49

怎麼用UPGMA法做聚類分析

聚類分析:將個體(樣品)或者對象(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個數據集中的樣

㈡ 我國科學家在遺傳育種方面的成果和利用了哪些技術原理

看網站:分子遺傳育種
或者:http://www.bioon.com/Index.asp
絕對有你要答案!

去找找下邊的文獻全文看看吧:
遺傳育種
AFLP分子標記在玉米優良自交系優勢群劃分中的應用 吳敏生 王守才 戴景瑞 《作物學報》 2000 26(1)

摘 要:利用AFLP分子標記技術研究了17個玉米優良自交系的遺傳多樣性,4個AFLP引物組合分別擴增出30、30、44、41條多態性帶,平均每個引物組合擴出36.25條帶,4個引物組合共擴增出145條帶,每一個引物組合都可將17個自交系完全分開。利用AFLP數據、進行聚類分析,將17個優良自交系聚為6群,結果表明,用AFLP標記進行玉米優勢群劃分與自交系系譜親緣關系基本一致,AFLP技術可以用於玉米自交系的遺傳多樣性研究和優勢群劃分。

從事緊湊型玉米育種的回顧與展望 李登海 《作物雜志》 2000 (5)

摘 要:從探索我國玉米高產道路,進行夏玉米高產攻關研究開始,講述了在高產試驗中從平展型玉米雜交種發展到應用緊湊型玉米雜交種的歷史過程,並通過緊湊型玉米與平展型玉米的株型比較試驗,證明了緊湊型玉米較平展型玉米的增產作用,結合緊湊型玉米雜交種的生理特徵,探索良種良法配套技術,創造出16444.35kg/hm2的夏玉米高產記錄。選育出20多個被全國玉米育種單位廣泛應用的緊湊型玉米自交系,所選育的緊湊型玉米雜交種佔全國玉米種植面積的1/3以上。推動了我國玉米育種和高產栽培研究事業的發展。本文對緊湊型玉米育種的發展提出了作者的觀點。

帶遺傳標記的玉米基因雄性不育的發現及遺傳和利用研究 林曉怡 楊典洱 林建興 《作物學報》 2000 26(2)

摘 要:1992年在玉米族遠緣雜交組合3402F3(丹340×403-2)中首次發現帶標記性狀的基因雄性不育(GMS)材料。遺傳分析結果表明,不育性受1對隱性基因控制。當不育株(A)與可育株(B)進行兄妹交,育性分離比例接近1∶1;而可育株(B)自交的後代,可育株與不育株的分離比例為3∶1。連鎖遺傳分析結果證明,不育基因(ms °)與標記性狀基因(plf)緊密連鎖,未發現有交換現象,它們可能位於同一染色體同一位點上。經過不育株5代兄妹交已選出幾個高產核不育兩用系。通過測交篩選出一個強優勢高產恢復系HR-1。利用高產核不育系與強優恢復系配製出兩個超高產玉米雜交種;小區(0.0066hm2)產量分別為72.0kg和78.1kg,比對照掖單13號增產18.6%和28.7%。本文還討論了帶遺傳標記的高產核不育兩用系的應用前景,並提出進一步研究ms°-plf基因的設想。

利用SSR標記研究玉米自交系的遺傳變異 李新海 傅駿驊 張世煌 《中國農業科學》 2000 33(2)

摘 要:利用SSR標記研究了21個玉米(Zea mays L.)自交系的遺傳變異,初步進行了雜種優勢群劃分。從69對SSR引物中篩選出43對擴增產物具有穩定多態性的引物。43對引物在供試材料中共檢測出127個等位基因變異,每對引物檢測等位基因2~7個,平均為2.95個;平均多態性信息量為0.511。21個自交系之間的遺傳相似系數變化范圍為0.480~0.768,平均為0.627。 UUPGMA 聚類分析結果表明,供試自交系可分為2個類群。黃早四自成1群;其餘20個自交系又分為5個亞群。生產上利用的高產雜交組合的親本均屬於不同的類群(亞群),而在類群(亞群)內未發現高產組合。研究發現8對具有較高多態性信息量的引物,利用這些引物可以對供試材料進行初步鑒定。研究表明,利用SSR標記可以進行玉米自交系遺傳變異分析,並用於雜種優勢群劃分。

我國21世紀玉米遺傳育種工程技術展望 李晚忱 榮廷昭 《玉米科學》 2000 8(2)

摘 要:介紹了國外玉米遺傳育種工程在分子生物學和基因工程技術等方面的研究動態,根據我國玉米遺傳育種研究工作面臨的艱苦任務和有待解決的主要問題,提出了21世紀初的發展策略。

玉米三種遺傳效應研究現狀與技術集成 段民孝 宋同明等 《玉米科學》2001,01

摘 要:通過大量詳實資料,對玉米雜種優勢、雄性不育、油分基因花粉直感等三種遺傳效應的研究歷史與現狀作了詳細概述,根據相關的遺傳理論與實踐,提出了將三種遺傳效應進行技術集成的可能性,從而形成一種高產優質玉米生產模式,有可能是未來玉米生產的發展方向。

山東省八九十年代玉米雜種優勢模式的利用 宋再華 史新海 彭守華 於福新《雜糧作物》2001,2

摘 要:通過對山東省1980~1999年生產上推廣的37個主要玉米雜交種進行分析,總結探索出山東省八九十年代有10種雜種優勢主體模式和19種子模式。其中,應用最多的主體模式為BSSS群×唐四平頭群,子模式為8112亞群×唐四平頭群、XL80亞群×唐四平頭群和C103亞群×唐四平頭群。

玉米輪回選擇的現狀與展望 謝俊賢 《雜糧作物》2001,2

摘 要:系統回顧了國內外玉米輪回選擇的研究進展;扼要介紹了我國學者近年來提出的4種新的玉米輪回選擇改良方法;同時對有關的幾個重要問題進行了展望。

玉米產量性狀配合力遺傳分析 王向東 高根來 張風琴《玉米科學》2001,01

摘 要:通過對8個中晚熟玉米自交系產量性狀進行雙列雜交分析,表明各個自交系產量性狀的一般配合力與特殊配合力存在顯著差異,玉米雜交種F1的產量構成受到一般配合力與特殊配合力的共同作用,用特殊配合力對F1的作用大於一般配合力。特殊配合力高低與一般配合力無明顯相關關系。因此在玉米雜交種組配與自交系改良工作中,既要兼顧雙親的一般配合力與特殊配合力,又要保持雜交優勢利用模式與選系模式的種質關系。

玉米主要品質性狀的配合力分析 祁新 趙穎君 鄔信康等《玉米科學》2001,01

摘 要:採用不完全雙列雜交法,對普通玉米4個品質性狀(澱粉、油分、蛋白質、賴氨酸含量)的GCA和SCA及其相關進行了分析。同一品質性狀不同親本的GCA差異較大,同一自交系不同品質性狀的GCA也有差異,同一品質性狀因組合不同而SCA也不一樣。親本自交系的GCA和SCA對雜種的品質性狀有重要作用,二者不能相互代替。

玉米雄性不育性研究Ⅷ.對玉米YⅡ-1不育胞質線粒體DNA RFLP分析 秦泰辰 徐明良等《作物學報》2001,2

摘 要:以玉米T、S、C群及新選育的YⅡ-1不育系為材料,用這4類群不育胞質線粒體DNA,經4種限制性內切酶酶切,長距凝膠分離酶切片段獲得高解析度的清晰譜帶。再以5種線粒體特異的基因片段作為探針與酶切條帶雜交,結果表明:T、S、C群表現較多差異的雜交帶型,持有明顯的多態性,YⅡ-1型雜交帶與T、S群區別明顯,與C群有少量差異。這為從遺傳組成上區分不育胞質類群和YⅡ-1型不育系的歸群提供試驗依據。

近等基因背景下對玉米胚乳突變基因ae的遺傳效應研究 滕文濤 宋同明等《作物學報》2001,2

摘 要:採用8個生產上常用的常規玉米自交系以及它們的ae近等基因系各組配16個組合進行裂區試驗。測定等基因背景各對組合的直鏈澱粉含量、千粒重、小區產量及其它農藝性狀。結果表明,純合aeae的組合與同型馬齒型組合相比千粒重、小區產量普遍降低而直鏈澱粉含量顯著提高,遺傳背景對ae基因的表達有重要影響,自交系和雜交種中可能存在著對ae基因表達不同數量的修飾基因。

利用RFLP和SSR標記劃分玉米自交系雜種優勢群的研究 袁力行 傅駿驊 張世煌等《作物學報》2001,2

摘 要:利用RFLP和SSR標記對29個玉米自交系進行雜種優勢群劃分,篩選出56個多態性RFLP探針酶組合,66對多態性SSR引物,分別在供試材料中檢測到187個和232個等位基因變異。兩種方法比較表明,SSR標記的平均多態性信息量(PIC,0.54)高於RFLP(0.42);但對供試材料的遺傳多樣性評價基本一致,平均遺傳相似系數(GS)分別為0.64和0.62。綜合RFLP和SSR分析結果進行聚類分析,將供試材料劃分為四平頭,旅大紅骨,LSC,BSSS和PA五個類群,劃分結果與系譜分析基本一致,並把系譜來源不清的種質劃分到相應的雜種優勢群。其中PN群的確認,進一步完善了我國玉米種質雜種優勢群的基本框架,為育種實踐提供了有價值的信息。

玉米遺傳轉化系統的研究進展 王罡等 《遺傳》2001,1

摘 要:本文介紹了近年來玉米遺傳轉化系統的建立、基因導入手段、方法等方面的研究進展。

玉米野生近緣種類玉米的研究和利用 李冬郁等《玉米科學》2001,2

摘 要:玉米的野生近緣植物類玉米有兩個種,一為一年生墨西哥類玉米,一為多年生類玉米.多年生類玉米有兩個變種,一為四倍體多年生類玉米,一為二倍體多年生類玉米,它們是玉米屬中除玉米種之外的另外兩個種.這些野生種在自然界的嚴酷競爭和自然選擇條件下形成了許多優良特徵、特性,特別在抗逆性、抗病蟲害、品質等方面.將其有益基因導入到栽培玉米獲得豐富的多樣性的種質遺傳資源,以創建新的基因庫,是提高玉米育種水平和效率、加快育種進程的重要基礎和途徑.通過玉米與其野生類玉米雜交,我們正從其雜種後代中選育出大批在糧食用和飼料用等方面有利用價值的優良植株並建立株系,從中選育出了優良異源自交系並配製出優良雜交種用於生產。

分子標記在玉米遺傳育種中的應用 王彩潔等《玉米科學》2001,3

摘 要:本文綜述了近年來分子標記技術在玉米目標基因的標記、玉米自交系親緣關系與遺傳多樣性研究、QTL分析、雜種優勢研究中的應用.

3個玉米細胞質雄性不育系的選育及分組鑒定 李晚忱等《作物學報》3

摘 要:從地理遠緣雜交和親緣遠緣雜交群體中,分離選育川G、類2、類3三個玉米細胞質雄性不育系。恢保關系鑒定和線粒體DNA的RFLP分析表明,三個不育系均屬C組細胞質雄性不育。但是,從線粒體DNA的RFLP帶型可以推斷,川G與類2、類3以及參試C組不育系屬於不同亞組,對克服C組細胞質雄性不育的遺傳單一性具重要意義。這三個不育系的不育性穩定且恢復容易,用以轉育的生產用不育系,已經推廣應用。

利用cDNA―AFLP技術研究玉米基因的差異表達 吳敏生 高志環 戴景瑞《作物學報》3

摘 要:利用cDNA-AFLP技術,對玉米強優勢組合和弱優勢組合及其雙親自交系在苗期和雄穗生長錐伸長期的基因表達進行了分析。結果表明,玉米強優勢組合和弱優勢組合的基因表達有明顯差異,基因表達有多種類型,表現出質和量的差異,不僅有增強,也有雙親沉默,弱優勢組合雙親沉默的數量在苗期和雄穗生長錐伸長期均高於強優勢組合,雜種優勢的大小可能與雙親基因間的抑制有關。

玉米細胞質線粒體DNA RFLP分類研究 李小琴等《作物學報》2001,4

摘 要:本實驗用4個酶、4個探針組成16個酶/探針組合對玉米N、T、C、S、WBMs、801CMS等細胞質進行了線粒體DNA(mtDNA)RFLP分析。一方面對玉米細胞質 mtDNARFLP 分類方法進行研究,證明只要酶/探針技術體系合適,可以通過該方法對細胞質進行快速准確地分類;提出探針的選擇是主要的,酶次之;認為PstⅠ/B30、HindⅢ/pBcmH3、BamHⅠ/pHJ2-7-1三個酶/探針可以作為mtDNA RFLP分類技術體系。另一方面,用 mtDNA RFLP分 類法把新發現的 WBMs 不育胞質劃分為S組,801CMS劃分為C組。

CIMMYT群體與中國骨幹玉米自交系雜種優勢關系的研究 李新海等《作物學報》2001,5

摘 要:本文旨在採用NCⅡ遺傳交配設計,通過在武漢的兩年試驗研究10份 CIMMYT 群體與我國骨幹玉米自交系之間的雜種優勢關系,以探討利用外來種質拓寬我國玉米種質遺傳基礎的途徑.試驗結果表明:在與我國優良骨幹自交系交配的組合中,群體Staygreen、群體43-C11和群體21-C2三個群體穗部性狀表現較好,單株產量一般配合力高,表現出較高的利用潛力.在供試的50份組合中,有13份組合的對照優勢為正值,其中涉及到含有Tuxpeno血緣的3個群體(群體43-C11、群體21-C2、群體49-C6)的組合達8份,佔61.54%.在4份強優勢組合中,群體43-C11和群體21-C2參與形成的有3份.這些結果暗示我國現有的優良種質與Tuxpeno種質的配對有可能組成具有較大潛力的雜種優勢模式.A8833和A9245群體諸性狀一般配合力表現較差,與供試的我國骨幹玉米自交系的雜種優勢較低.群體32、基因庫19-C19、黃粒綜合種C3和P500四個群體農藝性狀一般配合力表現中等,產量一般配合力不高,但可以作為特殊種質資源加以利用.本文的研究結果為有效利用這批外引種質提供了重要信息。

優質蛋白玉米自交系產量的特殊配合力及其雜種優勢模式的初步分析 番興明等《作物學報》2001,6

摘 要:對從國際玉米小麥改良中心(CIMMYT)引入的及省內自育的10個優質蛋白玉米(QPM)優良系進行了配合力分析及雜模式的初步研究.通過部分雙列雜交獲得45個雜交組合,並種植在雲南省的3種不同生態條件下進行觀察鑒定.產量的方差分析結果表明,品種之間、環境之間的差異達到極顯著水平,而重復之間不顯著;產量的一般配合力差異達極顯著水平,而特殊配合力的差異不顯著.雜交組合CML147噪ML23具有最高產量(8512.95kg/hm2),雜交組合YML102噪ML12具有最低產量(1486.05kg/hm2).自交系YML23產量的一般配合力效應值最高(90.90),自交系CML149(35.19)和CML147(30.57)產量的一般配合力效應值也較高;而自交系CML174產量的一般配合力效應值最低(-66.23).自交系CML140與YML102具有最高的產量特殊配合力效應值(95.95),自交系CML140與YML29產量的特殊配合力效應值也較高(86.31);而自交系YML12與YML102產量的特殊配合力效應值最低(-178.19).根據雜交組合產量性狀的配合力分析,可初步將這10個優質蛋白玉米自交系劃分為4個雜種優勢群和4種雜種優勢模式。

利用RFLP和SSR標記劃分玉米自交系雜種優勢群的研究 袁力行 傅駿驊 張世煌等

優質蛋白玉米遺傳育種研究進展 丁占生 《中國農業科學》 2000 33(增刊)

摘 要:從遺傳規律、種質資源、品種選育3個方面對優質蛋白玉米研究進行了綜述。opaque-2基因可調節醇溶蛋白的合成,改善胚乳蛋白質品質;修飾基因可克服opaque-2基因的負面效應,作用機理可能與γ-醇溶蛋白含量增加有關。將opaque-2基因和修飾基因導入普通玉米種質,選育出若干優質蛋白玉米基因庫、群體,並進行雜種優勢和配合力研究。今後應注重遺傳規律研究,為育種提供新思路、新方法。熱帶、亞熱帶地區結合雜交種選育繼續拓寬遺傳基礎,溫帶地區應重點開展種質的引入、改良及創新研究,在育種工作中應用簡便、有效的品質檢測方法和分子標記輔助選擇技術。

玉米根系性狀的遺傳及相關分析 王秀全 陳光明 何丹 《中國農業科學》 2000 33(增刊)

摘 要:對玉米根系性狀的遺傳及相關研究結果表明:各根系性狀在不同親本間存在真實的遺傳差異;不同親本之間,根系性狀的配合力存在顯著差異,這為組配出根系發達的玉米雜交種提供了遺傳基礎。同時根系性狀中氣生根條數、根鮮重、根乾重、根總長、根總條數等性狀的遺傳以加性效應為主,遺傳力較高,能穩定遺傳,其轉育及早代選擇有效。相關分析表明,氣生根條數與根鮮重、根乾重、根總長、根總條數、土壤中根條數正相關顯著或極顯著,可作為玉米育種根系選擇的指標。

玉米果穗苞葉性狀的遺傳分析 霍仕平 晏慶九 許明陸 《雜糧作物》 2000 20(2)

摘 要:採用NCⅡ交配設計,對玉米果穗苞葉數、苞葉長、苞葉寬和苞葉重進行了遺傳分析。結果表明:苞葉數和苞葉寬的遺傳總方差中,加性方差占絕大部分,遺傳上主要表現為加性效應,符合加性——顯性遺傳模型,兩性狀的廣義遺傳力(hB2(%)分別為54.69%和37.81%,狹義遺傳力(hB2(%)分別為49.42%和29.17%;苞葉長和苞葉重的遺傳總方差中,加性方差雖佔大部分,但非加性方差也約佔1/4,甚至接近1/2(苞葉重),遺傳上除主要表現為加性效應外,尚有顯性和上位性效應存在,兩性狀的hB2(%)分別為61.62%和93.01%,hB2(%)分別為43.43%和55.08%。在育種上,這4個苞葉性狀重點在於對親本的選配,但苞葉長和苞葉重還應重視等位基因的顯性效應和非等位基因間的上位性所產生的雜種優勢。

玉米人工合成群體配合力效應及遺傳潛勢研究 鐵雙貴 鄭用璉 劉丁良 《作物學報》 2000 26(1)

摘 要:選用6個自交系為測驗種,採用NCⅡ遺傳交配設計,對以我國西南地區優良玉米地方種質巫溪14,蘭花早和北美,熱、亞熱帶種質為主體的人工合成群體LBM、WBM、LLS、WLS和兩個美國優良群體BSSSR、BS16等6個群體的配合力效應及遺傳潛勢進行了系統評估。兩年兩地(武漢、安陽)的研究結果表明:LBM、WBM、LLS、WLS群體的單株產量GCA高於BSSSR和BS16;參試的36個組合中高產組合主要集中在以LBM、WBM、LLS、WLS為親本之一的組合中,其中WBM ?HZ85產量最高;根據SCA效應及產量表現,確定了若干雜種優勢配對模式;雜種優勢類群的劃分存在明顯的交叉,表明人工合成群體遺傳變異豐富、遺傳基礎復雜,具有較好的輪回選擇及組配優勢組合的遺傳潛勢。

玉米雜種優勢與種質擴增、改良和創新 張世煌 彭澤斌 李新海 《中國農業科學》 2000 33(增刊)

摘 要:遺傳基礎狹窄是當前玉米育種的首要限制因素。根據雜種優勢群和雜種優勢模式的原理擴增和改良玉米種質,將為育種技術創新和產品創新奠定基礎。我國研究雜種優勢群的技術路線可概括為系譜分析結合雙列分析、NC-Ⅱ設計和DNA分子標子技術的組合。當前,我國玉米育種主要使用3個雜種優勢群或5個亞群,2個主要雜種優勢模式或4個子模式。根據我國玉米生產和種質結構特點,制定了玉米種質擴增、改良和創新的技術路線,主要包括外來群體接力改良、創造半外來種質和分析雜種優勢群與構建雜種優勢模式。雜交種選育技術的提高和雜種優勢模式的構建促進群體改良技術從群體內選擇轉變為群體間相互輪回選擇。相應的技術路線也要予以調整。

玉米種子純度檢驗方法研究 孔廣超 曹連莆 《種子》2000 (3)

摘 要:闡述了檢驗玉米種子純度的形態學方法、生理生化方法和分子生物學方法的研究及應用情況,並對各種方法的優缺點進行了述評。

玉米株型性狀的遺傳參數研究 趙延明 王玲 王日方 《雜糧作物》 2000 20(2)

摘 要:選擇玉米株型性狀時應以GCA為主,重點考慮親本自身的性狀特點。株高GCA與穗位GCA、葉面積GCA,穗位GCA與葉面積GCA,葉長GCA與葉面積GCA,葉面積GCA與葉片數GCA之間相關顯著或極顯著,相互間選擇有促進作用。遼76、遼87、遼5088、沈137等自交系可根據育種目標加以利用。

雜種優勢模式在山東省玉米育種上的應用 陳舉林 王玉林 蘇波 《雜糧作物》 2000 20(2)

摘 要:山東省玉米育種取得了很大成就,但其遺傳基礎相對狹窄。主要種質分為改良Reid、Lancaster、塘四平頭、旅大紅骨和其它雜優種質群。改良Reid和塘四平頭雜優群起主導作用。主要雜種利用模式以改良Reid×塘四平頭,塘四平頭×其它種質、改良Reid×其它種質、塘四平頭×Lancaster、改良Reid×旅大紅骨為輔。應加強種質改良,豐富遺傳基礎,探索新的雜種優勢利用模式。

玉米分子圖譜的構建和遺傳多樣性分析 王天宇 黎裕 《玉米科學》 2000 8(2)

摘要:全面評述了近一二十年來利用分子標記技術構建分子標記圖、進行遺傳多樣性評價及雜種優勢預測的研究進展。

玉米單交種選育存在的不足及彌補措施 於秀榮 邢吉敏《河北農業科學》4(2) 2000 6

摘要:玉米單交種的選育越來越集中在幾個骨幹自交系,造成種質遺傳基礎狹窄。為拓寬種質遺傳基礎,應進一步發掘和引進種質資源,採用群體改良和生物工程技術選育自交系。

帶遺傳標記的玉米基因雄性不育的發現及遺傳和利用研究 林曉怡 楊典洱 林建業 《作物學報》 2000 26(2)

摘要:1992年在玉米族遠源雜交組合3402F3(丹340X403-2)中首次發現帶標記行狀的基因雄性不育(GMS)材料。遺傳分析結果表明,不育性受1對隱性基因控制。當不育株(A)與可育株(B)進行兄妹交,育性分離比例接近1:1。而可育株(B)自交的後代,可育株與不育株分離的比例為3:1。連鎖遺傳分析結果證明,不育基因(MS0)與 標記性基因(PLF)緊密連鎖,未發現有交換現象,它們可能位於同一染色體同一位點上。經過不育株5代兄妹交已選出幾個高產核不育兩用系。通過測交篩選出一個強優勢高產恢復系HR-1。利用高產核不育系於強優勢恢復系配製出兩個超高產玉米雜交種;小區(0.0066HM2)產量分別為72.0KG和 78.1KG,比對照掖單13號增產18.6%和28.7%。本文還討論了帶遺傳標記性狀的高產核不育兩用系的應用前景,並提出了進一步研究MS0-PLF基因的設想。

矮生玉米的遺傳與育種 閻淑琴 《玉米科學》 2000 8(2)

摘要:簡單的概述了矮生玉米的遺傳規律。回顧了我國矮生玉米育種及其發展概況。並結合嫩江農科所育種實踐,論述了矮生玉米的研究使用及其發展前景。

爆裂玉米的品質及其選育 曾三省(中國農業科學院作物所 100081)1999,7(1).—14~17

摘要:本文對爆裂玉米的品質及其測定作了介紹,並對影響爆裂玉米最重要的品質特徵爆裂膨脹性的因素進行分析,還論及爆裂玉米品種的選育方法。

多胞質玉米胚乳澱粉粒性狀的掃描電鏡觀察 李敬玲(中國科學院遺傳研究所 北京 100101),賈敬鸞,劉 敏… 遺傳學報.— 1999,26(3).—249~253

摘要:11種多胞質系玉米胚乳澱粉粒的掃描電鏡觀察表明:不同的細胞質對細胞核有不同程度的互作,3種甜質胞質玉米的胚乳澱粉粒多呈球形,排列緊密,存在一定的共性;這11種玉米胚乳澱粉粒的平均直徑為9.78μm~14.69μm,通過玉米胚乳粉粒形狀特徵的觀察,在玉米澱粉性狀和玉米籽粒的商品價值關繫上進行一定程度探索,為玉米的進一步發展和研究提供了科學依據。

黑龍江省玉米品種發展歷程及其遺傳組成分析 李春霞(黑龍江省農科院玉米研究中心 150086),蘇俊 玉米科學.—1999,7(1).—36~40

摘要:本文通過對黑龍江省1980~1997年18年間種植面積在1.0萬hm2以上的玉米雜交種情況及其遺傳組成分析,結果表明我省玉米品種的變化特點是:80年代中前期以自育、早熟品種為主,單、三、雙交種同時並用80年代後期應用的中晚熟品種(如四單8、吉單101等)多為從吉林、遼寧等省引入的;90年代應用的優良品種以四單19、本育9、龍單13為主。同時還可以看出生產上應用的雜交種的種質:在80年代集中在甸11、Bup44、大黃等幾個骨幹係上,90年代逐漸轉向以Mo17類亞群、塘四平頭群為主階段。應用的親本材料過度集中造成了我省玉米種質遺傳基礎日趨狹窄。因此玉米育種工作應加強基礎材料的改良研究與開發利用研究,從而拓寬基因資源,解決我省玉米育種種質資源缺乏,遺傳基礎狹窄的問題。

幾個玉米自交系主要數量性狀配合力分析 / 敖 君(黑龍江省農科院牡丹江農科所 157041)//玉米科學.—1999,7(1).—41~42

摘要:按(P1× P2)不完全雙列雜交設計,分析了5個玉米自交系的株高、穗位、禿尖、穗粗、行數、行粒數、軸粗、穗重和單株產量9個性狀的一般配合力和特殊配合力。結果表明禿尖、行粒數、軸粗和穗重主要受加性基因影響,其餘5個性狀加性和非加性基因效應同時存在。

利用DNA指紋鑒定玉米雜交種純度及其真偽技術的研究 / 趙久然(北京市農林科學院玉米研究中心 100089),郭景倫,孔艷芳 … // 玉米科學.—1999,7(1).—9~13

摘要:從500個隨機引物中篩選出30個在玉米上具有較好多態性的RAPD隨機引物,並進一步篩選確定了適合我國主要玉米雜交種及其雙親的特異引物,建立了相應的DNA指紋圖譜。雜交種的DNA指紋圖譜表現為父、母本雙親帶型的互補,均未出現互補帶型之外的新帶型。應用RAPD技術獲得DNA指紋圖譜的方法可以簡便、快捷、經濟、准確地鑒別玉米雜交種子純度及真偽。目前已進行了上百份的檢測實踐,無一差錯。

RAPD技術在玉米自交系親緣關系研究中的應用 / 孫致良(萊陽農學院 265200),張超良,金德敏…//遺傳學報.--1999,26(1). --61~68

摘要:通國對我國正在使用的12個玉米骨幹自交系的RAPD分析,從220個Operon引物中篩選出12個能產生穩定的遺傳多態性的引物。利用這些引物擴增出的指紋圖譜,進性聚類分析,可將全部供試自交系分成3個類群。第1類群包括黃早4系統的5個自交系;第2個類群包擴478和488兩個姊妹系;第3類群包括5個關系較遠的自交系,其中3個來自美國,1個是全部中國血統,1個既有美國血統又有中國血統。這個結果與根據各個自交系的已知系譜確立的親緣關系基本一致。

RAPD分子標記與玉米雜交種產量優勢預測的研究 / 吳敏生(中國農業大學遺傳育種系 100094),王守才,戴景瑞 / 遺傳學報.-1999,26(5).-578~584

摘要:以24個優良玉米自交系按NCⅡ(11×13)設計組配成143個單雜交種為材料,利用RAPD分子標記技術研究玉米雜交種優勢群劃分,遺傳距離(GD)與特殊配合力、雜種產量、雜種產量優勢(MH)的關系。結果表明:⑴RAPD技術可用於玉米雜交優勢群劃分。⑵親本遺傳距離與雜種產量優勢、雜種產量、特殊配合力有一定相關關系,但決定系數很小,分別是10%、10%、15%,利用RAPD技術預測雜種優勢、雜種產量作用有限,應進一步研究與雜種優勢有關的數量性狀位點(QTL),從而使育種家預測高產組合成為可能。

玉米兩個RFLP標記的原位單雜交與共雜交定位的比較 / 杭超(武漢大學生命?/div>

㈢ 如下哪個生物信息學方法可以用來尋找新基因

生物信息學方法可以用來尋找新基因.
1,序列比對(Sequence Alignment)
序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性.從生物學的初衷來看,這一問題包含了以下幾個意義:從相互重疊的序列片斷中重構DNA的完整序列.在各種試驗條件下從探測數據(probe data)中決定物理和基因圖存貯,遍歷和比較資料庫中的DNA序列比較兩個或多個序列的相似性在資料庫中搜索相關序列和子序列尋找核苷酸(nucleotides)的連續產生模式找出蛋白質和DNA序列中的信息成分序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用演算法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的BALST和FASTA演算法及相應的改進方法均是從此前提出發的.
2, 蛋白質結構比對和預測
基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找dockingdrugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構在進化中更穩定的保留,同時也包含了較AA序列更多的信息.蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應(不一定全真),物理上可用最小能量來解釋.從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較進化族中不同的蛋白質結構.然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.
3, 基因識別,非編碼區分析研究.
基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼區DNA序列目前沒有一般性的指導方法.在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序列是難以想像的.偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.
4, 分子進化和比較基因組學
分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:Orthologous: 不同種族,相同功能的基因;Paralogous: 相同種族,不同功能的基因;Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統的聚類方法(如UPGMA)來實現.
5, 序列重疊群(Contigs)裝配
根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個NP-完全問題.
6, 遺傳密碼的起源
通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真偽提供了新的素材.
7, 基於結構的葯物設計
人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一領域目的是發現新的基因葯物,有著巨大的經濟效益.
8.生物系統的建模和模擬
隨著大規模實驗技術的發展和數據累積,從全局和系統水平研究和分析生物學系統,揭示其發展規律已經成為後基因組時代的另外一個研究 熱點-系統生物學。目前來看,其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70),系統穩定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系統魯棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)為代表的建模語言在迅速發展之中,以布爾網路 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統等(Bioinformatics,2007,336-43)方法在系統分析中已經得到應 用。很多模型的建立借鑒了電路和其它物理系統建模的方法,很多研究試圖從信息流、熵和能量流等宏觀分析思想來解決系統的復雜性問題(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長時間的努力,現在實驗觀測數據雖然在海量增加,但是生物系統的模型辨 識所需要的數據遠遠超過了目前數據的產出能力。例如,對於時間序列的晶元數據,采樣點的數量還不足以使用傳統的時間序列建模方法,巨大的實驗代價是目前系 統建模主要困難。系統描述和建模方法也需要開創性的發展。
9.生物信息學技術方法的研究
生物信息學不僅僅是生物學知識的簡單整理和、數學、物理學、信息科學等學科知識的簡單應用。海量數據和復雜的背景導致機器學習、統 計數據分析和系統描述等方法需要在生物信息學所面臨的背景之中迅速發展。巨大的計算量、復雜的雜訊模式、海量的時變數據給傳統的統計分析帶來了巨大的困難, 需要像非參數統計(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數據分析技術。高維數據的分析需要偏最小二乘(partial least squares,PLS)等特徵空間的壓縮技術。在計算機演算法的開發中,需要充分考慮演算法的時間和空間復雜度,使用並行計算、網格計算等技術來拓展演算法的 可實現性。
10, 生物圖像
沒有血緣關系的人,為什麼長得那麼像呢?
外貌是像點組成的,像點愈重合兩人長得愈像,那兩個沒有血緣關系的人像點為什麼重合?
有什麼生物學基礎?基因是不是相似?我不知道,希望專家解答。
11, 其他
如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學,成為系統生物學的重要研究方法.從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認識.

㈣ 急求!!NTSYS中Dice演算法和SM演算法有什麼區別

1 數據的錄入方法:
1.1 利用Ntedit直接錄入數據
0、1二元數據中的數據缺失記為2。其中列標可以寫為樣品編號,在No.rows 欄中寫入0、1數據總數,No.cols 欄中寫入樣品總數。文件另存為*.nts格式。1.2 從excel表中直接讀入數據
Excel表中輸入數據格式如下圖。A1必須為1,B1為0、1數據總數,C1為樣品總數。打開Ntedit程序,選擇從Excel表輸入,結果見上圖。文件另存為*.Nts格式
1.3 Ntsys-pc可以直接運行*.phy格式的文件(由phylip和phytool產生)
1.4 DNA序列數據Ntsys-PC也可以分析,但好像用的人較少。建議大家使用phylip或者其他的軟體。DNA序列數據在Excel中輸入格式如下:1.5 其他數據的Excel輸入如下2 聚類分析
Ntsys-pc2.02界面如下以下以圖中數據為例介紹聚類過程:
2.1 首先用similarity程序組中的SimQual計算形似系數矩陣。Coefficient通常選用SM 或DICE,結果輸出到另一文件。2.2 以上步的結果作為input file利用Clustering程序組中的SHAN或者Njoin進行計算,聚類分法選用UPGMA,ties選用FIND,Maximum no. tied trees至少大於樣品數。Njoin程序組界面如下,rooting method可以選用Outgroup,但需輸入外元。2.3 將SHAN或NJoin方法得到的tree file文件輸入到Graphics程序組中的tree plot程序中計算得到樹圖如下利用options可以對樹圖進行描述與處理.在此略去.
2.4 一致性分析:
可以用Clustering中的consens程序進行,兩個不同文件分別輸入;同一文件中不同的進化樹之間的分析,則只輸入到input tree1 file即可。通常多選用MAJRUL方法2.5 其他數據的聚類方法與此類似,在此不再贅述。

㈤ 請教分子標記SSR標記(STMS)原理和步驟

SSR:微衛星DNA又叫簡單重復序列,指的是基因組中由1~6個核苷酸組成的基本單位重復多次構成的一段DNA,廣泛分布於基因組的不同位置,長度一般在200bp以下。研究表明,微衛星在真核生物的基因組中的含量非常豐富,而且常常是隨機分布於核DNA中。

微衛星中重復單位的數目存在高度變異,這些變異表現為微衛星數目的整倍性變異或重復單位序列中的序列有可能不完全相同,因而造成多個位點的多態性。如果能夠將這些變異揭示出來,就能發現不同的SSR在不同的種甚至不同個體間的多態性,基於這一想法,人們發展起了SSR標記。
SSR標記又稱為sequence tagged microsatellite site,簡寫為STMS,是目前最常用的微衛星標記之一。由於基因組中某一特定的微衛星的側翼序列通常都是保守性較強的單一序列,因而可以將微衛星側翼的DNA片段克隆、測序,然後根據微衛星的側翼序列就可以人工合成引物進行PCR擴增,從而將單個微衛星位點擴增出來。由於單個微衛星位點重復單元在數量上的變異,個體的擴增產物在長度上的變化就產生長度的多態性,這一多態性稱為簡單序列重復長度多態性(SSLP),每一擴增位點就代表了這一位點的一對等位基因。由於SSR重復數目變化很大,所以SSR標記能揭示比RFLP高得多的多態性,這就是SSR標記的原理。�
與其它分子標記相比,SSR標記具有以下優點:(1)數量豐富,覆蓋整個基因組,揭示的多態性高;(2)具有多等位基因的特性,提供的信息量高;(3)以孟德爾方式遺傳,呈共顯性;(4)每個位點由設計的引物順序決定,便於不同的實驗室相互交流合作開發引物。因而目前該技術已廣泛用於遺傳圖譜的構建〔11,12,18,19,33〕、目標基因的標定〔8,9,21,22,26〕、指紋圖〔22〕的繪制等研究中。但應看到,SSR標記的建立首先要對微衛星側翼序列進行克隆、測序、人工設計合成引物以及標記的定位、作圖等基礎性研究,因而其開發費用相當高,各個實驗室必須進行合作才能開發更多的標記。由於SSR標記具有較大的應用價值,且種屬特異性較強,目前在一些主要的農作物中SSR標記研究都進行了合作,共同進行STMS引物的開發。
操作步驟
1、在25μl反應體系中,加入
模板DNA 1μl(20ng);
SSR引物 1μl(0.15μM)
10×PCR緩沖液 2.5μl
MgCl2 2μl (25mM)
dNTP 2μl (0.2mM)
Tap 酶 1單位
加ddH2O至 25μl
2、反應在PE 9600熱循環儀上進行。PCR反應先95℃變性4min,接著94℃ 45s、55℃ 30s和72℃ 60s,35個循環,最後在72℃下延伸5min。PCR擴譜產物在測序電泳儀上用5%聚丙烯醯胺凝膠分離。點樣時,樣品量為5μl,電泳緩沖液為1×TBE,電泳工作電流50mA,電壓1500V,時間約2~3h。DNA染色採用銀染法。電泳結束後,凝膠連同膠板一起,經過固定、染色、顯影、固定等步驟染色。電泳和銀染具體操作與AFLP相似。
3、數據分析:
用BIO-RAD公司的Quantity One 軟體統計,再用NTSYS軟體計算出遺傳相似性系數,用UPGMA法進行聚類分析構建聚類圖。

㈥ 簡述除權配對法(UPGMA)的演算法思想。

通過兩兩比對聚類的方法進行,在開始時,每個序列分為一類,分別作為一個樹枝的生長點,然後將最近的兩序列合並,從而定義出一個節點,將這個過程不斷的重復,直到所有的序列都被加入,最後得到一棵進化樹。

如何有效地對病毒宏基因組測序的數據進行分析

得出數據之後。
用dps 或者excel載入宏都可以進行分析
你們統計學的上機操作應該學過,再翻翻
那本教材

㈧ 種系發生學的分析方法

在現代分子進化研究中,根據現有生物基因或物種多樣性來重建生物的進化史是一個非常重要的問題。一個可靠的系統發生的推斷,將揭示出有關生物進化過程的順序,有助於人們了解生物進化的歷史和進化機制。獨立元素法包括最大簡約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距離依靠法包括除權配對法(UPGMAM)和鄰位相連法(Neighbor-joining)。
最大簡約法:最大簡約法(Maximum parsimony)是一種常使用於系統發生學分析的方法,根據離散型性狀包括形態學性狀和分子序列(DNA,蛋白質等)的變異程度,構建生物的系統發育樹,並分析生物物種之間的演化關系。在最大簡約法的概念下,生物演化應該遵循簡約性原則,所需變異次數最少(演化步數最少)的演化樹可能為最符合自然情況的系統樹。在具體的操作中,分為非加權最大簡約分析(或稱為同等加權)和加權最大簡約分析,後者是根據性狀本身的演化規律(比如DNA不同位點進化速率不同)而對其進行不同的加權處理。
自舉檢驗的基本方法是:從原數據集中抽取(同時替換)部分數據組成新的數據集,然後用這個新的數據集構造系統發生樹。重復該過程,產生成百上千的重采樣數據集,並同時生成對應的自舉樹,進而檢驗自舉樹對最終系統發生樹各個分支的支持率。具體做法是,將最終系統發生樹與各個自舉樹進行比較,其中,在各個自舉樹中都有出現或大量出現的那些部分將具有較高的置信度。產生相同分組的自舉樹的數目常常標注在系統發生樹相應節點的旁邊,表示樹中每個部分的相對置信度。盡管有些系統發生樹的構造方法會使自舉過程非常耗時,但自舉法已經成為系統發生分析中很受歡迎的演算法。

㈨ 有了遺傳距離,怎麼進行UPGMA得出進化樹

有了遺傳距離,怎麼進行UPGMA得出進化樹
MEGA是一個關於序列分析以及比較統計的工具包,從3.1版本到後來的4.0版本一直都廣為大家熟悉,現在推出了Mega5.0版本。功能比以前多有改進。現主要介紹使用Mega 5.0構建系統進化樹的方法。供大家參考。
用MEGA構建進化樹有以下步驟:
1、測序:
將克隆擴增測序得到的16S rDNA序列進行測序。
2、NCBI上做Blast
找到相似度最高的幾個序列,確定一下你分離的細菌大約屬於哪個科哪個屬,如果相似度達到百分之百那基本可以確定你分離得到的就是Blast到的那個,然後尋找相似性最高的細菌,通常把該屬的序列(Fasta格式文件)下載下來,或點擊GenBank登錄號,復制FSATA格式,整合在一個*.txt文檔中(單獨建立一個文件夾存放,後面的很多文件會自動裝入該文件夾)

㈩ 什麼是生物信息學

生物信息學
一, 生物信息學發展簡介

生物信息學是建立在分子生物學的基礎上的,因此,要了解生物信息學,就

必須先對分子生物學的發展有一個簡單的了解.研究生物細胞的生物大分子的結

構與功能很早就已經開始,1866年孟德爾從實驗上提出了假設:基因是以生物

成分存在[1],1871年Miescher從死的白細胞核中分離出脫氧核糖核酸(DNA),

在Avery和McCarty於1944年證明了DNA是生命器官的遺傳物質以前,人們

仍然認為染色體蛋白質攜帶基因,而DNA是一個次要的角色.

1944年Chargaff發現了著名的Chargaff規律,即DNA中鳥嘌呤的量與胞嘧

定的量總是相等,腺嘌呤與胸腺嘧啶的量相等.與此同時,Wilkins與Franklin

用X射線衍射技術測定了DNA纖維的結構.1953年James Watson 和Francis

Crick在Nature雜志上推測出DNA的三維結構(雙螺旋).DNA以磷酸糖鏈形

成發雙股螺旋,脫氧核糖上的鹼基按Chargaff規律構成雙股磷酸糖鏈之間的鹼基

對.這個模型表明DNA具有自身互補的結構,根據鹼基對原則,DNA中貯存的

遺傳信息可以精確地進行復制.他們的理論奠定了分子生物學的基礎.

DNA雙螺旋模型已經預示出了DNA復制的規則,Kornberg於1956年從大

腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接

成DNA.DNA的復制需要一個DNA作為模板.Meselson與Stahl(1958)用實驗

方法證明了DNA復制是一種半保留復制.Crick於1954年提出了遺傳信息傳遞

的規律,DNA是合成RNA的模板,RNA又是合成蛋白質的模板,稱之為中心

法則(Central dogma),這一中心法則對以後分子生物學和生物信息學的發展都起

到了極其重要的指導作用.

經過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼

得到了破譯.限制性內切酶的發現和重組DNA的克隆(clone)奠定了基因工程

的技術基礎.

正是由於分子生物學的研究對生命科學的發展有巨大的推動作用,生物信息

學的出現也就成了一種必然.

2001年2月,人類基因組工程測序的完成,使生物信息學走向了一個高潮.

由於DNA自動測序技術的快速發展,DNA資料庫中的核酸序列公共數據量以每

天106bp速度增長,生物信息迅速地膨脹成數據的海洋.毫無疑問,我們正從一

個積累數據向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發

現的可能,"生物信息學"正是從這一前提產生的交叉學科.粗略地說,該領域

的核心內容是研究如何通過對DNA序列的統計計算分析,更加深入地理解DNA

序列,結構,演化及其與生物功能之間的關系,其研究課題涉及到分子生物學,

分子演化及結構生物學,統計學及計算機科學等許多領域.

生物信息學是內涵非常豐富的學科,其核心是基因組信息學,包括基因組信

息的獲取,處理,存儲,分配和解釋.基因組信息學的關鍵是"讀懂"基因組的核

苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時在

發現了新基因信息之後進行蛋白質空間結構模擬和預測,然後依據特定蛋白質的

功能進行葯物設計[2].了解基因表達的調控機理也是生物信息學的重要內容,根

據生物分子在基因調控中的作用,描述人類疾病的診斷,治療內在規律.它的研

究目標是揭示"基因組信息結構的復雜性及遺傳語言的根本規律",解釋生命的遺

傳語言.生物信息學已成為整個生命科學發展的重要組成部分,成為生命科學研

究的前沿.

二, 生物信息學的主要研究方向

生物信息學在短短十幾年間,已經形成了多個研究方向,以下簡要介紹一些

主要的研究重點.

1,序列比對(Sequence Alignment)

序列比對的基本問題是比較兩個或兩個以上符號序列的相似性或不相似

性.從生物學的初衷來看,這一問題包含了以下幾個意義[3]:

從相互重疊的序列片斷中重構DNA的完整序列.

在各種試驗條件下從探測數據(probe data)中決定物理和基因圖

存貯,遍歷和比較資料庫中的DNA序列

比較兩個或多個序列的相似性

在資料庫中搜索相關序列和子序列

尋找核苷酸(nucleotides)的連續產生模式

找出蛋白質和DNA序列中的信息成分

序列比對考慮了DNA序列的生物學特性,如序列局部發生的插入,刪除(前

兩種簡稱為indel)和替代,序列的目標函數獲得序列之間突變集最小距離加權

和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等.兩個

序列比對常採用動態規劃演算法,這種演算法在序列長度較小時適用,然而對於海

量基因序列(如人的DNA序列高達109bp),這一方法就不太適用,甚至採用算

法復雜性為線性的也難以奏效.因此,啟發式方法的引入勢在必然,著名的

BALST和FASTA演算法及相應的改進方法均是從此前提出發的.

2, 蛋白質結構比對和預測

基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性.

蛋白質的結構與功能是密切相關的,一般認為,具有相似功能的蛋白質結構一般

相似.蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),

蛋白質具有多種功能,如酶,物質的存貯和運輸,信號傳遞,抗體等等.氨基酸

的序列內在的決定了蛋白質的3維結構.一般認為,蛋白質有四級不同的結構.

研究蛋白質結構和預測的理由是:醫葯上可以理解生物的功能,尋找docking

drugs的目標,農業上獲得更好的農作物的基因工程,工業上有利用酶的合成.

直接對蛋白質結構進行比對的原因是由於蛋白質的3維結構比其一級結構

在進化中更穩定的保留,同時也包含了較AA序列更多的信息.

蛋白質3維結構研究的前提假設是內在的氨基酸序列與3維結構一一對應

(不一定全真),物理上可用最小能量來解釋.

從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構.同

源建模(homology modeling)和指認(Threading)方法屬於這一范疇.同源建模用

於尋找具有高度相似性的蛋白質結構(超過30%氨基酸相同),後者則用於比較

進化族中不同的蛋白質結構.

然而,蛋白結構預測研究現狀還遠遠不能滿足實際需要.

3, 基因識別,非編碼區分析研究.

基因識別的基本問題是給定基因組序列後,正確識別基因的范圍和在基因組

序列中的精確位置.非編碼區由內含子組成(introns),一般在形成蛋白質後被丟

棄,但從實驗中,如果去除非編碼區,又不能完成基因的復制.顯然,DNA序

列作為一種遺傳語言,既包含在編碼區,又隱含在非編碼序列中.分析非編碼

區DNA序列目前沒有一般性的指導方法.

在人類基因組中,並非所有的序列均被編碼,即是某種蛋白質的模板,已

完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序

列是難以想像的.

偵測密碼區的方法包括測量密碼區密碼子(codon)的頻率,一階和二階馬爾

可夫鏈,ORF(Open Reading Frames),啟動子(promoter)識別,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等.

4, 分子進化和比較基因組學

分子進化是利用不同物種中同一基因序列的異同來研究生物的進化,構建進

化樹.既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至於可通過相

關蛋白質的結構比對來研究分子進化,其前提假定是相似種族在基因上具有相似

性.通過比較可以在基因組層面上發現哪些是不同種族中共同的,哪些是不同的.

早期研究方法常採用外在的因素,如大小,膚色,肢體的數量等等作為進化

的依據.近年來較多模式生物基因組測序任務的完成,人們可從整個基因組的角

度來研究分子進化.在匹配不同種族的基因時,一般須處理三種情況:

Orthologous: 不同種族,相同功能的基因

Paralogous: 相同種族,不同功能的基因

Xenologs: 有機體間採用其他方式傳遞的基因,如被病毒注入的基因.

這一領域常採用的方法是構造進化樹,通過基於特徵(即DNA序列或蛋白

質中的氨基酸的鹼基的特定位置)和基於距離(對齊的分數)的方法和一些傳統

的聚類方法(如UPGMA)來實現.

5, 序列重疊群(Contigs)裝配

根據現行的測序技術,每次反應只能測出500 或更多一些鹼基對的序列,

如人類基因的測量就採用了短槍(shortgun)方法,這就要求把大量的較短的序列

全體構成了重疊群(Contigs).逐步把它們拼接起來形成序列更長的重疊群,直

至得到完整序列的過程稱為重疊群裝配.從演算法層次來看,序列的重疊群是一個

NP-完全問題.

6, 遺傳密碼的起源

通常對遺傳密碼的研究認為,密碼子與氨基酸之間的關系是生物進化歷史上

一次偶然的事件而造成的,並被固定在現代生物的共同祖先里,一直延續至今.

不同於這種"凍結"理論,有人曾分別提出過選擇優化,化學和歷史等三種學說

來解釋遺傳密碼.隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源

和檢驗上述理論的真偽提供了新的素材.

7, 基於結構的葯物設計

人類基因工程的目的之一是要了解人體內約10萬種蛋白質的結構,功能,

相互作用以及與各種人類疾病之間的關系,尋求各種治療和預防方法,包括葯物

治療.基於生物大分子結構及小分子結構的葯物設計是生物信息學中的極為重要

的研究領域.為了抑制某些酶或蛋白質的活性,在已知其蛋白質3級結構的基礎

上,可以利用分子對齊演算法,在計算機上設計抑制劑分子,作為候選葯物.這一

領域目的是發現新的基因葯物,有著巨大的經濟效益.

8, 其他

如基因表達譜分析,代謝網路分析;基因晶元設計和蛋白質組學數據分析等,

逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的

學科包括結構基因組學,功能基因組學,比較基因組學,蛋白質學,葯物基因組

學,中葯基因組學,腫瘤基因組學,分子流行病學和環境基因組學.

從現在的發展不難看出,基因工程已經進入了後基因組時代.我們也有應對

與生物信息學密切相關的如機器學習,和數學中可能存在的誤導有一個清楚的認

識.

三, 生物信息學與機器學習

生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.

常規的計算機演算法仍可以應用於生物數據分析中,但越來越不適用於序列分析問

題.究竟原因,是由於生物系統本質上的模型復雜性及缺乏在分子層上建立的完

備的生命組織理論.

西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作

時更有效[4].機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采

用如推理,模型擬合及從樣本中學習,尤其適用於缺乏一般性的理論,"雜訊"

模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.

機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能

[5].

機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,

而目前大量的基因資料庫處理需要計算機能自動識別,標注,以避免即耗時又花

費巨大的人工處理方法.早期的科學方法—觀測和假設----面對高數據的體積,

快速的數據獲取率和客觀分析的要求---已經不能僅依賴於人的感知來處理了.因

而,生物信息學與機器學習相結合也就成了必然.

機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是

統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推

理密切相關.學習方法包括數據聚類,神經網路分類器和非線性回歸等等.隱馬

爾可夫模型也廣泛用於預測DNA的基因結構.目前研究重心包括:1)觀測和

探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般

的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析

(KPCA),獨立成分分析(Independent component analysis),局部線性嵌套(Locally

Linear embedding).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可

看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用於

microarray數據分析中,癌症類型分類及其他方向中.機器學習也用於從基因數

據庫中獲得相應的現象解釋.

機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多

假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息

學中尤其如此,因此,有必要建立一套不依賴於假定數據結構的一般性方法來尋

找數據集的內在結構.其次,機器學習方法中常採用"黑箱"操作,如神經網路

和隱馬爾可夫模型,對於獲得特定解的內在機理仍不清楚.

四, 生物信息學的數學問題

生物信息學中數學佔了很大的比重.統計學,包括多元統計學,是生物信息

學的數學基礎之一;概率論與隨機過程理論,如近年來興起的隱馬爾科夫鏈模型

(HMM),在生物信息學中有重要應用;其他如用於序列比對的運籌學;蛋白質

空間結構預測和分子對接研究中採用的最優化理論;研究DNA超螺旋結構的拓

撲學;研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數學理

論或多或少在生物學研究中起到了相應的作用.

但並非所有的數學方法在引入生物信息學中都能普遍成立的,以下以統計學

和度量空間為例來說明.

1, 統計學的悖論

數學的發展是伴隨悖論而發展的.對於進化樹研究和聚類研究中最顯著的悖

論莫過於均值了,如圖1:

圖1 兩組同心圓的數據集

圖1是兩組同心圓構成的數據集,顯然,兩組數據集的均值均在圓點,這也

就說明了要採用常規的均值方法不能將這兩類分開,也表明均值並不能帶來更多

的數據的幾何性質.那麼,如果數據呈現類似的特有分布時,常有的進化樹演算法

和聚類演算法(如K-均值)往往會得錯誤的結論.統計上存在的陷阱往往是由於

對數據的結構缺乏一般性認識而產生的.

2, 度量空間的假設

在生物信息學中,進化樹的確立,基因的聚類等都需要引入度量的概念.舉

例來說,距離上相近或具有相似性的基因等具有相同的功能,在進化樹中滿足分

值最小的具有相同的父系,這一度量空間的前提假設是度量在全局意義下成立.

那麼,是否這種前提假設具有普適性呢

我們不妨給出一般的描述:假定兩個向量為A,B,其中,

,則在假定且滿足維數間線性無關的前提下,兩個

向量的度量可定義為:

(1)

依據上式可以得到滿足正交不變運動群的歐氏度量空間,這也是大多數生物信息

學中常採用的一般性描述,即假定了變數間線性無關.

然而,這種假設一般不能正確描述度量的性質,尤其在高維數據集時,不考

慮數據變數間的非線性相關性顯然存在問題,由此,我們可以認為,一個正確的

度量公式可由下式給出:

(2)

上式中採用了愛因斯坦和式約定,描述了變數間的度量關系.後者在滿足

(3)

時等價於(1),因而是更一般的描述,然而問題在於如何准確描述變數間的非線

性相關性,我們正在研究這個問題.

五, 幾種統計學習理論在生物信息學中應用的困難

生物信息學中面對的數據量和資料庫都是規模很大的,而相對的目標函數卻

一般難以給出明確的定義.生物信息學面臨的這種困難,可以描述成問題規模的

巨大以及問題定義的病態性之間的矛盾,一般從數學上來看,引入某個正則項來

改善性能是必然的[7].以下對基於這一思想產生的統計學習理論[8],Kolmogorov

復雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介

紹.

支持向量機(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統計

學習理論,是通過最大化兩個數據集的最大間隔來實現分類,對於非線性問題則

採用核函數將數據集映射至高維空間而又無需顯式描述數據集在高維空間的性

質,這一方法較之神經方法的好處在於將神經網路隱層的參數選擇簡化為對核函

數的選擇,因此,受到廣泛的注意.在生物信息學中也開始受到重視,然而,核

函數的選擇問題本身是一個相當困難的問題,從這個層次來看,最優核函數的選

擇可能只是一種理想,SVM也有可能象神經網路一樣只是機器學習研究進程中

又一個大氣泡.

Kolmogorov復雜性思想與統計學習理論思想分別從不同的角度描述了學習

的性質,前者從編碼的角度,後者基於有限樣本來獲得一致收斂性.Kolmogorov

復雜性是不可計算的,因此由此衍生了MDL原則(最小描述長度),其最初只

適用於離散數據,最近已經推廣至連續數據集中,試圖從編碼角度獲得對模型參

數的最小描述.其缺陷在於建模的復雜性過高,導致在大數據集中難以運用.

BIC准則從模型復雜性角度來考慮,BIC准則對模型復雜度較高的給予大的

懲罰,反之,懲罰則小,隱式地體現了奧卡姆剃刀("Occam Razor")原理,近

年也廣泛應用於生物信息學中.BIC准則的主要局限是對參數模型的假定和先驗

的選擇的敏感性,在數據量較大時處理較慢.因此,在這一方面仍然有許多探索

的空間.

六, 討論與總結

人類對基因的認識,從以往的對單個基因的了解,上升到在整個基因組水平

上考察基因的組織結構和信息結構,考察基因之間在位置,結構和功能上的相互

關系.這就要求生物信息學在一些基本的思路上要做本質的觀念轉變,本節就這

些問題做出探討和思索.

啟發式方法:

Simond在人類的認知一書中指出,人在解決問題時,一般並不去尋找最優

的方法,而只要求找到一個滿意的方法.因為即使是解決最簡單的問題,要想得

到次數最少,效能最高的解決方法也是非常困難的.最優方法和滿意方法之間的

困難程度相差很大,後者不依賴於問題的空間,不需要進行全部搜索,而只要能

達到解決的程度就可以了.正如前所述,面對大規模的序列和蛋白質結構數據集,

要獲得全局結果,往往是即使演算法復雜度為線性時也不能夠得到好的結果,因此,

要通過變換解空間或不依賴於問題的解空間獲得滿意解,生物信息學仍需要人工

智能和認知科學對人腦的進一步認識,並從中得到更好的啟發式方法.

問題規模不同的處理:

Marvin Minsky在人工智慧研究中曾指出:小規模數據量的處理向大規模數

據量推廣時,往往並非演算法上的改進能做到的,更多的是要做本質性的變化.這

好比一個人爬樹,每天都可以爬高一些,但要想爬到月球,就必須採用其他方法

一樣.在分子生物學中,傳統的實驗方法已不適應處理飛速增長的海量數據.同

樣,在採用計算機處理上,也並非依靠原有的計算機演算法就能夠解決現有的數據

挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規模數據中可以採用

動態規劃,而在大規模序列對齊時不得不引入啟發式方法,如BALST,FASTA.

樂觀中的隱擾

生物信息學是一門新興學科,起步於20世紀90年代,至今已進入"後基因

組時代",目前在這一領域的研究人員均呈普遍樂觀態度,那麼,是否存在潛在

的隱擾呢

不妨回顧一下早期人工智慧的發展史[11],在1960年左右,西蒙曾相信不出

十年,人類即可象完成登月一樣完成對人的模擬,造出一個與人智能行為完全相

同的機器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智慧研究得到的成

果已經滲入到各個領域,但對人的思維行為的了解遠未完全明了.從本質來看,

這是由於最初人工智慧研究上定位錯誤以及沒有從認識論角度看清人工智慧的

本質造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規則並不

能完整描述人的行為,期望物理科學的成功同樣在人工智慧研究中適用並不現

實.

反觀生物信息學,其目的是期望從基因序列上解開一切生物的基本奧秘,從

結構上獲得生命的生理機制,這從哲學上來看是期望從分子層次上解釋人類的所

有行為和功能和致病原因.這類似於人工智慧早期發展中表現的樂觀行為,也來

自於早期分子生物學,生物物理和生物化學的成就.然而,從本質上來講,與人

工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個蛋白質的

功能,而很少強調基因序列或蛋白質組作為一個整體在生命體中的調控作用.我

們因此也不得不思考,這種研究的最終結果是否能夠支撐我們對生物信息學的樂

觀呢 現在說肯定的話也許為時尚早.

綜上所述,不難看出,生物信息學並不是一個足以樂觀的領域,究竟原因,

是由於其是基於分子生物學與多種學科交叉而成的新學科,現有的形勢仍表現為

各種學科的簡單堆砌,相互之間的聯系並不是特別的緊密.在處理大規模數據方

面,沒有行之有效的一般性方法;而對於大規模數據內在的生成機制也沒有完全

明了,這使得生物信息學的研究短期內很難有突破性的結果.那麼,要得到真正

的解決,最終不能從計算機科學得到,真正地解決可能還是得從生物學自身,從

數學上的新思路來獲得本質性的動力.

毫無疑問,正如Dulbecco1986年所說:"人類的DNA序列是人類的真諦,

這個世界上發生的一切事情,都與這一序列息息相關".但要完全破譯這一序列

以及相關的內容,我們還有相當長的路要走.

(來源 ------[InfoBio.org | 生物信息學研討組])http://www.infobio.org
生物信息學(Bioinformatics)是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。

生物信息學是一門利用計算機技術研究生物系統之規律的學科。

目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。

1990年代以來,伴隨著各種基因組測序計劃的展開和分子結構測定技術的突破和Internet的普及,數以百計的生物學資料庫如雨後春筍般迅速出現和成長。對生物信息學工作者提出了嚴峻的挑戰:數以億計的ACGT序列中包涵著什麼信息?基因組中的這些信息怎樣控制有機體的發育?基因組本身又是怎樣進化的?

生物信息學的另一個挑戰是從蛋白質的氨基酸序列預測蛋白質結構。這個難題已困擾理論生物學家達半個多世紀,如今找到問題答案要求正變得日益迫切。諾貝爾獎獲得者W. Gilbert在1991年曾經指出:「傳統生物學解決問題的方式是實驗的。現在,基於全部基因都將知曉,並以電子可操作的方式駐留在資料庫中,新的生物學研究模式的出發點應是理論的。一個科學家將從理論推測出發,然後再回到實驗中去,追蹤或驗證這些理論假設」。

生物信息學的主要研究方向: 基因組學 - 蛋白質組學 - 系統生物學 - 比較基因組學

閱讀全文

與UPGMA聚類分析方法操作步驟相關的資料

熱點內容
馬原中歸納的方法有什麼局限性 瀏覽:510
燈具遙控安裝方法 瀏覽:987
在家地震預警有哪些方法論 瀏覽:400
氣缸圓柱度的檢測方法 瀏覽:216
東風制動燈故障原因和解決方法 瀏覽:310
簡諧運動研究方法 瀏覽:125
幼兒異物吸入的搶救方法有哪些 瀏覽:212
開衫毛衣尺寸的經典計算方法 瀏覽:356
廣電有線連接方法 瀏覽:828
局解血管的檢查常用方法 瀏覽:989
瑜伽的技巧和方法 瀏覽:835
寫出五種植物的傳播方法 瀏覽:100
治療脾氣差的最佳方法 瀏覽:816
花卉滿天星的種植方法 瀏覽:968
風控未通檢測方法 瀏覽:768
根管治療術的步驟和方法 瀏覽:182
去腳臭的簡單的方法 瀏覽:935
二年級語文教學方法和教學手段 瀏覽:71
學前教育研究方法課題 瀏覽:869
瑜伽胳膊鍛煉方法 瀏覽:124