1. 基因表達數據的聚類分析方法
基因表達( gene expression)** 是指將來自基因的遺傳信息合成功能性基因產物的過程。
基因表達產物通常是蛋白質,但是非蛋白質編碼基因如轉移RNA(tRNA)或小核RNA(snRNA)基因的表達產物是功能性RNA。
所有已知的生命,無論是真核生物(包括多細胞生物)、原核生物(細菌和古細菌)或病毒,都利用基因表達來合成生命的大分子。
基因編碼並可用於合成蛋白質,這個過程稱為基因表達。
在像人類這樣的高等生物中,根據細胞類型(神經細胞或心臟細胞)、環境和疾病狀況等各種因素,數以千計的基因以不同的量一起表達。
例如,不同類型的癌症在人類中引起不同的基因表達模式。可以使用微陣列( Microarray )技術研究不同條件下的這些不同基因的表達模式。
來自微陣列的數據可以想像為矩陣或網格,矩陣中的每個單元格對應於特定條件下的基因表達值。
如下圖所示,矩陣的每一行對應一個基因 g i ,每一列對應一個條件/樣本 s i
分析基因表達數據的第一步是 在經典數據挖掘中對基因或樣本進行聚類 。
可以根據基因在所有條件下的表達模式對基因進行聚類,並且可以使用所有基因的基因表達模式對樣本進行聚類。
關於聚類問題
對於基因聚類 ,數據點是基因,特徵是所有樣本的表達值。
因此,在針對癌症示例的基因聚類中,將聚類 20,000 個數據點( data-points ),每個點具有 20 個維度。
聚類基因表達數據提供了對基因共調控(co-regulation)和基因細胞功能的重要見解。
聚集在一起的基因在所有樣本中具有相似的表達模式,這可能表明這些基因的共同調控。
此外,來自同一簇的基因可能執行類似的細胞功能,這有助於注釋新發現的基因。
相反,對於樣本聚類 ,樣本是使用跨所有基因的基因表達量作為特徵進行聚類的數據點。由此將聚類 20 個數據點,每個點具有 20,000 個維度。
下面,我們將討論執行聚類的不同方法
鄰近計算( Proximity calculation)**
用於聚類的數據點之間的距離或接近度很重要,因為所有聚類演算法的工作原理都是將近點聚集在一個聚類中。
使用 Pearson 相關系數中的特徵計算數據點 O i 和 O j 之間距離的有效措施之一:
Pearson( , ) =
k均值聚類演算法( k-means clustering algorithm)**
是一種迭代求解的聚類分析演算法。屬於無監督學習演算法。
步驟:
預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。
聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。 這個過程將不斷重復直到滿足某個終止條件 。
以下是一個二維數據。通過查看散點圖,數據似乎包含 3 個不同的聚類。
因此,我們將任意發起 3 個聚類質心( cluster centroids )或聚類中心( cluster centers )。由於我們還沒有任何聚類,這些質心( centroids )是空間中的任意點。
然後,我們計算所有點與 3 個質心的距離,並將這些點分配到它們最近的聚類。然後,我們使用聚類中分配的點重新計算質心。
聚類中心只是聚類中所有點的平均值。
重新計算點與 3 個新分配的質心的距離,並將這些點重新分配到它們最近的聚類。
在點被重新分配到它們最近的聚類後,重新計算聚類中心。
重復上述步驟直到中心點收斂( convergence ),基本上不在發生變化或滿足精度為止。
層次聚類( Hierarchical Clustering)**
是一種漸進式聚類技術,它從小簇開始,逐漸將密切相關的小簇合並成更大的簇, 直到只剩下一個大簇為止 。
相對於 K-means 的最大優勢之一是層次聚類不必預先定義聚類的數量。相反,可以在聚類過程完成後推斷最佳聚類數。
使用以下包含 25 個數據點的二維數據仔細研究層次聚類演算法
迭代 1
再次計算所有的質心距離,並檢測最近的兩個簇並將其連接到一個新簇中。重新計算新簇的質心。
迭代 2
重復3個步驟,計算所有的質心距離,合並2個最近的簇,重新計算新形成的簇的質心,直到只得到一個包含所有25個數據點的大簇(收斂)。
動圖展示
[圖片上傳失敗...(image-79b9d0-1638339563655)]
整個層次聚類過程可以使用如下所示的樹狀圖進行可視化,其中分叉樹的葉節點是數據點,內部節點顯示執行的每個合並步驟。
左側的高度比例顯示了聚類合並的 距離
最低的內部節點距離很小 ,表明最近的簇或點首先被合並。
最高的內部節點距離很遠 ,表示相距很遠的點或簇以最高距離連接到一個簇中。
實際的聚類解決方案是通過在指定距離截止點處跨聚類樹狀圖繪制一條水平線來獲得的。
簇數等於水平切割線遇到的交點數。
例如,在距離截止值( distance cutoff )=60 處繪制的紅色水平線為 25 個數據點定義了 3 個clusters。
一個例子顯示了通過基因表達數據的層次聚類識別的不同類型的彌漫型B大細胞淋巴瘤( diffuse large B-cell lymphoma )。
根據確定的不同類型,我們對癌症預期如何發展的估計會有所不同,並且還可能導致處方治療的差異。
2. 全基因組測序數據獲取後應該怎麼分析
宏基因組是指特定環境中全部生物(微生物)遺傳物質的總和。宏基因組測序是利用高通量測序技術對環境樣品中全部微生物的基因組進行測定,以獲得單個樣品的飽和數據量,可進行微生物群體的基因組成及功能注釋,微生物群體的物種分類,多樣性分析,群落結構分析,樣品間的物種或基因差異以及物種間的代謝網路研究,探索微生物與環境及宿主之間的關系,發掘和研究新的具有特定功能的基因等。與傳統方法相比,基於高通量測序的宏基因組研究無需構建克隆文庫,這避免了文庫構建過程中利用宿主菌對樣品進行克隆而引起的系統偏差,簡化了實驗操作,提高了測序效率。此外,宏基因組測序研究擺脫了微生物分離純培養的限制,擴展了微生物資源的利用空間,為環境微生物群落的研究提供了有效工具。通過宏基因組深度測序可以揭示或估計環境中真實的物種多樣性和遺傳多樣性,挖掘具有應用價值的基因資源,應用於開發新的微生物活性物質,為研究和開發新的微生物活性物質提供有力支持。技術流程生物信息分析1.原始數據整理、過濾及質量評估2.基於物種豐度分析:?物種豐度列表?稀釋曲線3.基於物種豐度分析:?豐度分布曲線圖?生物多樣性指數(α多樣性)列表?物種豐度差異性分析列表?多樣品物種分布柱圖?豐度差異物種聚類分析?PCA圖?Krona圖4.基因豐度列表:?提取基因分級注釋豐度列表(KO、NOG、subsystem)?功能基因列表?生成venn圖?基因豐度差異性分析列表?豐度差異基因聚類分析?富集分析(KO)樣品要求1、樣品採集:樣品採集條件的一致是最為重要的環節,嚴格按照采樣標准采樣,采樣後立即封存樣品冷凍保存。2、樣品DNA:環境因素異常復雜,許多物質或抑制因子影響後續PCR、測序文庫構建和序列測定,常規提取方法不一定適合,建議採用專用試劑盒提取。DNA濃度≥20ng/μl,總量≥6μg(熒光定量),並確保電泳檢測無明顯RNA條帶,基因組條帶清晰、完整;基因組DNA完全無降解;提供DNA電泳檢測照片,用自封袋密封後隨樣品一起送樣;組織樣品﹥1.5g。3、樣品保存期間切忌反復凍融。4、送樣管務必標清樣品編號,管口使用Parafilm膜密封。
3. 基因表達系列分析的SAGE的優點和應用
SAGE是一項快捷、有效的基因表達研究技術,任何具備PCR和手動測序器具的實驗室都能使用這項技術,結合自動測序技術能夠在3個小時內完成1000個轉錄物的分析。另外使用不同的錨定酶(識別5~20鹼基的Ⅱ類核酸內切酶),使這項技術更具靈活性。
首先SAGE可應用於人類基因組研究。1995年 Velculescu 等選擇Bsm F I和Nia Ⅲ分別作為標簽酶和錨定酶,使用計算機對9鹼基標簽數據進行分析並對GenBank檢索。在分析的1000個標簽中,95%以上的標簽能夠代表唯一的轉錄物。轉錄水平依標簽出現頻率分為4類:① 超過三次 共380個,佔45.2%;② 出現三次 共45個,佔5.4%;③ 出現兩次 共351個,佔7.6%;④ 僅出現過一次 共840個,佔41.8%。所以SAGE能夠快速、全范圍提取生物體基因表達信息,對已知基因進行量化分析。SAGE也能應用於尋找新基因。雖然SAGE的標簽僅包括9個鹼基,但加上錨定酶的位點序列(4個鹼基)共可確認13鹼基序列。如果一個標簽檢索已知序列時沒有同源序列,13鹼基片段就可作為探針篩選cDNA文庫得到cDNA克隆。
其次,SAGE可用於定量比較不同狀態下的組織細胞的特異基因表達。Stephen L等(1997)利用SAGE技術比較小鼠胚囊纖維細胞基因表達。小鼠胚囊纖維細胞能產生對溫度敏感的P53腫瘤抑制蛋白,就可通過SAGE分析,比較兩種不同溫度下基因表達的差異。從約15 000個分析的基因中,發現有14個基因的表達依賴於P53蛋白,有3個基因的表達與P53蛋白的失活顯著相關。Zhang等(1997)比較正常細胞和腫瘤細胞基因表達的300000個轉錄物發現:在分析的4500種轉錄物中,至少有500種在兩種細胞組織中的表達有顯著差異。
第三,由於SAGE能夠同時最大限度的收集一種基因組的基因表達信息,轉錄物的分析數據可用來構建染色體表達圖譜(Chromosomal expression map)。Victor等分析了酵母基因組的基因表達,從60633個轉錄物中發現了4655個基因(表達水平分布在0.3~2.0/細胞),其中1981個基因已被確認了功能,2684個還未被報道過。利用基因的表達信息與基因組圖譜融合繪制的染色體表達圖譜,使基因表達與物理結構連系起來,更利於基因表達模式的研究。(Velculescu,1997) SAGE是基因表達定性和定量研究的一種有效工具,非常適合於比較不同發育狀態或疾病狀態的生物基因表達。
另外SAGE能夠接近完整地獲得基因組表達信息,能夠直接讀出任何一種類型細胞或組織的基因表達信息。SAGE技術的應用將大大加快基因組研究的進展,但必須和其它技術相互融合、互為補充,才能最大可能地進行基因組基因表達的全面研究。
4. 如何輕松搞定基因晶元數據分析
當人類基因體定序計劃的重要里程碑完成之後,生命科學正式邁入了一個後基因體時代,基因晶元 (microarray) 的出現讓研究人員得以宏觀的視野來探討分子機轉。不過分析是相當復雜的學問,正因為基因晶元成千上萬的信息使得分析數據量龐大,更需要應用到生物統計與生物信息相關軟體的協助。要取得一完整的數據結果,除了前端的實驗設計與操作的無暇外,如何以精確的分析取得可信數據,運籌帷幄於方寸之間,更是畫龍點睛的關鍵。
�0�2
基因晶元的應用
基因晶元可以同時針對生物體內數以千計的基因進行表現量分析,對於科學研究者而言,不論是細胞的生命周期、生化調控路徑、蛋白質交互作用關系等等研究,或是葯物研發中對於葯物作用目標基因的篩選,到臨床的疾病診斷預測,都為基因晶元可以發揮功用的范疇。
�0�2
基因表現圖譜抓取了時間點當下所有的動態基因表現情形,將所有的探針所代表的基因與熒光強度轉換成基本數據 (raw data) 後,仿如尚未解密前的達文西密碼,隱藏的奧秘由絲絲的線索串聯綿延,有待專家抽絲剝繭,如剝洋蔥般從外而內層層解析出數千數萬數據下的隱晦含義。
�0�2
要獲得有意義的分析結果,恐怕不能如潑墨畫般灑脫隨興所致。從 raw data 取得後,需要一連貫的分析流程 (圖一),經過許多統計方法,才能條清理明的將 raw data 整理出一初步的分析數據,當處理到取得實驗組除以對照組的對數值後 (log2 ratio),大約完成初步的統計工作,可進展到下一步的進階分析階段。
5. 基因組學技術分別應用哪些分析手段
基因組學(英文genomics),研究生物基因組和如何利用基因的一門學問。用於概括涉及基因作圖、測序和整個基因組功能分析的遺傳學分支。該學科提供基因組信息以及相關數據系統利用,試圖解決生物,醫學,和工業領域的重大問題 基因組研究應該包括兩方面的內容:以全基因組測序為目標的結構基因組學(structural genomics)和以基因功能鑒定為目標的功能基因組學(functional genomics),又被稱為後基因組(postgenome)研究,成為系統生物學的重要方法。 基因組學能為一些疾病提供新的診斷,治療方法。例如,對剛診斷為乳腺癌的女性,一個名為「Oncotype DX」的基因組測試,能用來評估病人乳腺癌復發的個體危險率以及化療效果,這有助於醫生獲得更多的治療信息並進行個性化醫療。基因組學還被用於食品與農業部門。 基因組學的主要工具和方法包括: 生物信息學,遺傳分析,基因表達測量和基因功能鑒定。 基因組學出現於1980年代,1990年代隨著幾個物種基因組計劃的啟動,基因組學取得長足發展。 相關領域是遺傳學,其研究基因以及在遺傳中的功能。 1980年,噬菌體Φ-X174;(5,368 鹼基對)完全測序,成為第一個測定的基因組。
6. 基因組學技術分別應用哪些分析手段
基因組學(英文genomics),研究生物基因組和如何利用基因的一門學問。用於概括涉及基因作圖、測序和整個基因組功能分析的遺傳學分支。該學科提供基因組信息以及相關數據系統利用,試圖解決生物,醫學,和工業領域的重大問題
基因組研究應該包括兩方面的內容:以全基因組測序為目標的結構基因組學(structural
genomics)和以基因功能鑒定為目標的功能基因組學(functional
genomics),又被稱為後基因組(postgenome)研究,成為系統生物學的重要方法。
基因組學能為一些疾病提供新的診斷,治療方法。例如,對剛診斷為乳腺癌的女性,一個名為「Oncotype
DX」的基因組測試,能用來評估病人乳腺癌復發的個體危險率以及化療效果,這有助於醫生獲得更多的治療信息並進行個性化醫療。基因組學還被用於食品與農業部門。
基因組學的主要工具和方法包括:
生物信息學,遺傳分析,基因表達測量和基因功能鑒定。
基因組學出現於1980年代,1990年代隨著幾個物種基因組計劃的啟動,基因組學取得長足發展。
相關領域是遺傳學,其研究基因以及在遺傳中的功能。
1980年,噬菌體Φ-X174;(5,368
鹼基對)完全測序,成為第一個測定的基因組。
7. 怎樣分析一個新的基因
分析新的基因方法:
工具/原料
基因表達數據的csv文件
數據的分組信息的csv文件
Excel
准備數據文件
1
首先我們需要一個表達譜數據的csv文件表。這些基因表達數據一般是在實驗結束之後就會產生,是我們分析的源文件。
表達譜的格式為:
文件的A1單元格留白;
文件的第一行,寫的是樣本的唯一識別號,這個識別號可以自行指定,但請確保每個樣本為一列且識別號都不同。
文件的第一列(A列),寫的是基因簡稱,每個基因在HGNC網站的列表中都有且唯一。
數據格式如圖所示:
2
其次我們需要一個記錄著表達譜數據的來源和分組的csv文件表。
這一個csv文件記錄著每一個樣本的分組和其他信息。
分組信息表的格式為:
文件的A1單元格留白;
文件的第一列(A列),寫的是樣本的唯一識別號,這個識別號與表達譜數據表中的樣本識別號一一對應。
文件的第一行則記錄著對應的分組信息,並且分組信息一般命名為groups。
數據格式如圖所示:
進行分析
1
登錄基因雲館,右上角點登錄系統。輸入賬號密碼進行登錄。沒有賬號可以快速免費注冊一個。
2
右側選擇 「預處理 > 表達集生成器」。
將上一步准備好的文件「表達譜數據的csv表文件」放入matrix;
「表達譜分組信息的csv表文件」放入pData;
最後填寫一個saveName表示保存文件的文件名。
點擊運行
3
生成與步驟2中的saveName填寫的文件名對應的RData數據文件就可以進行後續的差異分析了。
同時,最好點擊eSet_create.html報告查看生成的文件的簡要信息。
差異基因分析
右側選擇「差異分析 > 差異基因分析」;
在inputset*欄目里放入上一步生成的RData,剩餘參數如下選擇。
logFC代表倍增關系,一般是1-2,這里請選擇1,如果差異基因過少可以適當降低;
pvalue代表p值,一般選擇0.05,這里即選擇0.05,如果差異基因過多可以適當降低;
genenamesets代表要單獨顯示表達變化的基因,這里填寫可以 AHNAK2;
點擊「運行」進行分析。
8. 基因晶元數據分析與處理的目錄
第一章概述1
第一節分子生物學技術及基因、基因組
科學發展歷史簡介1
第二節基因晶元技術簡介3
一、基因晶元的基本概念4
二、基因晶元技術的產生和發展4
三、基因晶元的應用領域6
第三節生物信息學與基因晶元的數據
挖掘7
一、生物信息學的興起7
二、基因晶元的數據挖掘8
參考文獻9
第二章微陣列基因晶元實驗技術11
第一節基因晶元的價值和分類11
一、基因晶元的價值11
二、基因晶元的分類12
第二節基片的制備15
一、基片的類型和性質15
二、玻璃基片表面的修飾方法17
第三節點樣探針的制備18
一、cDNA探針的制備19
二、基因組DNA探針19
三、寡核苷酸探針19
四、獨特的PM?MM探針設計20
第四節基因晶元點樣22
一、晶元點樣儀和點樣方式22
二、點樣後處理27
三、基因晶元的質量標准28
第五節原位合成及納米結構的基因晶元
制備28
一、原位合成法製作基因晶元28
二、納米結構的基因晶元制備31
第六節表達譜基因晶元的檢測方法34
一、樣本選擇、處理和RNA的分離35
二、mRNA樣本標記35
三、晶元雜交38
參考文獻39
第三章統計學基礎41
第一節統計學的基本概念41
一、總體與樣本41
二、資料的統計描述42
三、隨機變數、概率與分布43
四、統計量45
第二節假設檢驗46
一、假設檢驗的基本原理46
二、假設檢驗的步驟47
三、假設檢驗的基本方法47
第三節方差分析54
一、完全隨機設計資料的方差分析54
二、隨機區組設計資料的方差分析55
三、多個樣本均數間的多重比較57
第四節聚類分析與判別分析簡介57
一、聚類分析58
二、判別分析59
參考文獻61
第四章實驗設計62
第一節樣品配對模式62
一、基因晶元實驗的分類62
二、樣品配對方案概述64
三、樣品配對模式的選擇66
第二節樣品的重復及合並69
一、實驗誤差的來源及重復樣品的使用69
二、樣品重復數量的確定70
三、樣品合並70
第三節總結72
參考文獻72
第五章基因晶元圖像的採集和處理74
第一節基因晶元圖像的採集74
一、激光共聚焦掃描儀74
二、CCD掃描儀78
三、掃描儀的技術指標79
第二節基因晶元圖像的處理81
一、劃格83
二、分割84
三、信息提取87
四、質量評估88
第三節一些晶元掃描儀和晶元圖像處理
軟體的介紹88
一、激光共聚焦掃描儀90
二、 激光非共聚焦掃描儀91
三、CCD基因晶元檢測儀92
參考文獻96
第六章數據的預處理和歸一化98
第一節數據的預處理98
一、背景的校正98
二、弱信號的處理99
三、數據的對數轉換101
四、重復數據的合並102
五、缺失數據的處理103
第二節數據的歸一化104
一、cDNA晶元數據的歸一化105
二、Affymix晶元數據的歸一化115
參考文獻118
第七章差異表達基因分析120
第一節差異表達基因的挑選120
一、倍數法120
二、Z值法121
三、重復實驗的判別方法121
四、其他方法124
五、總結125
第二節研究差異表達基因的意義126
一、在基因組研究中的作用126
二、在葯物研究中的作用127
三、在醫學基礎研究中的作用129
參考文獻131
第八章晶元數據的可靠性分析133
第一節數據的評價133
一、差異表達基因的可靠性133
二、晶元數據重復性評價139
第二節誤差來源分析142
一、生物學差異來源142
二、實驗系統誤差144
第三節基因晶元的質控體系149
一、直接點樣的基因晶元的質控體系149
二、Affymetrix的寡核苷酸晶元質控
體系及其產品質量評估151
第四節信號線性擴增技術及其評估154
一、信號線性擴增技術154
二、信號擴增方法的可靠性評價154
參考文獻161
第九章聚類分析和可視化162
第一節相似性(或距離)的度量162
一、歐氏距離162
二、馬氏距離163
三、Chebychev距離164
四、Mahalanobis距離164
五、Minkowski距離164
六、平均點積164
七、向量間的角度165
八、協方差165
九、Pearson相關距離165
十、Spearman秩相關166
十一、互信息166
十二、Kendall?s Tau167
第二節聚類演算法167
一、系統聚類168
二、分割聚類172
第三節二維聚類177
一、耦聯二維聚類177
二、區組聚類177
第四節主成分、SVD和基因修剪178
一、主成分178
二、奇異值分解178
三、基因修剪179
參考文獻179
第十章微陣列實驗中的分類方法181
第一節概述182
一、利用基因表達譜數據進行生物樣本
分類183
二、分類的背景183
三、基因表達譜數據184
第二節不同分類方法的概述184
一、分類及統計決策論184
二、費歇線性判別分析186
三、線性判別和二次判別分析186
四、線性判別分析的擴展188
五、最近鄰分類器188
六、決策樹190
七、BP神經網路分類法194
八、支持向量機197
九、Parzen窗204
第三節分類中的一般問題205
一、特徵選取205
二、標准化和距離函數206
三、缺失值填充207
四、多分類問題208
第四節性能評價209
一、偏差、方差和誤差率209
二、再置換估計210
三、倍數交叉驗證法210
四、解靴帶估計210
第五節實例分析211
一、基因表達譜數據211
二、數據預處理212
三、支持向量機軟體應用213
參考文獻216
第十一章微陣列技術的標准化218
第一節MIAME規則218
一、MIAME規則的具體內容219
二、MIAME表單221
三、MIAME的目前與將來222
第二節Affimetrix晶元系統與MIAME
規則223
一、遵循MIAME規則224
二、Affimetrix實驗的MIAME表單225
三、Affimetrix的RNA抽提、清洗、
標記和雜交規范225
參考文獻227
第十二章基因晶元數據的基因注釋和
功能分析228
第一節單一基因的注釋228
一、一般的注釋228
二、關於疾病的信息233
三、蛋白質家族的信息234
第二節轉錄因子調節的分析235
一、Transfac資料庫236
二、轉錄因子研究中的統計學檢驗238
第三節Gene Ontology資料庫中基因
功能分類的分析240
一、Gene Ontology資料庫240
二、GO資料庫相關分析的工具241
第四節生物學通路和生物學相互作用的
分析243
一、生物學通路中的基因分析244
二、生物學網路中的基因分析249
三、基因晶元數據中使用者自己定義的
基因集的分析250
參考文獻251
第十三章系統生物學及基因調控
網路252
第一節系統生物學簡介252
第二節基因轉錄調控網路的構成253
一、基因轉錄過程簡介253
二、研究轉錄因子及其調控基因的實驗
方法254
三、基因調控網路與圖形254
第三節用高斯圖形模型推導基因調控
網路257
第四節貝葉斯網路模型在基因晶元
數據中的應用259
一、貝葉斯網路簡介259
二、學習貝葉斯網路261
三、貝葉斯網路方法在基因晶元數據
方面的應用262
第五節從時間序列數據中推導基因調控
網路266
一、基因調控網路模型的「事件模型」266
二、關於基因調控網路的「動態
概率模型」268
第六節通過基因擾動來推導基因調控
網路的反義工程方法270
第七節結論271
參考文獻272
第十四章基因晶元技術的應用——
從基因篩選到臨床診斷274
第一節基因表達譜研究與臨床腫瘤學274
一、確定腫瘤亞型275
二、識別腫瘤的組織來源276
三、預後分析276
四、存在問題277
第二節微矩陣晶元和遺傳多態性278
一、單核苷酸多態性簡介278
二、基因多態性與疾病易感性279
三、基因多態性作為遺傳標記的應用279
四、基因多態性與個性化用葯280
五、基因多態性和基因晶元檢測技術281
第三節微矩陣和基因拷貝數變化282
一、cDNA陣列CGH283
二、基因組陣列CGH283
第四節微矩陣和感染性疾病284
一、微生物的鑒定和分型285
二、耐葯性研究286
三、致病機理研究287
第五節微矩陣晶元的其他應用288
一、微矩陣晶元和DNA甲基化分析288
二、轉錄因子結合位點分布290
三、展望291
參考文獻292
第十五章主要數據分析軟體的介紹295
第一節分析軟體在基因晶元技術中的
地位295
第二節主要圖像和數據處理軟體296
一、基因晶元圖像分析軟體
GenePix Pro296
二、Affymetrix GCOS系統297
三、Cluster和TreeView程序298
四、GeneSpring300
五、SpotFire DecisionSuite300
六、SAM和PAM302
七、R平台及生物導體303
八、MATLAB生物信息工具箱304
第三節基因表達譜公共資料庫304
一、NCBI?Gene Expression Omnibus
(GEO)基因表達數據專用庫304
二、EBI ArrayExpress和SMD307
三、微陣列資料庫的建立和管理307
第四節基因注釋資料庫的訪問308
一、斯坦福大學SMD/SOURCE309
二、UCSC基因組瀏覽器309
三、mySQL客戶310
參考文獻311
第十六章展望312
第一節後基因組研究的趨勢——系統
生物學312
一、系統生物學的啟動312
二、系統生物學的發展趨勢313
第二節後基因組應用研究發展的
趨勢——基因組醫學314
第三節基因晶元技術在系統生物學和
基因組醫學中的地位316
一、基因晶元及數據挖掘在基礎研究中
的地位316
二、 基因晶元技術在基因組醫學分子
診斷中的應用趨勢316
參考文獻318