A. 什麼是轉錄組分析
轉錄組
是指某個物種或特定細胞在某一生理功能狀態下,細胞內所有轉錄的mRNA產物的集合,包含了時間
和空間
的限定,是連接
基因組
遺傳信息與生物功能的
蛋白質組
的必然紐帶。轉錄水平的調控是
目前
研究最多的,也是生物體最重要的調控方式。
應用高通量技術進行轉錄組測序是一種快捷可靠的獲取轉錄組信息的方法。mRNA的轉錄本表達分析,通過獲得研究對象基因組轉錄區域的信息,鑒定轉錄發生
位點
,可變剪切等,其精確的計數方法更可對基因進行精確的定量分析。
B. 什麼是轉錄組分析
轉錄組分析指對細胞內所有轉錄產物的集合的分析。
轉錄組(transcriptome)廣義上指某一生理條件下,細胞內所有轉錄產物的集合,包括信使RNA、核糖體RNA、轉運RNA及非編碼RNA;狹義上指所有mRNA的集合。
轉錄組測序一般是對用多聚胸腺嘧啶(oligo-dT)進行親和純化的RNA聚合酶II轉錄生成的成熟mRNA和ncRNA進行高通量測序。
相對於傳統的晶元雜交平台,轉錄組測序無需預先針對已知序列設計探針,即可對任意物種的整體轉錄活動進行檢測,提供更精確的數字化信號,更高的檢測通量以及更廣泛的檢測范圍,是目前深入研究轉錄組復雜性的強大工具。
(2)哈爾濱轉錄組學分析方法擴展閱讀:
轉錄組測序的技術路線:
樣品要求:
1、樣品純度要求: total RNAOD值應在1.8至2.2之間;電泳檢測28S:18S至少大於1.5。
2、樣品濃度: total RNA濃度不低於400ng/ul;樣品總量不低於15ug;目前最新的樣品建庫要求降低到1ug,濃度大於50ng/ul即可。
3、提供total RNA樣品具體濃度、體積、制備時間、溶劑名稱及物種來源。請同時附上QC數據,包括電泳膠圖、分光光度或Nanodrop儀器檢測數據。如需進行多次樣品制備,需要提供多次樣品制備所需樣品。
C. 轉錄組數據分析RNA-seq
轉錄組學(transcriptomics)的研究對象是全基因組尺度下所有轉錄本(transcript),即轉錄組(transcriptome)
將熒游標記的cDNA製成微陣列探針來測定樣本中特定轉錄本含量。又稱為 基因晶元(Gene Chip)、微陣列(Microarry)。
獲取表達量的步驟:
提取RNA -> 反轉錄 (->擴增)->標記->雜交->掃描->獲得原始數據
局限性:
• 只能檢測已知或;確定性的序列
• 無法檢測新發現的,未放置到晶元上的基因
• 有部分探針的信號可能會收到非特異性雜交或個體序列差異的影響
基於高通量二代測序技術的轉錄組學研究方法。
特點:
高通量、低成本;不依賴已知轉錄本探針,可以測全轉錄組;對於低表達豐度的轉錄本靈敏
度高;以reads數量腐酸表達,比晶元的熒光信號更為精確。
應用和最新進展
依據文庫要求檢查完整性分值,如果不合格將不適合建庫測序。一些特殊文庫對RNA提取要求很高,如全長轉錄組文庫,需要特殊提取流
程保證RNA 完整性。
需要的數據:參考基因組數據fasta、GFF注釋信息、雙端測序的fastq文件
我這里用的是普通栽培稻( Oryza sativa L.)的參考基因組和、GFF文件和SRR17439319數據。
參考步驟: https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置時,需要在bin目錄下執行 ./vdb-config --interactive ,然後彈出一大堆亂七八糟的之後,按X退出即可。再執行./fastq-mp,若沒有報錯,而是幫助信息的話即可以使用。
測序數據分析前需要經過數據預處理,並檢查數據GC含量、序列重復成俗、是否存在接頭等。
在質控後,再質檢一次,對比看看有什麼不同。
將 reads 匹配到參考基因組或轉錄組的相應位置上
• 非剪接比對:轉錄組
Bowtie、BWA
• 剪接比對:參考基因組
STAR、HISAT、Topha
對鑒定SNP做了優化: GSNAP、MapSplice等
① 建立基因組索引
②利用注釋文件比對
沒有注釋文件的比對方法
③ SAM 文件處理
使用 samtools 對 SAM 文件排序並轉化為 BAM 文件。samtools是一個用於操作sam和bam文件的工具合集,包含有許多命令。
④比對結果可視化
比對結果使用 IGV 、Genome Maps 和Sacant 等可視化查看。
例如:IGV 通過讀入基因組和注釋信息以及BAM 文件展示比對結果。
需要額外添加 BMA 的索引: samtools index test_sorted.bam test_sorted.
⑤比對結果評估
比對結果評估工具:RSeQC、Qualimap
計算FPKM
-p 線程數
-G 參考基因組注釋
-e 只估計已給參考基因組注釋的基因豐度
-A 基因豐度估計輸出文件
-o 輸出文件
D. 轉錄組分析5——差異表達分析
• 現在常用的基因定量方法包括:RPM, RPKM, FPKM, TPM。
• 這些表達量的主要區別是:通過不同的標准化方法為轉錄本豐度提供一個
數值表示,以便於後續差異分析。
• 標准化的主要目的是去除測序數據的技術偏差:測序深度和基因長度。
• 測序深度:同一條件下,測序深度越深,基因表達的read讀數越多。
• 基因長度:同一條件下,不同的基因長度產生不對等的read讀數,基
因越長,該基因的read讀數越高。
https://mp.weixin.qq.com/s/KSMzgKBlgF2qIadME5nWhw
對於泊松分布而言,其均值和方差是相等的,但是我們的
數據確不符合這樣的規律。
紫色實線是泊松分布的擬合結果。
橙色實線是負二項分布的擬合結果。 (DESeq2)
橙色虛線是 edgeR 軟體的擬合結果。