A. 什么是转录组分析
转录组
是指某个物种或特定细胞在某一生理功能状态下,细胞内所有转录的mRNA产物的集合,包含了时间
和空间
的限定,是连接
基因组
遗传信息与生物功能的
蛋白质组
的必然纽带。转录水平的调控是
目前
研究最多的,也是生物体最重要的调控方式。
应用高通量技术进行转录组测序是一种快捷可靠的获取转录组信息的方法。mRNA的转录本表达分析,通过获得研究对象基因组转录区域的信息,鉴定转录发生
位点
,可变剪切等,其精确的计数方法更可对基因进行精确的定量分析。
B. 什么是转录组分析
转录组分析指对细胞内所有转录产物的集合的分析。
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。
相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。
(2)哈尔滨转录组学分析方法扩展阅读:
转录组测序的技术路线:
样品要求:
1、样品纯度要求: total RNAOD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.5。
2、样品浓度: total RNA浓度不低于400ng/ul;样品总量不低于15ug;目前最新的样品建库要求降低到1ug,浓度大于50ng/ul即可。
3、提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。如需进行多次样品制备,需要提供多次样品制备所需样品。
C. 转录组数据分析RNA-seq
转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)
将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。
获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或;确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响
基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展
依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
程保证RNA 完整性。
需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻( Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤: https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置时,需要在bin目录下执行 ./vdb-config --interactive ,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-mp,若没有报错,而是帮助信息的话即可以使用。
测序数据分析前需要经过数据预处理,并检查数据GC含量、序列重复成俗、是否存在接头等。
在质控后,再质检一次,对比看看有什么不同。
将 reads 匹配到参考基因组或转录组的相应位置上
• 非剪接比对:转录组
Bowtie、BWA
• 剪接比对:参考基因组
STAR、HISAT、Topha
对鉴定SNP做了优化: GSNAP、MapSplice等
① 建立基因组索引
②利用注释文件比对
没有注释文件的比对方法
③ SAM 文件处理
使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令。
④比对结果可视化
比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
例如:IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
需要额外添加 BMA 的索引: samtools index test_sorted.bam test_sorted.
⑤比对结果评估
比对结果评估工具:RSeQC、Qualimap
计算FPKM
-p 线程数
-G 参考基因组注释
-e 只估计已给参考基因组注释的基因丰度
-A 基因丰度估计输出文件
-o 输出文件
D. 转录组分析5——差异表达分析
• 现在常用的基因定量方法包括:RPM, RPKM, FPKM, TPM。
• 这些表达量的主要区别是:通过不同的标准化方法为转录本丰度提供一个
数值表示,以便于后续差异分析。
• 标准化的主要目的是去除测序数据的技术偏差:测序深度和基因长度。
• 测序深度:同一条件下,测序深度越深,基因表达的read读数越多。
• 基因长度:同一条件下,不同的基因长度产生不对等的read读数,基
因越长,该基因的read读数越高。
https://mp.weixin.qq.com/s/KSMzgKBlgF2qIadME5nWhw
对于泊松分布而言,其均值和方差是相等的,但是我们的
数据确不符合这样的规律。
紫色实线是泊松分布的拟合结果。
橙色实线是负二项分布的拟合结果。 (DESeq2)
橙色虚线是 edgeR 软件的拟合结果。