‘壹’ 什么是转录组分析
转录组
是指某个物种或特定细胞在某一生理功能状态下,细胞内所有转录的mRNA产物的集合,包含了时间
和空间
的限定,是连接
基因组
遗传信息与生物功能的
蛋白质组
的必然纽带。转录水平的调控是
目前
研究最多的,也是生物体最重要的调控方式。
应用高通量技术进行转录组测序是一种快捷可靠的获取转录组信息的方法。mRNA的转录本表达分析,通过获得研究对象基因组转录区域的信息,鉴定转录发生
位点
,可变剪切等,其精确的计数方法更可对基因进行精确的定量分析。
‘贰’ 转录组数据分析RNA-seq
转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)
将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。
获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或;确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会收到非特异性杂交或个体序列差异的影响
基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展
依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流
程保证RNA 完整性。
需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
我这里用的是普通栽培稻( Oryza sativa L.)的参考基因组和、GFF文件和SRR17439319数据。
参考步骤: https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置时,需要在bin目录下执行 ./vdb-config --interactive ,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-mp,若没有报错,而是帮助信息的话即可以使用。
测序数据分析前需要经过数据预处理,并检查数据GC含量、序列重复成俗、是否存在接头等。
在质控后,再质检一次,对比看看有什么不同。
将 reads 匹配到参考基因组或转录组的相应位置上
• 非剪接比对:转录组
Bowtie、BWA
• 剪接比对:参考基因组
STAR、HISAT、Topha
对鉴定SNP做了优化: GSNAP、MapSplice等
① 建立基因组索引
②利用注释文件比对
没有注释文件的比对方法
③ SAM 文件处理
使用 samtools 对 SAM 文件排序并转化为 BAM 文件。samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令。
④比对结果可视化
比对结果使用 IGV 、Genome Maps 和Sacant 等可视化查看。
例如:IGV 通过读入基因组和注释信息以及BAM 文件展示比对结果。
需要额外添加 BMA 的索引: samtools index test_sorted.bam test_sorted.
⑤比对结果评估
比对结果评估工具:RSeQC、Qualimap
计算FPKM
-p 线程数
-G 参考基因组注释
-e 只估计已给参考基因组注释的基因丰度
-A 基因丰度估计输出文件
-o 输出文件
‘叁’ 空间转录组应用领域与研究思路
细胞位置信息对于干细胞分化,组织发育以及肿瘤组织微环境起着重大的作用,那么空间转录组在这些研究领域中是如何设计如何解决科学问题的呢?跟着我一探究竟吧。
之前跟大家一起浏览了10X Genomics Visium 空间转录组的分析流程( 不可错过的单细胞转录组研究新维度:空间转录组 )
,这次跟大家分享一下空间转录组的应用领域以及研究的思路。
根据10X Genomics 官网上公布的利用ST(Spatial Transcriptomics)技术进行研究的文献,可以看到该技术涵盖了 肿瘤 、 发育 、 疾病 等领域,涉及到肿瘤、淋巴、大脑、心脏等各种组织。同时空间转录组技术除了可以应用在常见的哺乳动物,也可以应用在 植物学 的研究上。
我们以2020年1月份发表在Nature Biotechnology 上,对PDAC(胰腺导管腺癌)的研究为例,探讨下空间转录组在肿瘤生物学方面的研究。
该研究主要整合了原ST技术和单细胞RNA技术,弥补了原ST分辨率较低、单细胞RNA缺乏空间信息的缺点,两者互相补充,实现了 单细胞水平加空间的全面无偏的癌症组织分析 。
1.探究PDAC组织的细胞类型,以及与空间相关的细胞亚型
2.探究不同肿瘤样本微环境特点
如上图所示,作者分两条线进行设计分析,取两名PDAC患者的2例新鲜PDAC-A和B肿瘤组织,同时进行scRNA-seq和ST建库测序分析。
scRNA-seq 细胞分类: 利用CNV和细胞分类分析以及荧光标记实验证实了PDAC-A包含两种癌症细胞群cluster1(TM4SF1)和cluster2(S100A4),PDAC-B包含一种癌症细胞群cluster1(TM4SF1)。
ST-seq细胞分群: 依据病理学进行组织分区,计算Spots表达水平进行PCA分类,发现cluster与组织分类是一致的。
MIA算法整合分析:
1.发现在组织空间受限区域中含有特定的细胞类型和特定细胞亚群的富集。例如PDAC-A的成纤维细胞特异性基因与ST分析结果中的特定区域的一组基因具有很强的一致性;除此之外,还发现了导管上皮区域富含导管细胞,胰腺组织区域富含腺泡细胞和分泌细胞。
2.依据MIA结果绘制了不同肿瘤样本微环境的特点、免疫环境状态、应激水平以及细胞之间相互作用的模式,有助于对患者预后进行预判。
荧光实验验证: 利用免疫荧光标记实验进行结果验证。
该文章的一大亮点是引入了MIA算法进行空间和单细胞的整合,目前10X Genomics visium 系统大大提升了空间分辨率,一个Spot大概包含1-10个单细胞(主要受研究的组织细胞直径的影响),几乎接近单细胞水平。
接下来我们一起看一下,发表在Cell上一篇关于人类心脏研究的文章,充分发挥了空间转录组技术, 全方位展示了单细胞空间分辨率下的全器官模式 。
该研究利用空间转录组(ST)、单细胞(scRNA)和原位测序(in situ sequencing,ISS)技术进行联合分析,最终获得了人类心脏发育的时间、空间的基因表达模式,并深入探讨了不同类型细胞的功能。同时创建了人类胚胎心脏的公共网络资源,共享研究数据和成果。
研究设计如上图所示,取来自3个人的孕4.5-5周、6.5周和9周的心脏组织,采用ST、scRNA 和原位测序三种技术手段,从时间、空间两个维度展示了人类心脏发育表达的模式。
STseq分析: 对不同孕期的胚胎心脏切片进行空间转录组技术分析,经过降维聚类,差异表达等分析,最终获得了10个cluster细胞类型,并标注了10个cluster特异性表达的基因。
scRNAseq分析: 对孕6.5周胚胎心脏分割两部分进行scRNA建库测序分析,经过降维聚类,获得15个cluster细胞类型,鉴定到的细胞类型与先前报道一致。
ISS分析: 利用ISS的亚细胞空间分辨率的特性,运用pciSeq方法创建了一个综合概率,确定scRNA定义的细胞类型的空间细胞图谱,从而实现单细胞分辨率的基因表达时空分析。
作者把运用这三种技术整合的人类胚胎心脏发育的时空基因表达图谱数据提交到一个公共网站上,以共享数据成果。 https://hdca-sweden.scilifelab.se/a-study-on-human-heart-development/
ISS技术是2013年发表在Nature Methods 上的一篇文章,主要讲述了这种扩增测序方法。滚环扩增:这种方法依赖一种锁式(padlock)探针,它与目标序列的任一侧杂交,以形成环状模板,进行复制。由于产物是拴在模板上的,这提供了可靠定位,并可通过连续的寡核苷酸探针掺入,实现原位测序。这项技术一般用于序列(RNA,基因)组织细胞定位验证分析。
关于ST技术在疾病研究领域的介绍,我们以2019年12月发表在Scientific Reports 上的一篇关于关节炎的研究为例,一起探讨下这项技术的应用思路。
该研究主要利用ST空间转录组技术,探索了类风湿性关节炎(RA)和脊柱关节炎(SpA)的炎症信号通路。揭示了在RA中,适应性免疫反应与T-B细胞相互作用,而在SpA中,适应性免疫反应与组织修复功能相关。
研究设计如上图所示,分别取RA和SpA各3名患者,取其髋部或者膝盖处的滑膜组织进行ST建库测序分析,揭示了慢性炎症性疾病的细胞机制和在组织中的功能的多样性。例如在RA中,适应性免疫反应与T-B细胞相互作用,而在SpA中,适应性免疫反应与组织修复功能相关。
ST分析: 取每个患者病患处3个部位滑膜组织,每个患者3个部位的数据合并在一起作为一个bulk对单个组织切片进行纠正对比。由bulk和单个组织差异表达分析来看,RA与T细胞、肿瘤坏死因子(tumor necrosis factor,TNF)关联更强,而SpA组织的特征更多在于软骨损伤和修复系统的过程。
功能分析: 利用Ingenuity Pathway Analysis (IPA) and Metascape ( http://metascape.org )软件对差异表达基因进行功能和分子网络通路分析,发现RA与适应性免疫应答相关,SpA与细胞外基质相关、与软骨损伤修复过程相关。
细胞类型鉴定: 利用Xcell软件进行细胞类型的鉴定,展现了空间组织区域细胞的类型。
前面介绍了人类肿瘤、发育和疾病相关的研究,那么ST技术能否应用于植物学上,为农林研究贡献一种新技术、新方案呢?答案是肯定的。下面这篇就是2017年发表在Nature Plant 杂志上的一篇关于植物学的研究。
该研究利用空间转录组技术首先在被子植物和裸子植物中模拟了生成空间转录组图谱的可行性,并且在拟南芥中识别了141个表达差异基因和花序组织区域的功能通路上的189个差异基因。空间转录组学与功能学结合研究,将为植物发育、进化等研究带来新的思路和新的方法。
研究设计如上图所示。作者对待研究的植物进行取样,如拟南芥花序、银杏芽等一些植物进行取样,切片,建库测序分析。
1.讨论被子植物和裸子植物空间转录技术的可行性
a.展示了金银花的叶子芽在一年四季的形态;b.金银花叶子芽两个发育中和休眠中的叶芽基因表达热图,每个颜色条代表一个横截切面,黑色箭头指示位置表示空间Spots的基因表达较低;c.展示不同组织切片空间位点PCA的情况,i为雌性锥组织切片Spots PCA;ii 为不同的组织结构(PT/LO)PCA;d.表明每个Spots的基因和转录本数量在拟南芥中复制。黑线表示每个重复中每个Spots的平均基因或转录本的数量;由b和c的PCA图示可以看到空间转录组信息(Spots)是可以区分组织差异性的。
2.空间转录组技术可用于拟南芥花序分化的分析
a.每个基因在空间上的表达水平。检测到基因表达情况用颜色斑点进行表示。b.拟南芥空间Spots分层聚类(t-SNE分析)。c.微观领域级别的组织域分类用于线性模型分析。d.组织微类别中141个差异基因检验水平。绿点,实际数据中的P值;红点,随机排列斑点标签后的P值;垂直虚线为排列后的P值的0.1%分位数(大约等于0.001),证实了模型的正确性,并用于估计FDR);水平虚线为任意阈值P(H0)= 0.05。e.列举线性模型中在组织区域微类别之间的差异表达基因。f.花序组织区域功能通路上的189个差异基因。颜色编码如d中所示。g.线性模型检测到的功能通路的例子。由拟南芥的研究可以知道空间转录组技术识别了141个表达差异基因和花序组织区域的功能通路上的189个差异基因。空间转录组学结合功能学研究,将有助于更好的理解研究植物的进化和发育。
这是ST技术发表以来,唯一应用于植物学研究的文章,实际经验还不足,尤其植物样本受到细胞壁,液泡,叶绿体和次生代谢产物的影响,需要对待研究的样本进行特定的优化。
举一反三的研究思路,加上ST升级版的10X Genomics Visium ,相信空间转录组会得到更广泛,更深入的应用。
参考文献
1.Moncada, R., Barkley, D., Wagner, F. et al. Integrating microarray-based spatial transcriptomics and single-cell RNA-seq reveals tissue architecture in pancreatic ctal adenocarcinomas[J].Nature biotechnology,2020
2.Asp M, Giacomello S, Larsson L, et al. A Spatiotemporal Organ-Wide Gene Expression and Cell Atlas of the Developing Human Heart[J]. Cell, 2019, 179(7).
3.Carlberg K, Korotkova M, Larsson L, et al. Exploring Inflammatory Signatures in Arthritic Joint Biopsies With Spatial Transcriptomics[J]. Scientific Reports, 2019, 9(1).
4.Giacomello S, Salmen F, Terebieniec B K, et al. Spatially resolved transcriptome profiling in model plant species[J]. Nature plants, 2017, 3(6).
‘肆’ 转录组测序流程步骤是哪些
以真核转录组测序为例,实验流程为总RNA提取-mRNA分离-建库试剂-定量-文库回收-桥式扩增-上机测序;项目分析流程为数据产出数据=数据去杂-转录组拼接-SSR分析及SNP分析-基因功能注释-基因表达差异分析-差异基因表达模式聚类-差异基因富集分析。
‘伍’ 转录组测序研究怎么做
首先需要做的是将测出来的readsmapping到基因组上,与此同时可以得到数据mapping比例等信息,依靠这些信息可以进行数据质量的分析,然后还可以统计每个基因的表达情况,如果是比较不同样本之间的转录组,则可以进行差异表达基因的分析
‘陆’ 有个关于转录组测序的问题
目前研究转录组主要包含三种方法:
包括基于sanger测序法的sage
(serial
analysis
of
gene
expression)、longsage和mpss(massively
parallel
signature
sequencing);
基于杂交技术的cdna芯片和寡聚核苷酸芯片;
基于高通量测序技术的转录组测序(rna-seq)。
与另两种方法相比,rna-
seq具有以下优势:
高灵敏度,检测阈值跨越6个数量级,能检测到细胞中几乎所有的转录本,包括一些只有几个拷贝的稀有转录本,同时能对转录本进行定量;
高准确率,能准确的测定每个转录本的单核苷酸,同时不存在生物芯片的荧光模拟信号带来的交叉反应和背景噪音的问题;
应用范围广,无需预先设计探针或了解物种的基因信息,即可对任意物种进行转录组测序,同时能发现新的转录本,预测新的基因,检测可变剪切、snps、融合
基因等。
所以如果阁下希望进行转录组研究,可以从以上几种方法入手。多看文献,多向前辈请教,假以时日,会成为高手的。如有问题,可以进一步追问。
希望采纳哦
‘柒’ 比较概述基因组学、转录组学、蛋白质组学和代谢组学的概念、研究方法、优缺点及应用设想
组学omics,研究的是整体. 按照分析目标不同主要分为基因组学,转录组学,蛋白质组学,代谢组学。
基因组学研究的主要是基因组DNA,使用方法目前以二代测序为主,将基因组拆成小片段后再用生物信息学算法进行迭代组装。当然这仅仅是第一步,随后还有繁琐的基因注释等数据分析工作。
转录组学研究的是某个时间点的mRNA总和,可以用芯片,也可以用测序。芯片是用已知的基因探针,测序则有可能发现新的mRNA,
蛋白组学针对的是全体蛋白,组要以2D-Gel和质谱为主,分为top-down和bottom-up分析方法。理念和基因组类似,将蛋白用特定的物料化学手段分解成小肽段,在通过质量反推蛋白序列,最后进行搜索,标识已知未知的蛋白序列。
代谢组分析的代谢产物,是大分子和小分子的混合物,主要也是用液相和质谱。
总而言之,这些技术都想从全局找变量,都是一种top-down的研究方法,原因很简单:避免‘只缘身在此山中’的尴尬。
但因为技术局限,都各有缺点,尤其是转录组和蛋白组数据,基本上颠覆了以前一直认为的mRNA水平能代表蛋白水平的观念,因为这两组数据的重合度太低。
所以目前很多研究都开始使用交叉验证方法。
无论如何,都需要对数据进行分析,有经验的分析往往能化腐朽为神奇。
‘捌’ 转录组学有哪些实现手段,数据类型及其格式
广义转录组是指生命单元(通常是一种细胞)中所有按基因信息单元转录和加工的RNA分子(包括编码和非编码RNA功能单元),或者是一个特定细胞所有转录本的总和.它的研究对象就是这些RNA与蛋白质分子和它们所组成的基因功能网络以及它们与细胞功能的关系.而狭义转录组是指可直接参与翻译蛋白质的mRNA总和.研究生物细胞中转录组的发生和变化规律的科学就称为转录组学(tran—scriptomics).
(二)转录组学的意义1.转录组谱可以提供特定条件下某些基因表达的信息,并据此推断相应未知基因的功能,揭示特定调节基因的作用机制.2.通过基于基因表达谱的分子标签,不仅可以辨别细胞的表型归属,还可以用于疾病的诊断.3.转录组的研究应用于临床的另一个例子是可以将表面上看似相同的病症分为多个亚型,尤其是对原发性恶性肿瘤,通过转录组差异表达谱的建立,可以详细描绘出患者的生存期以及对药物的反应等.
‘玖’ 什么是转录组分析
转录组分析指对细胞内所有转录产物的集合的分析。
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。
相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。
(9)转录组研究方法扩展阅读:
转录组测序的技术路线:
样品要求:
1、样品纯度要求: total RNAOD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.5。
2、样品浓度: total RNA浓度不低于400ng/ul;样品总量不低于15ug;目前最新的样品建库要求降低到1ug,浓度大于50ng/ul即可。
3、提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。如需进行多次样品制备,需要提供多次样品制备所需样品。
‘拾’ 单细胞转录组(Single cell RNA)概述
这几年单细胞实验和分析技术如雨后春笋般涌现,相关文章也层出不穷,各种软文也是铺天盖地。作者呕心沥血整理了一篇关于单细胞的长文,详细介绍单细胞转录组分析的整体分析。本文是第一篇,我们一起来看看单细胞转录组的基本知识。
单细胞转录组就是某一时刻单个细胞内所有mRNA总表达量,其表达量反映该细胞的总体特征。随着2009年汤富酬老师首先开发单细胞转录组技术后,单细胞转录组技术如雨后春笋般涌现出来,比如Smart-seq、CEL-Seq、Quartz-Seq、Drop-seq、InDrop-seq、Smart-seq2等等。单细胞转录组技术的出现使得我们可以把研究的精度从组织多细胞层面精确到单个细胞领域,可以单独研究某个细胞或者某群细胞具体的特征,特别是对于细胞发育、肿瘤微环境、单细胞图谱绘制方面发挥了关键作用。
单细胞转录组的平台有很多,常用的有10xGenomics、BD Rhapsody、Fluidigm C1、Bio-Rad等平台,其中10xGenomics单细胞转录平台由于其成本优势和通量优势,是最常见的一种单细胞解决方案提供商,其在市场上处于绝对优势。10xGenomics单细胞转录组平台能够一次高效地捕获100-80,000细胞(一个芯片),1000个细胞的双细胞率仅为0.9%,是目前最为常用的单细胞捕获平台。
在这里主要也是介绍基于10xGenomics单细胞转录组平台数据进行的后续生信分析以及注意事项。
普通转录组(Bulk RNA)是生物组织样品中在某个时间对应的所有mRNA转录情况,通常作为组织或者样品某个时刻状态的重要指标,不同的样品、不同组织、不同物种、不同的处理都会造成mRNA表达情况的改变,从而调控机体的生命状态或者执行某些细胞功能,相对于蛋白而言,mRNA的稳定性和检测的便利性,大大促进了转录组技术的发展和应用。
“Every cell is unique—it occupies an exclusive position in space, carries distinct errors in its copied genome and is subject to programmed and inced changes in gene expression. Yet most DNA and RNA sequencing is performed on tissue samples or cell populations, in which biological differences between cells can be obscured by averaging or mistaken for technical noise.” ----Method of the Year 2013(Nature Methods )
但是样品或者组织的转录组是所有细胞的一个转录组表达量的平均值,不能反映样品中所有细胞或者某群细胞的状态,因此需要对单个细胞的或者某群细胞的转录状态进行深入的研究,这样将更精细、更准确反映组织的状态。 如果在进行免疫或者药物反应研究的时候,可以更精准地针对细胞或者细胞亚群进行免疫治疗或者靶向治疗,这是精准医疗必要条件。
在思考这个问题之前,我们首先需要考虑的是什么是单细胞转录组?只有了解单细胞转录组本质以后,才能更好了解如何去研究?
10xGenomics单细胞转录组基本流程如下图所示,我们最终得到的是一个表达矩阵,此矩阵一般每行为基因,每列为细胞。其实这个矩阵就是每个细胞所有的基因表达情况。
后续10xGenomics单细胞转录组的分析几乎都是基于上述方式得到的表达矩阵进行分析的,不管是聚类还是发育轨迹构建,其实 单细胞转录组研究的本质就是研究我们捕获细胞的的异质性 ,也就是研究细胞与细胞具体有什么差异,研究样品中有什么类型的细胞,这些细胞有什么差异。
异质性具体如何研究?虽然现在单细胞转录组分析的工具和方案有几百种,就本质来说, 只有两种研究方法:一种是细胞类型的差异;另外一种是发育轨迹的构建。 现在所有的工具都可以归类到此两类。
单细胞转录组表达矩阵的获取
10xGenomics单细胞转录组表达矩阵一般是通过 cellranger 软件获取,cellranger为10xGenomics官方分析软件,一般后续高级分析或者重新分析都是基于此矩阵。
一般cellranger资源消耗如下图所示:
这一篇我们对基本知识进行了介绍,同时讲解了如何获得表达量矩阵。下一篇我们会介绍详细的单细胞转录组亚群分析过程和原理,请大家继续关注。
参考文献
1.Giovanni Iacono, Ramon Massoni-Badosa, Holger Heyn. Single-cell transcriptomics unveils gene regulatory network plasticity[J]. Genome biology, 2019, 20(1).
2.Gioele L M , Ruslan S , Amit Z , et al. RNA velocity of single cells[J]. Nature, 2018.
3.Park J , Shrestha R , Qiu C , et al. Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease[J]. Science, 2018:eaar2131.
4.Zhang X, Lan Y, Xu J, et al. CellMarker: a manually curated resource of cell markers in human and mouse[J]. Nucleic Acids Research, 2019.
5.Aran D, Looney A P, Liu L, et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage[J]. Nature Immunology, 2019, 20(2): 163-172.
6.Aibar S , González-Blas, Carmen Bravo, Moerman T , et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature Methods, 2017.
7.Wouter, Saelens, Robrecht, et al. A comparison of single-cell trajectory inference methods[J]. Nature Biotechnology, 2019.
8.F, Alexander, Wolf, et al. PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells.[J]. Genome biology, 2019.
9.Diether L , Els W , Bram B , et al. Phenotype molding of stromal cells in the lung tumor microenvironment[J]. Nature Medicine, 2018.
10.Zheng C , Zheng L , Yoo J K , et al. Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing[J]. Cell, 2017, 169(7):1342-1356.e16.