‘壹’ 检测基因表达水平差异的方法有哪些
基因的表达是dna-rna-蛋白,期间有转录水平调控、转录后调控、翻译后调控等多种调控机制影响该基因的表达.
所以蛋白水平高低的原因就可能是多方面的.蛋白表达多,可能是mrna多,也可能mrna变化不大,而是翻译多了;蛋白表达少,原因亦然.
从2个水平检测一个基因的表达,可以更全面地了解该基因在该组织某个时期或某种条件下的变化受到什么水平的调控.
所谓基因表达,就是从dna到mrna再到蛋白的一个过程,基因表达水平一般是通过该基因转录的mrna的多少来衡量的.
每个基因转录产生的mrna的量,是受到时空等多种因素调控的,个体在不同的生长发育阶段,或者不同的组织水平,基因转录出mrna的量都是不一样的.
例如,当某种植物长期生长在高盐的环境里,该植物体内与抗盐相关的基因的表达量就会增加,以适应这种高盐环境,是植物能够生存下来,这时植物抗盐相关的基因表达水平就相对高
检测基因表达的方法:
转录水平检测:rt-pcr,real-time pcr,northern blot
翻译水平检测:western blot
还有直接检测,如报告基因、融合荧光蛋白等。
rt-pcr是反转录pcr,是半定量方式。real-time pcr可以精确定量。 二者不同。后者为了区别于rt-pcr,一般不缩写。
各位观众老爷们大家好!我是吆五,打算从今以后不定期分享一些生物类的专业知识。
一方面供自己学习积累,另一方面也希望对大家有所帮助。
生物是很枯燥的呢
‘贰’ 怎么判断差异表达的基因
判断差异表达的基因常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两个条件下的 Ratio 值,若大于给定阈值,则为表达差异显着的基因;第二类方法采用统计分析中的 t 检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显着性;第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显着性,例如贝叶斯方法。
‘叁’ 怎么判断差异表达的基因
真核生物中,从个体的生长、发育、衰老、死亡,到组织的得化、调亡以及细胞对各种生物、理化因子的应答,本质上都涉及基因的选择性表达。高等生物大约有30000个不同的基因,但在生物体内任意8细胞中只有10%的基因的以表达,而这些基因的表达按特定的时间和空间顺序有序地进行着,这种表达的方式即为基因的差异表达。其包括新出现的基因的表达与表达量有差异的基因的表达。生物体表现出的各种特性,主要是由于基因的差异表达引起的。
由于基因的差异表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理条件下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。研究基因差异表达的主要技术有差别杂交(differential hybridization)、扣除(消减)杂交(subtractive hybridization of cDNA,SHD)、mRNA差异显示(mRNA differential display, DD)、抑制消减杂交法(suppression subtractive hybridization,SSH)、代表性差异分析(represential display analysis,RDA)、交互扣除RNA差别显示技术(reciprocal subtraction differential RNA display)、基因表达系列分析(serial analysis of gene expression,SAGE)、电子消减(electronic subtraction)和DNA微列阵分析(DNA microarray)等。
一、差别杂交与扣除杂交
差别杂交(differential hybridization)又叫差别筛选(differential screening),适用于分离经特殊处理而被诱发表达的mRNA的cDNA克隆。为了增加这种方法的有效性,后来又发展出了扣除杂交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通过构建扣除文库(subtractive library)得以实现的。
(一)差别杂交
从本质上讲,差别杂交也是属于核酸杂交的范畴。它特别适用于分离在特定组织中表达的基因、在细胞周期特定阶段表达的基因、受生长因子调节的基因、以及在特定发育阶段表达的或是参与发育调节的基因,同时亦可有效地用来分离经特殊处理而被诱发表达的基因。目前,差别杂交筛选法在克隆基因的分离工作中有着相当广泛的用途。
差别杂交的技术基础十分简单,它不需要任何有关的目的基因的核苷酸序列信息,而重要的是耍拥有两种不同的细胞群体:在一个细胞群体中目的基因正常表达,在另一个细胞群体中目的基因不表达。在这种情况下便可制备到两种不同的mRNA提取物。其一是含有一定比例的目的基因mRNA类型的总mRNA群体,其二是不含有目的基因mRNA类型的总mRNA群体。因此,可以通过这两种总mRNA(或是它们的cDNA拷贝)为探针的平行杂交,对由表达目的基因的细胞总mRNA构建的克隆库进行筛选。当使用存在目的基因的mRNA探针时,所有包含着重组体的菌落都呈阳性反应,在X光底片上呈现黑色斑点,而使用不存在目的基因的mRNA探针时,除了含有目的基因的菌落外,其余的所有菌落都呈阳性反应,在X光底片上呈现黑色斑点。比较这两种底片并对照原平板,便可以挑选出含目的基因的菌落,供作进一步研究使用。
差别杂交筛选技术已被成功地用于分析爪蟾和粘菌的发育问题。这两个应用例子表明,处于不同发育状态或阶段的丰度相差5倍的特异的mRNA种是能够被检测出来的。生长因子调节基因(growth factor-regulated gene)的克隆,是差别杂交成功应用的一个典型例子。我们知道,血清中含有生长因子,因此用血清处理处于静止期的细胞时,便会迅速诱发生长因子调节基因进行表达。所以,分别从静止期细胞培养物和经血清激活3小时的细胞培养物中提取的poly(A)mRNA制剂,在mRNA种类上是有差别的,至少后者比前者多出了一种生长因子调节基因的mRNA类型。用从激活细胞中分离的poly(A)mRNA反转录合成的cDNA与λ噬菌体载体重组,构成cDNA文库,并同时复制两份硝酸纤维素滤膜。A组滤膜同血清激活细胞制备的cDNA探针杂交,B组滤膜同静止期细胞制备的cDNA探针杂交。将所得的放射自显影图片进行仔细的比较,从中鉴定出只同激活细胞探针杂交而不能同静止期细胞探针杂交的噬菌斑位置。这些克隆便有可能是带有受血清诱发表达的生长因子调节基因的DNA编码序列。
(二)扣除杂交
差别杂交可有效地对于因特殊处理而被诱发产生的mRNA的cDNA克隆的分离,或是在细胞中具高表达效率的mRNA之cDNA克隆的分离,但对于低丰度的mRNA的cDNA克隆的分离则有相当的困难。为了进一步提高差别杂交的筛选效率,一种切实可行的办法是应用扣除杂交筛选法构建富含目的基因序列的cDNA文库。
扣除杂交法的本质是除去那些普遍共同存在的、或是非诱发产生的cDNA序列,从而使待分离的目的基因的序列得到有效的富集,提高了分离的敏感性。下面以T细胞受体(T-cell receptor,TCR有时亦称之为T细胞抗原受体)编码基因的分离为例子,说明扣除杂交筛选法的基本原理与简要过程。T细胞和B细胞来自共同的前体细胞,两者都能够识别特异的抗原。但与B细胞不同,T细胞不能识别游离的抗原,而只能识别在其它细胞表面的抗原。T细胞的这种抗原识别特异性是由TCR基因决定的。TCR基因只能在T细胞中表达,而不能在B细胞中表达。那么从T细胞mRNA制备来的单链cDNA,同大大超量的B细胞的mRNA在有利于发生DNA-RNA杂交的条件下保温,其结果会是所有的能够在T和B两类细胞中同时表达的T细胞基因的cDNA分子(约占98%),都能与B细胞的mRNA退火形成DNA-RNA杂交分子,而不能在B细胞中表达的、T细胞特有的cDNA(约占2%),由于B细胞中没有相应的mRNA,故不能形成DNA-RNA杂交分子,仍然处于单链的状态。将此种杂交混合物通过羟基磷灰石柱(hydroxylapatite column),于是DNA-RNA杂交分子便结合在柱上,而游离的单链cDNA则过柱流出。回收到的T细胞特异的cDNA被转变为双链cDNA之后,与适当的λ噬菌体载体重组并转染给大肠杆菌寄主细胞,这样便得到了T细胞特异cDNA高度富集的扣除文库。然后再按照同样方法制备扣除的cDNA探针,即被B细胞mRNA杂交扣除了的T细胞特异的cDNA探针,筛选文库,可成功地分离到了T细的TCR基因。
扣除杂交法同样也可以用来分离缺失突变基因。从野生型植株制备的染色体总DNA,用一种适当的核酸内切限制酶(比如Sau3A)切割成小片段。同时从缺失突变体植株制备的染色体总DNA,经随机切割之后,用生物素(biotin)进行标记,作为非同位素标记探针使用。取大大超量的此种探针,同Sau3A酶切的野生型染色体总DNA片段混合,经变性、退火处理,溶液中的无生物素标记的野生型的DNA分子便同生物素标记的突变型的DNA探针杂交。将杂交反应混合物通过生物素结合蛋白质柱(avidin column)。这种柱是用包裹着生物素结合蛋白质的专用的细小磁珠装填的。大部分野生型植株的DNA分子都同突变型植株的生物素标记的DNA探针杂交,便被结合到柱上。而野生型植株的DNA片段由于在突变型DNA中缺失了相应的片段,故没有相应的生物素标记的探针与之杂交,经洗脱便过柱流出。随后将洗脱收集的DNA同超量的生物素标记探针再杂交,再过柱。如此经过多次重复富集之后,用PCR法扩增DNA片段,并予以克隆。最后用Southern杂交法进一步鉴定出,只同野生型DNA杂交而不能同突变型DNA杂交的含有突变基因的阳性克隆。
‘肆’ RNA-seq中的基因表达量计算和表达差异分析
原文链接: RNA-seq中的基因表达量计算和表达差异分析-生物知识学习 (biotechknowledgestudy.com)
差异分析的步骤:
1)比对;
2) read count计算;
3) read count的归一化;
4)差异表达分析;
背景知识:
1)比对:
普通比对: BWA,SOAP
开大GAP比对:Tophat(Bowtie2);
2) Read count(多重比对的问题):
丢弃
平均分配
利用Unique region估计并重新分配
表达量计算的本质
目标基因表达量相对参照系表达量的数值。
参照的本质:
( 1)假设样本间参照的信号值应该是相同的;
( 2)将样本间参照的观测值校正到同一水平;
( 3)从参照的数值,校正并推算出其他观测量的值。
例如:Qpcr:目标基因表达量(循环数)相对看家基因表达量(循环数);RNA-seq:目标基因的表达量(测序reads数),相对样本RNA总表达量(总测序量的reads数),这是最常用的标准。
归一化的原因及处理原则:
1)基因长度
2)测序量
3)样本特异性(例如,细胞mRNA总量,污染等)前两者使用普通的RPKM算法就可以良好解决,关键是第三个问题,涉及到不同的算法处理。
RNA-Seq归一化算法的意义:
基因表达量归一化:在高通量测序过程中,样品间在数据总量、基因长度、基因数目、高表达基因分布甚至同一个基因的不同转录本分布上存在差别。因此不能直接比较表达量,必须将数据进行归一化处理。
RNA-seq差异表达分析的一般原则
1)不同样品的基因总表达量相似
2)上调差异表达与下调差异表达整体数量相似(上下调差异平衡)
3)在两组样品中不受处理效应影响的基因, 表达量应该是相近的(差异不显着)。
4)看家基因可作为表达量评价依据( 待定)
不同的算法比较:
以什么数值来衡量表达量:RPKM、FPKM、TPM
以什么作为参照标准:TMM(edgeR软件)、De seq矫正
RPKM:是Reads Per Kilobase per Million mapped reads的缩写,代表每百万reads中来自于某基因每千碱基长度的reads数。
本质:1)以reads数为计算单位;
2)对基因长度(基因间的比较)和总数据量(样本间的比较)做矫正;
1)由于可变剪切,同一基因有效转录区域长度未必相同(这个一般情况下可以不考虑,了解一下:Cufflinks软件考虑了这个问题)优化策略:外显子或转录本水平的表达量分析。
2) 使用reads数计算基因表达量有轻微误差(这里暂不展开,主要了解一下定义)优化策略:FPKM或 TPM
3) mRNA的总量未必相等。
RPKM的优化:FPKm
F = Fragment,即测序片段数量。这些片段都是从完整的cDNA打碎而来的;
本质:以文库中的片段数量为计算单位在Paired-end测序中,一个fragment就是两条PE reads构成的片段。由于是PE比对,理论上比SE比对更可靠。
T = Transcripts
本质:以转录本的条数为计算单位。使用转录本的条数(或者说:转录本的测序深度),代替reads数,在一定条件下定量更准,尤其样本间表达基因总数差异很大的时候(例如,对照样本有1万个基因表达,另外处理组仅有4000个基因表达)。
mRNA总量未必相等
mRNA总量不等——细胞本身不同
例如:活跃组织vs休眠的组织;癌细胞vs正常细胞
mRNA总量不等——污染
例如:核糖体污染外源RNA污染
解决方法——不同算法比较
其中归一化算法介绍:
1)Total Count(TC):总reads数矫正
2)Upper Quartile(UQ):上四分之一分位数(总reads)
矫正
3)Median(Med);中位数(总reads数)矫正
4)Quantile (Q):基因芯片软件limma中的校正算法;
5)RPKM:总reads数,但引入了基因长度
6)几何平均数:Deseq软件中的算法;
7)TMM:edgeR软件中的算法;
8)RPKM
逻辑1:不同位置数值的稳定性不同
四分位数quartile:将数据按从小到大排列,并分成四等分,这样得到3个分割点,第一个分割点叫做lowerquartile,第二个叫Media,第三个叫Upper quartile
很显然,极大值具有极大不稳定性,而且可能会显着影
响总体之和(假设,我们之中有个马云,我们的总收入
有什么变化?)
所以,Upper quartile和Median的数值,比总表达量之
和更加稳定,更适合作为参照。
逻辑2:表达量居中的基因的表达量值,其数值应该是相似的。
DESeq与edgeR,默认情况下都使用这一的逻辑校正。(DESeq and edgeR Bioconctor packages)
Deseq:异常高表达的基因,会显着影响细胞中的总mRNA的数量。类似的,如果样本中受到不同程度的外源RNA,如病毒、真菌等的污染,也会显着影响样本总mRNA数,导致RPMK值的误差。对于这样的问题,Deseq尝试对数据进行矫正(矫正因子),使表达量处于中间位置的基因表达量应该是基本相同的(即使用表达量处于中间的基因表达量值作为参照,而减少高表达基因的作用)。
Deseq: 校正因子=样本表达中位数/所有样本表达量中位数:回答了一个关键的问题:Deseq不同差异比较组间,计算得到的表达量值不同。因
为样本在变化,“所有样本表达量的中位数”也在变动。RPKM:总表达量为参照
Deseq:中位数为参照
TMM(edgeR):与Deseq类似,在去除高表达基因和差异最大的基因后,TMM也是要找到一个加权系数,使剩余的基因在被矫正后差异倍数可能小。TMM的加权系数是基于两两样本比较后推算获得的(也就是两组样本的比较,将产生与这次比较相关的加权系数)。然后将所有基因除以这个加权系数,从而保证大部分表达量居中的基因表达量最相似。
不同RNA-seq表达量归一化算法的区别
Deseq类的校正算法:理论上更加稳定;但不同批次的比较会得到不同的表达量值,不利于进行多处理组/批次数据的统一分析(例如,趋势分析、共表达分析)校正会掩盖一些问题(例如:样本污染)
RPKM类的算法: 容易受异常高表达基因、外源污染等的干扰;但也更容易从结果的异常中,发现潜在问题;得到的表达量值是恒定的,多处理组/批次的数据可以合并分析。折中的方法:使用RPKM类的算法,但需要人工检查数据是否
异常。备注: Deseq软件也可以关闭校正的功能。
实际经验总结
总之:从多方面考虑,RPKM类算法,如果合理使用,依然是最优的。具体问题具体分析:在遇到问题的时候,找到问题的来源,从而给出解决方案(没有完美的流程,只有最佳解决方案)
‘伍’ 如何利用SAM找差异性表达基因
今天就先来聊聊如何看差异表达基因数据,火山图,聚类图又怎么看。1差异基因筛选方法那差异基因是如何筛选出来的呢?差异基因的筛选方法有很多,包括倍数法、T检验、F检验及SAM等。下面简单介绍一下GCBI平台上用的倍数法和SAM法。倍数法适用于没有生物学重复的样本,其计算基因在两个条件下表达水平的比值,确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。SAM算法适用于有生物学重复的样本,通过对分母增加一个常量T检验过程减小了假阳性发生的概率。文献中报道,相较于其他算法,SAM算法更为稳定,筛选出的结果也更为准确。2差异基因数据解读经过合适的差异基因方法筛选出的差异基因,结果一般分为两部分,数据+图形。数据结果展示如下图所示(两分组)众多参数中,重点看三个。p-value或q-value没有做生物学重复请跳过这一步。p-value或q-value是统计学检验变量,代表差异显着性,一般p-value或q-value小于0.05代表具有显着性差异,但可根据具体情况适当调整。因为p-value或q-value衡量地是某个基因假阳性的概率,如果p-value或q-value越低,那么挑选该基因出现假阳性的概率就越低,可验证性就越高。两者具体的计算方法具体如下:那p-value、q-value同时存在时看哪个呢?SAM法只有q-value。当两者同时存在时,可根据具体情况具体分析。差异筛选是一个典型的多重假设检验过程,对于多重假设检验,单次检验中差异显着基因的假阳性率(p-value较小)可能会较大,而q-value和FDR值较常见的BH校正方法得到的FDR值而言,改进了其对假阳性估计的保守性。即q-value相比于p-value更加严格,当差异基因结果较少时,可以退而求其次看p-value。FoldChangeFoldChange表示实验组比上对照组的差异表达倍数,一般表达相差2倍以上是有意义的,放宽要求1.5倍或者1.2倍也可以接受。看表达倍数的同时还需结合基因表达丰度,信号值太低的基因会在后续的验证实验中检测不到。3差异基因图表解读在差异结果的图形展示结果中,主要是火山图和聚类图。火山图火山图只针对两分组且有生物学重复的情况。如何看火山图呢?火山图可反映总体基因的表达情况,横坐标代表log2(FoldChange),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达,图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。聚类图聚类图可以衡量样本或基因之间表达的相似性。如上图所示的聚类图中,横坐标代表样本聚类,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推。纵坐标代表基因聚类,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推。色阶代表基因表达丰度,越红代表上调得越明显,越绿代表下调得越明显。如何做聚类图请戳往期推送做个聚类图只需1分钟差异基因有了,如何挑选潜在基因进行实验验证呢?关键还在于感兴趣点在哪了。粗略的看,可以先看KEGG或者GO功能分类,看差异基因具体富集在哪些通路或功能。比如关注的是细胞内脂肪酸合成关键酶,可以重点看脂肪酸合成和碳流相关通路。具体如何看KEGG或者GO功能分类,请听下回分解。
‘陆’ 差异表达基因分析:差异倍数(fold change), 差异的显着性(P-value)
Differential gene expression analysis:差异表达基因分析
Differentially expressed gene (DEG):差异表达基因
差异表达分析是目前比较常用的识别疾病相关miRNA以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change方法。
它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显着性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change的计算公式如下:
即用疾病样本的表达均值除以正常样本的表达均值。
差异表达分析的目的: 识别两个条件下表达差异显着的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T检验(T-test)方法来寻找差异表达的miRNA。T检验的主要原理为:对每一个miRNA计算一个T统计量来衡量疾病与正常情况下miRNA表达的差异,然后根据t分布计算显着性p值来衡量这种差异的显着性,T统计量计算公式如下:
差异倍数(fold change)
fold change翻译过来就是倍数变化,假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞).
为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。
当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;
当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。
通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1). 【需要一点对数函数的基础知识】
为什么不直接用表达之差,差值接有正负啊?
假设A表达为1,B表达为8,C表达为64;直接用差值,B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3.
通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适, 用log2 fold change更能表示相对的变化趋势。
虽然大家都在用log2 fold change,但显然也是有缺点的:
一、到底是5到10的变化大,还是100到120的变化大?
二、5到10可能是由于技术误差导致的。所以当基因总的表达值很低时,log2 fold change的可信度就低了,尤其是在接近0的时候。
A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.
差异的显着性(P-value)
这就是统计学的范畴了,显着性就是根据假设检验算出来的。
假设检验首先必须要有假设,我们假设A和B的表达没有差异(H0,零假设),然后基于此假设,通过t test(以RT-PCR为例)算出我们观测到的A和B出现的概率,就得到了P-value, 如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A和B的表达不一样,即有显着差异。
显着性只能说明我们的数据之间具有统计学上的显着性,要看上调下调必须回去看差异倍数。
对于得到的显着性p值,我们需要进行多重检验校正(FDR),比较常用的是BH方法(Benjamini and Hochberg, 1995)。
这里只说了最基本的原理,真正的DESeq2等工具里面的算法肯定要复杂得多。
这张图对q-value(校正了的p-value)取了负log,相当于越显着,负log就越大,所以在火山图里,越外层的岩浆就越显着,差异也就越大。
只需要看懂DEG结果的可以就此止步,想深入了解的可以继续。
下面可以继续讨论的问题有:
1、RNA-seq基本分析流程/2、
2、DEG分析的常用算法/3、
3、常见DEG工具的方法介绍和相互比较
前言
做生物生理生化生信数据分析时,最常听到的肯定是“差异(表达)基因分析”了,从最开始的RT-PCR,到基因芯片microarray,再到RNA-seq,最后到现在的single cell RNA-seq,统统都在围绕着差异表达基因做文章。
(开个脑洞:再下一步应该会测细胞内特定空间内特定基因的动态表达水平了)
表达量 :我们假设基因转录表达形成的mRNA的数量反映了基因的活性,也会影响下游蛋白和代谢物的变化。我们关注的是 基因的表达 ,不是结构,也是不是isoform。
为什么差异基因分析这么流行?
一是中心法则得到了确立,基因表达是核心的一个环节,决定了下游的蛋白组和代谢组;
二是建库测序的普及,获取基因的表达水平变得容易。
在生物体内,基因的表达时刻都在动态变化,不一定服从均匀分布,在不同时间、发育程度、组织和环境刺激下,基因的表达肯定会发生变化。
差异基因分析主要应用在:
发育过程中关键基因的表达变化 - 发育研究
突变材料里什么核心基因的表达发生了变化 - 调控研究
细胞在受到药物处理后哪些基因的表达发生了变化 - 药物研发
目前我们对基因和转录组的了解到什么程度了?
基本的建库方法?建库直接决定了我们能测到什么序列,也决定了我们能做什么分析!
基因表达的normalization方法有哪些?
第一类错误、第二类错误是什么?
多重检验的校正?FDR?
10x流程解释
The mean UMI counts per cell of this gene in cluster i
The log2 fold-change of this gene's expression in cluster i relative to other clusters
The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.
The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.
The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.
The p-value is a measure of the statistical significance of the expression difference and is based on a negative binomial test. The p-value reported here has been adjusted for multiple testing via the Benjamini-Hochberg procere.
In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files proced by the pipeline.
不同单细胞DEG鉴定工具的比较
Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data
For data with a high level of multimodality, methods that consider the behavior of each indivial gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 这些工具敏感性高,就是说不会漏掉很多真的DEG,但是会包含很多假的DEG。
If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 这些工具精准性很高,意味着得到的DEG里假的很少,所以会漏掉很多真的DEG,不会引入假的DEG。
time-course DEG analysis
Comparative analysis of differential gene expression tools for RNA sequencing time course data
参考:
Question: How to calculate "fold changes" in gene expression?
Exact Negative Binomial Test with edgeR
Differential gene expression analysis
‘柒’ 从mRNA和蛋白水平来分析基因表达差异的方法有哪些
从mRNA和蛋白水平来分析基因表达差异的方法有哪些
基因的表达是DNA-RNA-蛋白,期间有转录水平调控、转录后调控、翻译后调控等多种调控机制影响该基因的表达.所以蛋白水平高低的原因就可能是多方面的.蛋白表达多,可能是mRNA多,也可能mRNA变化不大,而是翻译多了;蛋白表达少,原因亦然.从2个水平检测一个基因的表达,可以更全面地了解该基因在该组织某个时期或某种条件下的变化受到什么水平的调控.
所谓基因表达,就是从DNA到mRNA再到蛋白的一个过程,基因表达水平一般是通过该基因转录的mRNA的多少来衡量的.每个基因转录产生的mRNA的量,是受到时空等多种因素调控的,个体在不同的生长发育阶段,或者不同的组织水平,基因转录出mRNA的量都是不一样的.例如,当某种植物长期生长在高盐的环境里,该植物体内与抗盐相关的基因的表达量就会增加,以适应这种高盐环境,是植物能够生存下来,这时植物抗盐相关的基因表达水平就相对高,希望我的回答能够帮你弄清这个问题,
‘捌’ 从mRNA和蛋白水平来分析基因表达差异的方法有哪些
mrna方面,可以做表达谱芯片,如果已经落实在某几个基因上,则用rtPCR最好,当然现在也有原位做表达的一种新技术,不需要PCR过程。
蛋白水平方面,免疫印迹分析是最常用的,前提是抗体好使,其次现在也有蛋白芯片,原位的可以做免疫组化。
‘玖’ 基因分析的方法
高等真核生物的基因组一般具有80 000~100 000个基因,而每一个细胞大约只表达其中的15%〔1〕。基因在不同细胞间及不同生长阶段的选择性表达决定了生命活动的多样性,如发育与分化、衰老与死亡、内环境稳定、细胞周期调控等。比较细胞间基因表达的差异为我们揭示生命活动的规律提供了依据。
由于真核细胞 mRNA 3′端一般含有 poly( a)尾,因此现有的方法基本上都是利用共同引物将不同的 mRNA反转录成 cDNA,以 cDNA为对象研究基因表达的差异。1992年 Liang等〔2〕建立了一种差异显示反转录 pCR法( differential display reverse transcription PCR, dDRT-PCR),为检测成批基因表达的差异开辟了新天地。迄今为止已出现了大量应用该技术的研究报道〔3,4〕。然而,尽管应用 dDRT-PCR方法已经取得了不少成果,而且该方法还在不断改进之中,但它仍然存在几个难以解决的问题:(1)重复率低,至少有20%的差异条带不能被准确重复〔5〕;(2)假阳性率可以高达90%〔6〕;(3)获得的差异表达序列极少包含编码信息。近年来,针对 dDRT-PCR方法的不足,又有几种新的检测差异表达基因的方法出现,现仅就这方面的进展做一简要介绍。
1.基因表达指纹( gene expression fingerprinting, gEF): gEF技术使用生物素标记的引物 bio-T13合成 cDNA第一链,用 dGTP对其进行末端加尾,再以富含 c的引物引发合成 cDNA第二链。用限制性内切酶消化双链 cDNA,以交联有抗生物素蛋白的微球捕获 cDNA3′端,以 t4DNA连接酶连接同前述内切酶相对应的适配子,并以 bio-T13及适配子中的序列作为新的引物进行特异的 pCR扩增,得到大量的特异 cDNA片段。适配子末端被32P-dATP标记后,固定于微球上的 cDNA片段经过一系列酶切,产生的酶切片段从微球表面释放出来,其中那些含有标记末端的片段经凝胶电泳后构成 mRNA指纹图谱。通过分析不同细胞间的指纹图谱就能得到差异表达的序列〔7〕。 gEF技术所需的工作量较 dDRT-PCR明显减少,由于用酶切反应替代了条件不严格的 pCR反应,其重复性也较好,假阳性率低,并且所获得的片段中包含有一定的编码信息。 gEF技术最大的缺点在于电泳技术的局限。由于它的指纹图谱要显示在同一块电泳胶上,经过几轮酶切之后常会得到1 000~2 000条电泳带,而现有的 pAGE电泳很少能分辨超过400条带,故只有15%~30%的 mRNA能够被辨认出来,因此得到的只能是高表达基因。如果希望寻找部分新基因,这是一种比较简单有效的方法;如果希望得到有关某种细胞的基因表达谱,可能比较困难;采用双向电泳技术可能会有所帮助〔8〕。
2.基因表达系统分析( serial analysis of gene expression, sAGE): sAGE法的建立基于两条理论。首先,一段来自某个转录子确定位置的核苷酸,其长度只要有9~10个 bp,就能够特异地确认该转录子。第二,对短片段标签的链接有利于在同一克隆中对多个标签测序。 sAGE也是用生物素标记的 bio-Oligo(dT)为引物合成双链 cDNA,然后以限制酶(锚定酶)进行酶切,捕获 cDNA3′端。在此处产物被分为两部分,分别与包含有 iIS型内切酶(标签酶)位点的 a、 b连接子相接。 iIS型内切酶的特点是作用位点处于识别位点之外。这样经过酶切,就有可能得到只有9~10bp的标签序列。每两个标签的钝端结合后成为 pCR的模板,以基于 a、 b连接子的引物进行 pCR反应的结果是得到了大量每条包含两个不同来源标签的序列,接下来再用锚定酶酶切、连接,就能将多个不同的标签链接在一起(大约为每条包含数十个不同来源的标签),克隆至质粒载体中后集中测序〔9,10〕。 sAGE的最终结果是通过计算机统计得到的,根据某个标签出现频率的高低来判断并计算其所属基因表达的丰度。对于在数据库中找不到对应序列的标签,还可以利用13bp的寡核苷酸探针(9bp加上锚定酶识别位点的4bp)对 cDNA文库进行筛选,以寻找新基因。 sAGE可以检测不同细胞间已知基因表达的具体差异,精确到每个细胞中大约有多少拷贝,可以建立较全面的基因表达谱,系统地分析基因表达的差异。它的缺点在于工作量非常大,有大量的测序及计算机分析任务;而且,对于寻找新基因而言,仅用长度为13bp的寡核苷酸探针筛选 cDNA文库是很不严格的,根据我们的经验,往往是假阳性结果居多。
3 . cDNA3′端限制酶切片段显示( display of 3′ end restriction fragments of cDNAs):cDNA3′端 rFD利用带有“踵”结构的锚定 oligo(dT)引物合成 cDNA第一链,以 okayama和 berg的置换法合成 cDNA第二链,然后将双链 cDNA以限制酶消化。本方法的适配子由 a1和 a2两条寡核苷酸构成,其序列与所用限制酶识别位点相符合,先将 a2的5′端磷酸化,再加入 a1退火,就会形成一个 y型结构;把 y型适配子与酶切后的 cDNA片段相连接,以适配子及锚定引物中所含序列为特异引物进行 pCR反应,则只有 cDNA3′末端的一段被扩增出来,这时的产物可用凝胶电泳表示出来构成差异表达图谱。对于每次切割6bp的限制酶来说,每种大概只能切割8%的 cDNA,因此至少需要12种以上的限制酶才能使所有 cDNA都显示出来〔11〕。 cDNA3′端 rFD与 gEF的思路比较相似,由于它利用多种限制酶进行酶切,因此不会象 gEF因凝胶电泳分辨率不够而漏掉信息。它的重复性较好,假阳性率低,尤其是对于已知基因,可以根据选择内切酶的作用位点确定该基因在凝胶电泳中的位置并判断其含量,从而避免了进一步的分析。对于精力有限的研究人员,这可能是个值得一试的方法。 cDNA3′端 rFD方法也存在一些和 dDRT-PCR相类似的缺点,它得到的片段中包含的编码信息比较少,需要多花一些时间对所得到的差异条带进一步分析。
4.分子指数的 rNA指纹( rNA fingerprinting by molecular indexing, mI):MI是一种能够较好地显示 mRNA中编码序列的方法。它利用Ⅱ s型内切酶的作用位点在识别位点之外可以形成一个4bp的突出端的特点,设计43共64种(最外侧一个核苷酸随机)适配子,使得获取编码序列片段成为可能。首先是以常规方法合成双链 cDNA,用Ⅱ类限制酶进行酶切后连接5′端磷酸化的相应适配子,再以Ⅱ s类
‘拾’ 从mRNA和蛋白水平来分析基因表达差异的方法有哪些
从mRNA和蛋白水平来分析基因表达差异的方法有哪些
基因的表达是DNA-RNA-蛋白,期间有转录水平调控、转录后复调控、翻译后调控等多种调控机制影响该基因的表达.所以蛋白水平高低的原因就可能是多方面的.蛋白表达多,可能是mRNA多,也可能mRNA变化不大,而是翻译多了;蛋白表达少制,原因亦然.从2个水平检测一个基因的表达,可以更全面地了解该基因在该组织某个时期或某种条件下的变化受到什么水平的调控.
所谓基因表达,就是从DNA到mRNA再到蛋白的一个过程,基因表达水平一般是通过百该基因转录的mRNA的多少来衡量的.每个基因转录产生的mRNA的量,是受到时空等多种因素调控的,个体在不同的生长发育阶段,或者不同的组织水平,基因转录出mRNA的量都是不一样的.例如,当某种植物长期生长在高度盐的环境里,该植物体内与抗盐相关的基因的表达量就会增加,以适应这种高盐环境,是植物能够生存下来,这时植物抗盐相关的基因表达水平就相对高,希望我的回答能够帮你弄清这个问题,