导航:首页 > 研究方法 > 基因表达差异分析方法

基因表达差异分析方法

发布时间:2022-12-12 06:24:51

1. 转载--基因表达水平及差异表达分析

<meta charset="utf-8">

基因表达水平分析

一个基因表达水平的直接体现就是其转录本的丰度情况,转录本丰度越高,则基因表达水平越高。在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的测序序列(reads)的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了FPKM的概念,FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百万fragments中来自某一基因每千碱基长度的fragments数目,其同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法(Trapnell, Cole, et al., 2010)。

差异表达分析

通过所有基因的FPKM分布图以及盒形图对不同实验条件下的基因表达水平进行比较。对于同一实验条件下的重复样品,最终的FPKM为所有重复数据的平均值。

基因差异表达的输入数据为基因表达水平分析中得到的readcount数据。对于有生物学重复的样品,我们采用DESeq(Anders et al, 2010)进行分析:

分析方法基于的模型是负二项分布,第 i 个基因在第 j 个样本中的 read count 值为Kij,则有Kij ~ NB(µij,σij2)

对于无生物学重复的样品,先采用TMM对read count数据进行标准化处理,之后用DEGseq进行差异分析。差异表达基因列表如下:

用火山图可以推断差异基因的整体分布情况,对于无生物学重复的实验,为消除生物学变异,从差异倍数和显着水平两个方面进行评估,对差异基因进行筛选,

阈值设定一般为: |log2(FoldChange)| > 1 且 qvalue < 0.005。对于有生物学重复的实验,由于DESeq已经进行了生物学变异的消除,我们对差异基因筛选的标准一般为:
padj < 0.05。

差异基因维恩图

差异基因维恩图展示了各比较组间差异基因的个数,以及比较组间的重叠关系。

差异基因聚类分析

聚类分析用于判断差异基因在不同实验条件下的表达模式;通过将表达模式相同或相近的基因聚集成类,从而识别未知基因的功能或已知基因的未知功能;因为这些同类的基因可能具有相似的功能,或是共同参与同一代谢过程或细胞通路。以不同实验条件下的差异基因的FPKM值为表达水平,做层次聚类(hierarchical clustering)分析,不同颜色的区域代表不同的聚类分组信息,同组内的基因表达模式相近,可能具有相似的功能或参与相同的生物学过程。

2. 💉🈯[生信基础知识]几种常用的差异表达基因识别方法FC,T检验,SAM

目前常用的几款差异表达进识别方法有:FC、T检验、SAM等

FC(Fold Change) 算法是最早用于识别 两种 不同的实验条件下基因表达水平存在差异的算法,其算法的原理是计算基因在两类样本中平均表达水平的倍数值,若该值达到预先设定的阈值(一般设置为2,在以2为底的对数表达比中为大于1或小于-1),则判定基因为差异表达(DE,different expression)基因,计算公式如下,其中,mean(X(i))与mean(Y(i))代表基因 i 在两类样本中的平均表达值:

在很多实际应用中,常常有人把FC值做log2转换,log2fc 值相较于fc的有点在于:log2fc的值有正负值之分,很容易看出2个group之间的上下调关系>
关于limma包差异分析结果的logFC解释

t检验(t-test) ,常用来识别两类样本中DE基因的算法。其主要原理为:对每一个基因计算一个t统计量来衡量两类样本中基因表达的差异,然后根据t分布计算显着性p值来衡量这种差异的显着性。计算公式如下,其中,分子代表基因i在两类样本中的平均表达差值,分母代表基因i在所有样本中的标准误:

由于t检验要求数据呈现正太分布,所以公式中基因的表达值为测量值经过标准化后的值,反应的是两类样本间基因表达的倍数变化,也存在FC方法同样的偏向性。此外,对基础表达量低的基因来说,一个微小变异程度(标准误)可能导致一个大的绝对t统计值,从而被识别为DE基因,即使在两类条件下这个基因的平均表达水平的差异很小。低表达的基因比高表达的基因更容易产生大的t统计量。已有研究指出,数据的信噪比会随着基因表达量的增高而降低,这就意味着,低表达的基因更容易受到噪声的影响而产生误差。因此,t检验同样倾向于识别表达水平低的基因作为DE基因。

SAM(Significance analysis of microarrays) 算法用于微阵列基因表达谱数据识别DE基因 。SAM算法与t检验相似,但为了使具有较小标准误的基因不会被误判为DE基因,SAM在t统计量的分母中增加了校正值,提高了t检验的稳定性。计算公式如下,其中S0 为样本残差标准误的校正值:

上还有一些关于差异表达的文章,你可以也看看
【r<-生信|实战】用方差分析差异表达基因
基因芯片(Affymetrix)分析3:获取差异表达基因
差异表达基因
差异表达分析图标结果释义

1.赵发林, 闫晓光, 李康. 几种差异基因分析方法及筛选效果的比较[J]. 中国卫生统计, 2008, 25(4):354-356.
2.黄海燕 基于可重复性评价识别与癌相关的高表达基因

3. 从mRNA和蛋白水平来分析基因表达差异的方法有哪些

从mRNA和蛋白水平来分析基因表达差异的方法有哪些
基因的表达是DNA-RNA-蛋白,期间有转录水平调控、转录后复调控、翻译后调控等多种调控机制影响该基因的表达.所以蛋白水平高低的原因就可能是多方面的.蛋白表达多,可能是mRNA多,也可能mRNA变化不大,而是翻译多了;蛋白表达少制,原因亦然.从2个水平检测一个基因的表达,可以更全面地了解该基因在该组织某个时期或某种条件下的变化受到什么水平的调控.
所谓基因表达,就是从DNA到mRNA再到蛋白的一个过程,基因表达水平一般是通过百该基因转录的mRNA的多少来衡量的.每个基因转录产生的mRNA的量,是受到时空等多种因素调控的,个体在不同的生长发育阶段,或者不同的组织水平,基因转录出mRNA的量都是不一样的.例如,当某种植物长期生长在高度盐的环境里,该植物体内与抗盐相关的基因的表达量就会增加,以适应这种高盐环境,是植物能够生存下来,这时植物抗盐相关的基因表达水平就相对高,希望我的回答能够帮你弄清这个问题,

4. 怎么判断差异表达的基因

真核生物中,从个体的生长、发育、衰老、死亡,到组织的得化、调亡以及细胞对各种生物、理化因子的应答,本质上都涉及基因的选择性表达。高等生物大约有30000个不同的基因,但在生物体内任意8细胞中只有10%的基因的以表达,而这些基因的表达按特定的时间和空间顺序有序地进行着,这种表达的方式即为基因的差异表达。其包括新出现的基因的表达与表达量有差异的基因的表达。生物体表现出的各种特性,主要是由于基因的差异表达引起的。
由于基因的差异表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理条件下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。研究基因差异表达的主要技术有差别杂交(differential hybridization)、扣除(消减)杂交(subtractive hybridization of cDNA,SHD)、mRNA差异显示(mRNA differential display, DD)、抑制消减杂交法(suppression subtractive hybridization,SSH)、代表性差异分析(represential display analysis,RDA)、交互扣除RNA差别显示技术(reciprocal subtraction differential RNA display)、基因表达系列分析(serial analysis of gene expression,SAGE)、电子消减(electronic subtraction)和DNA微列阵分析(DNA microarray)等。
一、差别杂交与扣除杂交
差别杂交(differential hybridization)又叫差别筛选(differential screening),适用于分离经特殊处理而被诱发表达的mRNA的cDNA克隆。为了增加这种方法的有效性,后来又发展出了扣除杂交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通过构建扣除文库(subtractive library)得以实现的。
(一)差别杂交
从本质上讲,差别杂交也是属于核酸杂交的范畴。它特别适用于分离在特定组织中表达的基因、在细胞周期特定阶段表达的基因、受生长因子调节的基因、以及在特定发育阶段表达的或是参与发育调节的基因,同时亦可有效地用来分离经特殊处理而被诱发表达的基因。目前,差别杂交筛选法在克隆基因的分离工作中有着相当广泛的用途。
差别杂交的技术基础十分简单,它不需要任何有关的目的基因的核苷酸序列信息,而重要的是耍拥有两种不同的细胞群体:在一个细胞群体中目的基因正常表达,在另一个细胞群体中目的基因不表达。在这种情况下便可制备到两种不同的mRNA提取物。其一是含有一定比例的目的基因mRNA类型的总mRNA群体,其二是不含有目的基因mRNA类型的总mRNA群体。因此,可以通过这两种总mRNA(或是它们的cDNA拷贝)为探针的平行杂交,对由表达目的基因的细胞总mRNA构建的克隆库进行筛选。当使用存在目的基因的mRNA探针时,所有包含着重组体的菌落都呈阳性反应,在X光底片上呈现黑色斑点,而使用不存在目的基因的mRNA探针时,除了含有目的基因的菌落外,其余的所有菌落都呈阳性反应,在X光底片上呈现黑色斑点。比较这两种底片并对照原平板,便可以挑选出含目的基因的菌落,供作进一步研究使用。
差别杂交筛选技术已被成功地用于分析爪蟾和粘菌的发育问题。这两个应用例子表明,处于不同发育状态或阶段的丰度相差5倍的特异的mRNA种是能够被检测出来的。生长因子调节基因(growth factor-regulated gene)的克隆,是差别杂交成功应用的一个典型例子。我们知道,血清中含有生长因子,因此用血清处理处于静止期的细胞时,便会迅速诱发生长因子调节基因进行表达。所以,分别从静止期细胞培养物和经血清激活3小时的细胞培养物中提取的poly(A)mRNA制剂,在mRNA种类上是有差别的,至少后者比前者多出了一种生长因子调节基因的mRNA类型。用从激活细胞中分离的poly(A)mRNA反转录合成的cDNA与λ噬菌体载体重组,构成cDNA文库,并同时复制两份硝酸纤维素滤膜。A组滤膜同血清激活细胞制备的cDNA探针杂交,B组滤膜同静止期细胞制备的cDNA探针杂交。将所得的放射自显影图片进行仔细的比较,从中鉴定出只同激活细胞探针杂交而不能同静止期细胞探针杂交的噬菌斑位置。这些克隆便有可能是带有受血清诱发表达的生长因子调节基因的DNA编码序列。
(二)扣除杂交
差别杂交可有效地对于因特殊处理而被诱发产生的mRNA的cDNA克隆的分离,或是在细胞中具高表达效率的mRNA之cDNA克隆的分离,但对于低丰度的mRNA的cDNA克隆的分离则有相当的困难。为了进一步提高差别杂交的筛选效率,一种切实可行的办法是应用扣除杂交筛选法构建富含目的基因序列的cDNA文库。
扣除杂交法的本质是除去那些普遍共同存在的、或是非诱发产生的cDNA序列,从而使待分离的目的基因的序列得到有效的富集,提高了分离的敏感性。下面以T细胞受体(T-cell receptor,TCR有时亦称之为T细胞抗原受体)编码基因的分离为例子,说明扣除杂交筛选法的基本原理与简要过程。T细胞和B细胞来自共同的前体细胞,两者都能够识别特异的抗原。但与B细胞不同,T细胞不能识别游离的抗原,而只能识别在其它细胞表面的抗原。T细胞的这种抗原识别特异性是由TCR基因决定的。TCR基因只能在T细胞中表达,而不能在B细胞中表达。那么从T细胞mRNA制备来的单链cDNA,同大大超量的B细胞的mRNA在有利于发生DNA-RNA杂交的条件下保温,其结果会是所有的能够在T和B两类细胞中同时表达的T细胞基因的cDNA分子(约占98%),都能与B细胞的mRNA退火形成DNA-RNA杂交分子,而不能在B细胞中表达的、T细胞特有的cDNA(约占2%),由于B细胞中没有相应的mRNA,故不能形成DNA-RNA杂交分子,仍然处于单链的状态。将此种杂交混合物通过羟基磷灰石柱(hydroxylapatite column),于是DNA-RNA杂交分子便结合在柱上,而游离的单链cDNA则过柱流出。回收到的T细胞特异的cDNA被转变为双链cDNA之后,与适当的λ噬菌体载体重组并转染给大肠杆菌寄主细胞,这样便得到了T细胞特异cDNA高度富集的扣除文库。然后再按照同样方法制备扣除的cDNA探针,即被B细胞mRNA杂交扣除了的T细胞特异的cDNA探针,筛选文库,可成功地分离到了T细的TCR基因。
扣除杂交法同样也可以用来分离缺失突变基因。从野生型植株制备的染色体总DNA,用一种适当的核酸内切限制酶(比如Sau3A)切割成小片段。同时从缺失突变体植株制备的染色体总DNA,经随机切割之后,用生物素(biotin)进行标记,作为非同位素标记探针使用。取大大超量的此种探针,同Sau3A酶切的野生型染色体总DNA片段混合,经变性、退火处理,溶液中的无生物素标记的野生型的DNA分子便同生物素标记的突变型的DNA探针杂交。将杂交反应混合物通过生物素结合蛋白质柱(avidin column)。这种柱是用包裹着生物素结合蛋白质的专用的细小磁珠装填的。大部分野生型植株的DNA分子都同突变型植株的生物素标记的DNA探针杂交,便被结合到柱上。而野生型植株的DNA片段由于在突变型DNA中缺失了相应的片段,故没有相应的生物素标记的探针与之杂交,经洗脱便过柱流出。随后将洗脱收集的DNA同超量的生物素标记探针再杂交,再过柱。如此经过多次重复富集之后,用PCR法扩增DNA片段,并予以克隆。最后用Southern杂交法进一步鉴定出,只同野生型DNA杂交而不能同突变型DNA杂交的含有突变基因的阳性克隆。

5. 基因表达谱分析方法

表达谱案例分析
肺癌组织的表达谱分析:选取 2 个肺癌病人( 5T 和 10T)的组织提取总 RNA,进 行分析。
实验目的:为了检测两个病人中表达差异较大的基因, 以便找出两个病人症状差 异的原因,并进行下一步相关的研究。
1、 数据质量的概述
通过严格的质量标准筛选后, 通过率达到 80%,最终得到 500 万左右的 Tag标签。
2、 标签的初步分析统计
两个样品中有 95%的 Tag重复频度超过 1,73%以上的 Tag重复频度超过 50。
3、 表达谱测序饱和度分析
通过对表达谱测序饱和度的分析,通常在表达谱 Tag数目达到 200 万时,测序 Tag接近饱和。因此,通过 Solexa 测序,仅需要 1次试验,就可以得到足够后 续进行表达分析的数据。
4、 样品重复性。
5、 Tag 标签的注释(含 cDNA,预测基因, EST,线粒体基因组,基因组等)
本案例中,人的 2 万 7 千个基因中有 50~60%都被 Tag所覆盖。即一般的基因的 表达量差异被检测出来。 为了提高 Tag同基因关联的可信度, 我们仅仅选取了在 基因序列中唯一定位的 Tag。这部分唯一定位的 Tag占全部 Tag数目的 50%左右。
另外,除去上述用于基因表达量统计的唯一定位 Tag,有大约 20%的 Tag 被定位 到了基因组的未注释区域, 其中大约有 10万个 Tag在基因组上的位置是唯 一的。 利用这些数据我们找到了许多新的转录本和调控区域。 同时发现了若干潜在的两 个样品间显着差异的区域。为后续的实验提供了可靠的研究目标。
6、 参考 Tag标签的统计分析
下表显示的人的参考 Tag 的统计信息,我们可以看到 96.53%的基因都拥有 Tag。 说明 Tag-based 新一代测序技术的方法进行表达谱分析的可行性
7、 基因表达量的分布统计
8、 样本间表达差异基因的相关分析
通过对表达差异基因的统计和分析,我们可以选取样品间表达存在差异的基因, 反馈给用户; 此外一些已经报道可能相关的基因, 是这一部分研究的重点, 通过 表达差异,我们可以推测出相关基因可能发生的变化。针对此例,图 3-3 中 2 个基因是已经报道的在 10T样品中高表达的基因。
9、 样本间表达差异基因的信号通路相关分析
对差异表达基因进行功能分析和信号通路分析。 结合样本性状差异, 鉴定与性状 关联的候选基因,以便通过进一步实验验证。
10、 根据 Tag距离 3’端的位置对 tag 和基因数目进行的统计分析

6. 差异基因检测方法

差异基因的检测方法很多,但生物学家偏好使用的是fold change(FC)和t-test。猜测因为一是它们比较简单,二来好解释。很多研究表明,改进的t-test可以提高top gene list的质量。现在简单的说一下原理

指两个组group之间每个gene平均值在log2水平的差异。
FC=3=log2A-log2B=log(A/B)
所以,A/B=2^3=8
这样有一个缺点就是高的FC并非真正的差异,而是来自变异,并无生物学意义。
值得注意的是,基于FC的gene list比基于t-test的可重复性强,但这不代表着更准确。
所以,如果关注基因表达的绝对变化,则看FC
如果关注潜在的噪音,则用t-test。
也就是说,FC只考虑到组间差异,二未考虑组内变异。

差异性=signal/noise,期中signal即为组间变异,二noise为组内变异
groupA和groupB的差异XA均值-XB均值,这个同FC的M均值。受3个因素影响
(1)Fold change(M均值):M均值越大,t值越大,也就是说signal大
(2)Variance(s):s越小,t越小,就是组内差异大,即noise大
(3)sample size(n):n越大,t越大,即M均值和s同样的情况下,n越大,结果越精确。

上面可以看出,即使FC不大,但s值足够小,也会有大的t值,所以引入惩罚t-test。初衷是避免将表达水平和变异程度较低的无生物学意义的gene识别为差异gene。

其中,s0是个小的正数。引入s0消除s过小
可见,若S小,则S0作用大,反之,S大,S0作用小。
芯片分析中的SAM(significant analysis of microarrays)即这种方法。
步骤
(1)samples在AB之间随机打乱重拍1000次,d-value依次计算,这些d-value的均值作为整个gene的d-value,观察到的d-value偏离期望d-value越大,越可能是真正的差异gene。
(2)随着作者的cut off(德尔塔value)被选择,需要权衡差异基因数目和假阳性结果的数目(FDR).

继而,有基于贝叶斯理论的moerated t-test。也是最常用的。

包括贝叶斯模型,支持向量或随机森林。

7. 怎么判断差异表达的基因

判断差异表达的基因常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两个条件下的 Ratio 值,若大于给定阈值,则为表达差异显着的基因;第二类方法采用统计分析中的 t 检验和方差分析,计算表达差异的置信度,来分析差异是否具有统计显着性;第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显着性,例如贝叶斯方法。

8. 差异分析

基因的差异表达,即发现一组在正常样本和患病样本中表达不同的基因。

最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值(癌症和正常),确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。

最常用的T-test、ANOVA(方差分析)或者称为F检验。

T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。

SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM 方法检验差异表达,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。SAM方法以q-value< 0.05作为筛选差异表达基因的标准,从公式上来看,p-value和q-value较为相似,而差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显着基因的假阳性率(p-value较小)可能会较大,而 q-value FDR值较常见的BH校正方法 得到的FDR值而言,改进了其对假阳性估计的保守性。

火山图可反映总体基因的表达情况, 横坐标代表log2(Fold Change),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达, 图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。

聚类图可以衡量 样本或基因之间表达的相似性 。 如上图所示的聚类图中, 横坐标代表样本聚类 ,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推。 纵坐标代表基因聚类 ,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推。 色阶代表基因表达丰度 ,越红代表上调得越明显,越绿代表下调得越明显。

REF:
https://www.jianshu.com/p/b55276e46f0c

https://blog.csdn.net/u012325865/article/details/87344725

http://college.gcbi.com.cn/archives/1616

https://www.cnblogs.com/leezx/p/7132099.html

9. 差异表达基因分析:差异倍数(fold change), 差异的显着性(P-value)

Differential gene expression analysis:差异表达基因分析

Differentially expressed gene (DEG):差异表达基因

差异表达分析是目前比较常用的识别疾病相关miRNA以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change方法。

它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显着性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change的计算公式如下:

即用疾病样本的表达均值除以正常样本的表达均值。

差异表达分析的目的: 识别两个条件下表达差异显着的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T检验(T-test)方法来寻找差异表达的miRNA。T检验的主要原理为:对每一个miRNA计算一个T统计量来衡量疾病与正常情况下miRNA表达的差异,然后根据t分布计算显着性p值来衡量这种差异的显着性,T统计量计算公式如下:

差异倍数(fold change)

fold change翻译过来就是倍数变化,假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞).

为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。

当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;

当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。

通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1). 【需要一点对数函数的基础知识】

为什么不直接用表达之差,差值接有正负啊?

假设A表达为1,B表达为8,C表达为64;直接用差值,B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3. 

通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适, 用log2 fold change更能表示相对的变化趋势。

虽然大家都在用log2 fold change,但显然也是有缺点的:

一、到底是5到10的变化大,还是100到120的变化大?

二、5到10可能是由于技术误差导致的。所以当基因总的表达值很低时,log2 fold change的可信度就低了,尤其是在接近0的时候。

A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.

差异的显着性(P-value) 

这就是统计学的范畴了,显着性就是根据假设检验算出来的。

假设检验首先必须要有假设,我们假设A和B的表达没有差异(H0,零假设),然后基于此假设,通过t test(以RT-PCR为例)算出我们观测到的A和B出现的概率,就得到了P-value, 如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A和B的表达不一样,即有显着差异。

显着性只能说明我们的数据之间具有统计学上的显着性,要看上调下调必须回去看差异倍数。

对于得到的显着性p值,我们需要进行多重检验校正(FDR),比较常用的是BH方法(Benjamini and Hochberg, 1995)。

这里只说了最基本的原理,真正的DESeq2等工具里面的算法肯定要复杂得多。

这张图对q-value(校正了的p-value)取了负log,相当于越显着,负log就越大,所以在火山图里,越外层的岩浆就越显着,差异也就越大。

只需要看懂DEG结果的可以就此止步,想深入了解的可以继续。

下面可以继续讨论的问题有:

1、RNA-seq基本分析流程/2、

2、DEG分析的常用算法/3、

3、常见DEG工具的方法介绍和相互比较

前言

做生物生理生化生信数据分析时,最常听到的肯定是“差异(表达)基因分析”了,从最开始的RT-PCR,到基因芯片microarray,再到RNA-seq,最后到现在的single cell RNA-seq,统统都在围绕着差异表达基因做文章。

(开个脑洞:再下一步应该会测细胞内特定空间内特定基因的动态表达水平了)

表达量 :我们假设基因转录表达形成的mRNA的数量反映了基因的活性,也会影响下游蛋白和代谢物的变化。我们关注的是 基因的表达 ,不是结构,也是不是isoform。

为什么差异基因分析这么流行?

一是中心法则得到了确立,基因表达是核心的一个环节,决定了下游的蛋白组和代谢组;

二是建库测序的普及,获取基因的表达水平变得容易。

在生物体内,基因的表达时刻都在动态变化,不一定服从均匀分布,在不同时间、发育程度、组织和环境刺激下,基因的表达肯定会发生变化。

差异基因分析主要应用在:

发育过程中关键基因的表达变化 - 发育研究

突变材料里什么核心基因的表达发生了变化 - 调控研究

细胞在受到药物处理后哪些基因的表达发生了变化 - 药物研发

目前我们对基因和转录组的了解到什么程度了?

基本的建库方法?建库直接决定了我们能测到什么序列,也决定了我们能做什么分析!

基因表达的normalization方法有哪些?

第一类错误、第二类错误是什么?

多重检验的校正?FDR?

10x流程解释

The mean UMI counts per cell of this gene in cluster i

The log2 fold-change of this gene's expression in cluster i relative to other clusters 

The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.

The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.

The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.

The p-value is a measure of the statistical significance of the expression difference and is based on a negative binomial test. The p-value reported here has been adjusted for multiple testing via the Benjamini-Hochberg procere.

In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files proced by the pipeline.

不同单细胞DEG鉴定工具的比较

Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data

For data with a high level of multimodality, methods that consider the behavior of each indivial gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 这些工具敏感性高,就是说不会漏掉很多真的DEG,但是会包含很多假的DEG。

If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 这些工具精准性很高,意味着得到的DEG里假的很少,所以会漏掉很多真的DEG,不会引入假的DEG。

time-course DEG analysis

Comparative analysis of differential gene expression tools for RNA sequencing time course data 

参考:

Question: How to calculate "fold changes" in gene expression?

Exact Negative Binomial Test with edgeR

Differential gene expression analysis

10. 检测基因表达水平差异的方法有哪些

基因的表达是dna-rna-蛋白,期间有转录水平调控、转录后调控、翻译后调控等多种调控机制影响该基因的表达.

所以蛋白水平高低的原因就可能是多方面的.蛋白表达多,可能是mrna多,也可能mrna变化不大,而是翻译多了;蛋白表达少,原因亦然.

从2个水平检测一个基因的表达,可以更全面地了解该基因在该组织某个时期或某种条件下的变化受到什么水平的调控.

所谓基因表达,就是从dna到mrna再到蛋白的一个过程,基因表达水平一般是通过该基因转录的mrna的多少来衡量的.

每个基因转录产生的mrna的量,是受到时空等多种因素调控的,个体在不同的生长发育阶段,或者不同的组织水平,基因转录出mrna的量都是不一样的.

例如,当某种植物长期生长在高盐的环境里,该植物体内与抗盐相关的基因的表达量就会增加,以适应这种高盐环境,是植物能够生存下来,这时植物抗盐相关的基因表达水平就相对高

检测基因表达的方法:

转录水平检测:rt-pcr,real-time pcr,northern blot

翻译水平检测:western blot

还有直接检测,如报告基因、融合荧光蛋白等。

rt-pcr是反转录pcr,是半定量方式。real-time pcr可以精确定量。 二者不同。后者为了区别于rt-pcr,一般不缩写。

各位观众老爷们大家好!我是吆五,打算从今以后不定期分享一些生物类的专业知识。

一方面供自己学习积累,另一方面也希望对大家有所帮助。

生物是很枯燥的呢

阅读全文

与基因表达差异分析方法相关的资料

热点内容
中式棉袄制作方法图片 浏览:57
五菱p1171故障码解决方法 浏览:853
男士修护膏使用方法 浏览:540
电脑图标修改方法 浏览:602
湿气怎么用科学的方法解释 浏览:533
910除以26的简便计算方法 浏览:800
吹东契奇最简单的方法 浏览:699
对肾脏有好处的食用方法 浏览:92
电脑四线程内存设置方法 浏览:509
数字电路通常用哪三种方法分析 浏览:10
实训课程的教学方法是什么 浏览:522
苯甲醇乙醚鉴别方法 浏览:79
苹果手机微信视频声音小解决方法 浏览:697
控制箱的连接方法 浏览:72
用什么简单的方法可以去痘 浏览:786
快速去除甲醛的小方法你知道几个 浏览:800
自行车架尺寸测量方法 浏览:121
石磨子的制作方法视频 浏览:149
行善修心的正确方法 浏览:402
薯仔炖鸡汤的正确方法和步骤 浏览:275