基因是遗传的基本单元,携带有遗传信息的DNA或RNA序列,通过复制,把遗传信息传递给下一代,指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表达。基因检测是通过血液、其他体液、或细胞对DNA进行检测的技术,是取被检测者外周静脉血或其他组织细胞,扩增其基因信息后,通过特定设备对被检测者细胞中的DNA分子信息作检测,分析它所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法,从而使人们能了解自己的基因信息,明确病因或预知身体患某种疾病的风险。
基因检测可以诊断疾病,也可以用于疾病风险的预测。疾病诊断是用基因检测技术检测引起遗传性疾病的突变基因。应用最广泛的基因检测是新生儿遗传性疾病的检测、遗传疾病的诊断和某些常见病的辅助诊断。
一般有三种基因检测方法:生化检测、染色体分析和DNA分析。
1.生化检测
生化检测是通过化学手段,检测血液、尿液、羊水或羊膜细胞样本,检查相关蛋白质或物质是否存在,确定是否存在基因缺陷。用于诊断某种基因缺陷,这种缺陷是因某种维持身体正常功能的蛋白质不均衡导致的,通常是检测测试蛋白质含量。还可用于诊断苯丙酮尿症等。
2.染色体分析
染色体分析直接检测染色体数目及结构的异常,而不是检查某条染色体上某个基因的突变或异常。通常用来诊断胎儿的异常。
常见的染色体异常是多一条染色体,检测用的细胞来自血液样本,若是胎儿,则通过羊膜穿刺或绒毛膜绒毛取样获得细胞。将之染色,让染色体凸显出来,然后用高倍显微镜观察是否有异常。
3.DNA分析
DNA分析主要用于识别单个基因异常引发的遗传性疾病,如亨廷顿病等。DNA分析的细胞来自血液或胎儿细胞。
基因检测可以分为以下五类:
1.基因筛检
主要是针对特定团体或全体人群进行检测。大多数通过产前或新生儿的基因检测以达到筛检的目的。
2.生殖性基因检测
在进行体外人工授精阶段可运用,筛检出胚胎是否带有基因变异,避免胎儿患有遗传性疾病。
3.诊断性检测
多数用来协助临床用药指导。
4.基因携带检测
基因携带者如果与某些特殊基因相结合,可能会导致下一代患基因疾病,通过基因携带者的检测可筛检出此种可能,作为基因携带者婚前检查、生育时的参考。
5.症状出现前的检测
检测目的是了解健康良好者是否带有某种突变基因,而此基因与特定疾病的发生有密切的联系。
临床意义
1.用于疾病的诊断
如对结核杆菌感染的诊断,以前主要依靠痰、粪便或血液培养,整个检验流程需要在两周以上,采用基因诊断的方法,不仅敏感性大大提高,而且在短时间内就能得到结果。
2.了解自身是否有家族性疾病的致病基因,预测患病风险
资料证实10%~15%的癌症与遗传有关,糖尿病、心脑血管疾病等多种疾病都与遗传因素有关。如具有癌症或多基因遗传病(如老年痴呆、高血压、糖尿病等)的人可找出致病的遗传基因,就能够有针对性地调整生活方式,预防或者延缓疾病的发生。
3.正确选择药物,避免滥用药物和药物不良反应
由于个体遗传基因上的差异,不同的人对外来物质产生的反应也会有所不同,因此部分患者使用正常剂量的药物时,可能会出现药物过敏、红肿发疹的现象。根据基因检测的结果,可制定特定的治疗方案,从而科学地指导使用药物,避免药物毒副反应。
‘贰’ 2-△△ct如何进行差异性检验
可以采用轮圆以下步骤:
1、确认实验目的和研究问题:确定需要比较的实验组和对照组,以及目标基因和参考基因等关键信息。
2、进行实验操作和数据收集:按照qPCR实验流程进行样品处理、RNA提取、cDNA合成、荧光定量PCR反应腊橡塌等操作,并记录每个样品的Ct值和反应曲线数据。
3、计算ΔCt和ΔΔCt:根据实验数据,计算每个样品的ΔCt值和ΔΔCt值,即实验组与对照组的Ct值差异和ΔCt值之间的差异。
4、进行差异性分析:根据ΔΔCt值,使如贺用统计学方法进行差异性分析,比较实验组和对照组在目标基因表达水平上的差异是否显着。常见的统计学方法包括t检验、方差分析(ANOVA)、非参数检验等。
‘叁’ 💉🈯[生信基础知识]几种常用的差异表达基因识别方法FC,T检验,SAM
目前常用的几款差异表达进识别方法有:FC、T检验、SAM等
FC(Fold Change) 算法是最早用于识别 两种 不同的实验条件下基因表达水平存在差异的算法,其算法的原理是计算基因在两类样本中平均表达水平的倍数值,若该值达到预先设定的阈值(一般设置为2,在以2为底的对数表达比中为大于1或小于-1),则判定基因为差异表达(DE,different expression)基因,计算公式如下,其中,mean(X(i))与mean(Y(i))代表基因 i 在两类样本中的平均表达值:
在很多实际应用中,常常有人把FC值做log2转换,log2fc 值相较于fc的有点在于:log2fc的值有正负值之分,很容易看出2个group之间的上下调关系>
关于limma包差异分析结果的logFC解释
t检验(t-test) ,常用来识别两类样本中DE基因的算法。其主要原理为:对每一个基因计算一个t统计量来衡量两类样本中基因表达的差异,然后根据t分布计算显着性p值来衡量这种差异的显着性。计算公式如下,其中,分子代表基因i在两类样本中的平均表达差值,分母代表基因i在所有样本中的标准误:
由于t检验要求数据呈现正太分布,所以公式中基因的表达值为测量值经过标准化后的值,反应的是两类样本间基因表达的倍数变化,也存在FC方法同样的偏向性。此外,对基础表达量低的基因来说,一个微小变异程度(标准误)可能导致一个大的绝对t统计值,从而被识别为DE基因,即使在两类条件下这个基因的平均表达水平的差异很小。低表达的基因比高表达的基因更容易产生大的t统计量。已有研究指出,数据的信噪比会随着基因表达量的增高而降低,这就意味着,低表达的基因更容易受到噪声的影响而产生误差。因此,t检验同样倾向于识别表达水平低的基因作为DE基因。
SAM(Significance analysis of microarrays) 算法用于微阵列基因表达谱数据识别DE基因 。SAM算法与t检验相似,但为了使具有较小标准误的基因不会被误判为DE基因,SAM在t统计量的分母中增加了校正值,提高了t检验的稳定性。计算公式如下,其中S0 为样本残差标准误的校正值:
上还有一些关于差异表达的文章,你可以也看看
【r<-生信|实战】用方差分析差异表达基因
基因芯片(Affymetrix)分析3:获取差异表达基因
差异表达基因
差异表达分析图标结果释义
1.赵发林, 闫晓光, 李康. 几种差异基因分析方法及筛选效果的比较[J]. 中国卫生统计, 2008, 25(4):354-356.
2.黄海燕 基于可重复性评价识别与癌相关的高表达基因
‘肆’ 怎么判断差异表达的基因
判断差异表达的基因常用的分析方法有三类,第一类称之为倍数分析,计算每一个基因在两个条件下的
ratio
值,若高歼桥大于给定阈值,则为表达差异显着的基因;第二类方法采用统计分析中的
t
检验和方差分析戚猛,计算表达差异的置信度,来分析差异是否具有统计改脊显着性;第三类是建模的方法,通过确定两个条件下的模型参数是否相同来判断表达差异的显着性,例如贝叶斯方法。
‘伍’ 差异分析
基因的差异表达,即发现一组在正常样本和患病样本中表达不同的基因。
最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值(癌症和正常),确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。
最常用的T-test、ANOVA(方差分析)或者称为F检验。
T-test 检验是差异基因表达检测中常用的统计方法,通过合并样本间可变的数据,来评价差异表达,用于判断某一基因在两个样本中是否有差异表达。由于芯片实验成本较高,样本量较少,从而对总体方差的估计不很准确,T检验的检验效能降低。
SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM 方法检验差异表达,通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。根据文献记载,相比较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。SAM方法以q-value< 0.05作为筛选差异表达基因的标准,从公式上来看,p-value和q-value较为相似,而差异筛选是一个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显着基因的假阳性率(p-value较小)可能会较大,而 q-value 和 FDR值较常见的BH校正方法 得到的FDR值而言,改进了其对假阳性估计的保守性。
火山图可反映总体基因的表达情况, 横坐标代表log2(Fold Change),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达, 图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。
聚类图可以衡量 样本或基因之间表达的相似性 。 如上图所示的聚类图中, 横坐标代表样本聚类 ,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推。 纵坐标代表基因聚类 ,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推。 色阶代表基因表达丰度 ,越红代表上调得越明显,越绿代表下调得越明显。
REF:
https://www.jianshu.com/p/b55276e46f0c
https://blog.csdn.net/u012325865/article/details/87344725
http://college.gcbi.com.cn/archives/1616
https://www.cnblogs.com/leezx/p/7132099.html
‘陆’ 基因差异表达分析方法
问题一:怎么判断差异表达的基因 判断差异表达的基因:
不同基因控制合成的蛋白质不同,蛋白质不同表现的生物性状就不同,从而表达出了差异.
问题二:怎么判断差异表达的基因 真核生物中,从个体的生长、发育、衰老、死亡,到组织的得化、调亡以及细胞对各种生物、理化因子的应答,本质上都涉及基因的选择性表达。高等生物大约有30000个不同的基因,但在生物体内任意8细胞中只有10%的基因的以表达,而这些基因的表达按特定的时间和空间顺序有序地进行着,这种表达的方式即为基因的差异表达。其包括新出现的基因的表达与表达量有差异的基因的表达。生物体表现出的各种特性,主要是由于基因的差异表达引起的。
由于基因的差异表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理条件下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。研究基因差异表达的主要技术有差别杂交(differential hybridization)、扣除(消减)杂交(subtractive hybridization of cDNA,SHD)、mRNA差异显示(mRNA differential display, DD)、抑制消减杂交法(suppression subtractive hybridization,SSH)、代表性差异分析(represential display *** ysis,RDA)、交互扣除RNA差别显示技术(reciprocal subtraction differential RNA display)、基因表达系列分析(serial *** ysis of gene expression,SAGE)、电子消减(electronic subtraction)和DNA微列阵分析(DNA microarray)等。
一、差别杂交与扣除杂交
差别杂交(differential hybridization)又叫差别筛选(differential screening),适用于分离经特殊处理而被诱发表达的mRNA的cDNA克隆。为了增加这种方法的有效性,后来又发展出了扣除杂交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通过构建扣除文库(subtractive library)得以实现的。
(一)差别杂交
从本质上讲,差别杂交也是属于核酸杂交的范畴。它特别适用于分离在特定组织中表达的基因、在细胞周期特定阶段表达的基因、受生长因子调节的基因、以及在特定发育阶段表达的或是参与发育调节的基因,同时亦可有效地用来分离经特殊处理而被诱发表达的基因。目前,差别杂交筛选法在克隆基因的分离工作中有着相当广泛的用途。
差别杂交的技术基础十分简单,它不需要任何有关的目的基因的核苷酸序列信息,而重要的是耍拥有两种不同的细胞群体:在一个细胞群体中目的基因正常表达,在另一个细胞群体中目的基因不表达。在这种情况下便可制备到两种不同的mRNA提取物。其一是含有一定比例的目的基因mRNA类型的总mRNA群体,其二是不含有目的基因mRNA类型的总mRNA群体。因此,可以通过这两种总mRNA(或是它们的cDNA拷贝)为探针的平行杂交,对由表达目的基因的细胞总mRNA构建的克隆库进行筛选。当使用存在目的基因的mRNA探针时,所有包含着重组体的菌落都呈阳性反应,在X光底片上呈现黑色斑点,而使用不存在目的基因的mRNA探针时,除了含有目的基因的菌落外,其余的所有菌落都呈阳性反应,在X光底片上呈现黑色斑点。比较这两种底片并对照原平板,便可以挑选出含目的基因的菌落,供作进一步研究使用。
差别杂交筛选技术已被成功地用于分析爪蟾和粘菌的发育问题。这两个应用例子表明,处于不同发育状态或阶段的......>>
问题三:请教关于韦恩图分析差异表达基因的问题 差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
本专题示例依然来自GEO数据库中检索号为GSE11787 的Affymetrix芯片的数据,数据介绍参阅专题一。
>library(limma)
>design colnames(design) fit contrast.matrix fit fit2 fit2 resultssummary(results)
>vennCounts(results)
>vennDiagram(results)
比较遗憾的是,目前limma自带的venn作图函数不能做超过3维的高维venn图,只能画出3个圆圈的venn图,即只能同时对三个coef进行venn作图。上面的venn图只有一个coef,太简单了。下面是一个由本实验室芯片数据得出的三个coef的venn图例:
>heatDiagram(results,fit2$coef)
红色为control中(与LPS相比)的高表达基因,绿色为control中(与LPS相比)的低表......>>
问题四:有做基因差异表达分析的么 有做基因差异表达分析的
利用基因芯片研究干旱胁迫下玉米基因表达
玉米是全球第一大作物、中国第二大作物,而干旱是影响其产量的重要限制因素。山东大学生命科学院张举仁教授的课题组利用基因芯片技术研究了开花期玉米顶叶干旱胁迫下基因的表达。开花期是玉米需水临界期,对干旱胁迫反应最敏感,此时逢干旱会使产量下降幅度最大。张教授的课题组以开花期玉米为材料,分别对其进行短期和长期的干旱胁迫,采用全基因组芯片研究了顶叶中基因的表达情况。分析的结果表明,有197个基因在短期胁迫下差异表达(53%上调),而在长期胁迫下,则有1009个基因差异表达(32%上调)。分离得到的差异表达基因中约有一半的基因功能未知,其他基因按功能则可分为:代谢相关;细胞信号转导;转录相关;蛋白质合成;细胞防御;细胞运输;亚细胞定位等几大类。分析实验表明,在短期胁迫下上调表达的基因中,约有1/3的已知功能基因属于信号转导功能的分类范畴,参与细胞内不同的信号转导途径,这表明信号转导相关基因在玉米对干旱的早期反应中起重要作用。而在长期干旱条件下,顶叶中大量的代谢相关基因差异表达。
吸烟者肺细胞的基因表达模式有助于肺癌的早期诊断
在全世界癌症患者的死亡率中,肺癌的死亡率位居前列。肺癌高死亡率的主要原因之一是缺乏早期诊断工具。研究人员在3月出版的《自然―医学》中报道:吸烟者肺细胞的基因表达模式也许有助于肺癌的早期诊断。
众所周知,吸烟是肺癌的风险因子,因此吸烟者被认为是肺癌的高风险人群。吸烟者的正常上皮细胞的基因表达模型是否可用于肺癌存在状态的一种生物标志呢?AvrumSpira和同事进行了这一研究。在预测患者是否会向癌症发展时,他们研究的生物标志的准确率达到90%。当与其他历史数据结合在一起,准确率可增加到95%。
问题五:怎么判断差异表达的基因 细胞分化就是基因表达差异,同一个体各个细胞内的基因是相同的,但它们的形态结构和功能不同,就是基因选择性表达的结果,造成基因差异
问题六:如何从转录组数据找出差异表达基因 转录本是一个基因序列通过一种剪切后所得的能RNA.以前说转录本都是说表达蛋白的.现在LncRNA的研究多了,也说是一个转录本了.还有没有参考基因组序列的,一般是不可能去GO功能注释的.因为去功能注释的时候要有一个背景.
问题七:如何分析差异表达基因的ma-plot图 差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconctor包是limma。
问题八:求助基因差异表达结果分析 是不是误差造成的,可以做一次重复看一下差异是否真的是不明显。也或许在你说的那个浓度,你所检测的基因表达不敏感,是一个临界浓度? 我只是推测的。仅供参考。
‘柒’ 检测基因表达水平差异的方法有哪些
基因的表达是dna-rna-蛋白,期间有转录水平调控、转录后调控、翻译后调控等多种调控机制影响该基因的表达.
所以蛋白水平高低的原因就可能是多方面的.蛋白表达多,可能是mrna多,也可能mrna变化不大,而是翻译多了;蛋白表达少,原因亦然.
从2个水平检测一个基因的表达,可以更全面地了解该基因在该组织某个时期或某种条件下的变化受到什么水平的调控.
所谓基因表达,就是从dna到mrna再到蛋白的一个过程,基因表达水平一般是通过该基因转录的mrna的多少来衡量的.
每个基因转录产生的mrna的量,是受到时空等多种因素调控的,个体在不同的生长发育阶段,或者不同的组织水平,基因转录出mrna的量都是不一样的.
例如,当某种植物长期生长在高盐的环境里,该植物体内与抗盐相关的基因的表达量就会增加,以适应这种高盐环境,是植物能够生存下来,这时植物抗盐相关的基因表达水平就相对高
检测基因表达的方法:
转录水平检测:rt-pcr,real-time pcr,northern blot
翻译水平检测:western blot
还有直接检测,如报告基因、融合荧光蛋白等。
rt-pcr是反转录pcr,是半定量方式。real-time pcr可以精确定量。 二者不同。后者为了区别于rt-pcr,一般不缩写。
各位观众老爷们大家好!我是吆五,打算从今以后不定期分享一些生物类的专业知识。
一方面供自己学习积累,另一方面也希望对大家有所帮助。
生物是很枯燥的呢
‘捌’ 筛选差异基因的方法
SAM方法由Tusher、Tibshirani、Chu于2001 年率先提出,是一类用于微阵列基因表达谱数据筛选差异表达基因的统计分析方法。SAM方法适用于不同设计和资料类型的微阵列数据差异表达基因的筛选。SAM方法一般采用permutation 算法估计假发现率( false discoveryrate , FDR) ,达到控制多重检验错误率的目的。Storey(2001)针对基因表达谱数据统计分析中的多重检验问题,提出了一种新的第Ⅰ类错误测度阳性假发现率(positive falsediscovery rate, pFDR) ,并就该测度的合理性进行了论证。Storey (2002)改进了控制重检验错误率的方法,提出了一种直接方法,即先凭借经验固定拒绝域,然后估计pFDR,若某基因的pFDR小于检验水准,则认为该基因为差异表达基因。多重检验为控制总Ⅰ类错误率( family-wise error rate,FWER)或FDR,可通过多种方法计算校正的P值; pFDR也有类似定义, Storey将其定义为q值。对于一个检验统计量T = t的q值定义为:
q - value ( t) = inf{Γα: t∈Γα}pFDR (Γα )
其中,Γα为拒绝域。由上式看出: q值为该假设刚好被拒绝所犯的最小第Ⅰ类错误。假定对m 个相同假设H1 , H2 , …, Hm 进行检验, T1 , T2 , T3 , …, Tm 为检验统计量,且Ti 是独立同分布,拒绝域为Γ,那么检验统计量T = t的q值可表示为:
q - value ( t) = inf{Γα: t∈Γα}pr(H = 0 | T∈Γα ) 。
而P值的定义为:
p - value ( t) = inf{Γα: t∈Γα}pr( T∈Γα |H = 0)
可见q值与P 值很相似。在独立同分布的条件下, q值就是一个Bayesian版的P 值,称为后验Bayesian P值。SAM方法以q值< 0.05作为筛选差异表达基因的标准。 Hochberg法是控制FWER的Step-up方法。Step-up方法基于顺序P值,将原始P值按照大小排序P(m )≥P(m 21)≥…≥P(1),从最大的(最不显着的) P值向最小的(最显着的) P 值寻找域值^k, 拒绝所有的P(1),P(2), …, P(^k)对应的原假设,使得多次检验所犯第Ⅰ类错误的概率小于检验水准α。假设如前,Hochberg法算法如下:
第一步:计算m 次假设检验对应的P值。
第二步:按照原始P值大小排序得到: P(1)≤P(2)≤…≤P(m ), 相对应的检验原假设为H0 (1), H0 (2) , …,H0 (m) 。
第三步:令^k =max{ k:P( k) ≤α/ (m- k + 1) },从k=m 开始,然后k =m - 1, 直到第一个满足P( k)≤α/(m - k + 1)的k,记为^k,拒绝所有的P(1), P(2), …, P(^k)对搏弯应的原假设。如果没有满足条件的k,则不能拒绝所有的原假设。
Hochberg法校正后P值为: .P( i) =mink = i, …, m{min( (m- k + 1) P( k), 1) }。 用FWER作为第Ⅰ类错误测度过于保守,为此Benjamini和Hochberg( 1995)提出了一种新的错误测度FDR。在检验统计量相互独立且有连续分布,即原始P值相互独立,且服从均匀分布U [0, 1 ]条件下,Benjamini和Hochberg(1995)提出袭销了一种将FDR控制在水平m0α/m的方法(以下简称为BH法) ,从而也可将FDR控制在水平α。BH法如下:
第一步:计算m 个假设检验对应的P值。
第二步:按拍银游照原始P值大小排序得到: P(1)≤P(2)≤…≤ P(m ), 对应的检验原假设为H0 (1) , H0 (2) , …,
H0 (m) 。
第三步:从P(m )开始,估计^k =max{ k:P( k) ≤kα/m}。
第四步:如存在^k,拒绝所有的P(1), P(2), …, P(^k)对应的原假设。如果没有满足条件的k,则不能拒绝所有的原假设。
BH方法校正的P值为.P( i) =mink = i, …, m{min(mP( k) /k,1) }。
Benjamini和Yekutieli( 2001)发现在检验统计量之间存在相依结构时,即检验统计量在相应于原假设的统计量集合上具有PRDS(positiveregression depend-encyon single variable) ,BH方法仍可控制FDR在水平m0α/m。该发现具有重要的实际应用价值,因为在实际问题中,统计量间往往存在相依结构。
Bonferroni校正法、Sidak 校正法、Hochberg法、BH法,均以校正的P值.Pi <0.05作为筛选差异表达基因的标准。
‘玖’ 如何利用SAM找差异性表达基因
今天就先来聊聊如何看差异表达基因数据,火山图,聚类图又怎么看。1差异基因筛选方法那差异基因是如何筛选出来的呢?差异基因的筛选方法有很多,包括倍数法、T检验、F检验及SAM等。下面简单介绍一下GCBI平台上用的倍数法和SAM法。倍数法适用于没有生物学重复的样本,其计算基因在两个条件下表达水平的比值,确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。SAM算法适用于有生物学重复的样本,通过对分母增加一个常量T检验过程减小了假阳性发生的概率。文献中报道,相较于其他算法,SAM算法更为稳定,筛选出的结果也更为准确。2差异基因数据解读经过合适的差异基因方法筛选出的差异基因,结果一般分为两部分,数据+图形。数据结果展示如下图所示(两分组)众多参数中,重点看三个。p-value或q-value没有做生物学重复请跳过这一步。p-value或q-value是统计学检验变量,代表差异显着性,一般p-value或q-value小于0.05代表具有显着性差异,但可根据具体情况适当调整。因为p-value或q-value衡量地是某个基因假阳性的概率,如果p-value或q-value越低,那么挑选该基因出现假阳性的概率就越低,可验证性就越高。两者具体的计算方法具体如下:那p-value、q-value同时存在时看哪个呢?SAM法只有q-value。当两者同时存在时,可根据具体情况具体分析。差异筛选是一个典型的多重假设检验过程,对于多重假设检验,单次检验中差异显着基因的假阳性率(p-value较小)可能会较大,而q-value和FDR值较常见的BH校正方法得到的FDR值而言,改进了其对假阳性估计的保守性。即q-value相比于p-value更加严格,当差异基因结果较少时,可以退而求其次看p-value。FoldChangeFoldChange表示实验组比上对照组的差异表达倍数,一般表达相差2倍以上是有意义的,放宽要求1.5倍或者1.2倍也可以接受。看表达倍数的同时还需结合基因表达丰度,信号值太低的基因会在后续的验证实验中检测不到。3差异基因图表解读在差异结果的图形展示结果中,主要是火山图和聚类图。火山图火山图只针对两分组且有生物学重复的情况。如何看火山图呢?火山图可反映总体基因的表达情况,横坐标代表log2(FoldChange),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达,图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因。聚类图聚类图可以衡量样本或基因之间表达的相似性。如上图所示的聚类图中,横坐标代表样本聚类,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推。纵坐标代表基因聚类,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推。色阶代表基因表达丰度,越红代表上调得越明显,越绿代表下调得越明显。如何做聚类图请戳往期推送做个聚类图只需1分钟差异基因有了,如何挑选潜在基因进行实验验证呢?关键还在于感兴趣点在哪了。粗略的看,可以先看KEGG或者GO功能分类,看差异基因具体富集在哪些通路或功能。比如关注的是细胞内脂肪酸合成关键酶,可以重点看脂肪酸合成和碳流相关通路。具体如何看KEGG或者GO功能分类,请听下回分解。
‘拾’ 差异表达基因分析:差异倍数(fold change), 差异的显着性(P-value)
Differential gene expression analysis:差异表达基因分析
Differentially expressed gene (DEG):差异表达基因
差异表达分析是目前比较常用的识别疾病相关miRNA以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change方法。
它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显着性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change的计算公式如下:
即用疾病样本的表达均值除以正常样本的表达均值。
差异表达分析的目的: 识别两个条件下表达差异显着的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T检验(T-test)方法来寻找差异表达的miRNA。T检验的主要原理为:对每一个miRNA计算一个T统计量来衡量疾病与正常情况下miRNA表达的差异,然后根据t分布计算显着性p值来衡量这种差异的显着性,T统计量计算公式如下:
差异倍数(fold change)
fold change翻译过来就是倍数变化,假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞).
为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。
当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;
当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。
通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1). 【需要一点对数函数的基础知识】
为什么不直接用表达之差,差值接有正负啊?
假设A表达为1,B表达为8,C表达为64;直接用差值,B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3.
通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适, 用log2 fold change更能表示相对的变化趋势。
虽然大家都在用log2 fold change,但显然也是有缺点的:
一、到底是5到10的变化大,还是100到120的变化大?
二、5到10可能是由于技术误差导致的。所以当基因总的表达值很低时,log2 fold change的可信度就低了,尤其是在接近0的时候。
A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.
差异的显着性(P-value)
这就是统计学的范畴了,显着性就是根据假设检验算出来的。
假设检验首先必须要有假设,我们假设A和B的表达没有差异(H0,零假设),然后基于此假设,通过t test(以RT-PCR为例)算出我们观测到的A和B出现的概率,就得到了P-value, 如果P-value<0.05,那么说明小概率事件出现了,我们应该拒绝零假设,即A和B的表达不一样,即有显着差异。
显着性只能说明我们的数据之间具有统计学上的显着性,要看上调下调必须回去看差异倍数。
对于得到的显着性p值,我们需要进行多重检验校正(FDR),比较常用的是BH方法(Benjamini and Hochberg, 1995)。
这里只说了最基本的原理,真正的DESeq2等工具里面的算法肯定要复杂得多。
这张图对q-value(校正了的p-value)取了负log,相当于越显着,负log就越大,所以在火山图里,越外层的岩浆就越显着,差异也就越大。
只需要看懂DEG结果的可以就此止步,想深入了解的可以继续。
下面可以继续讨论的问题有:
1、RNA-seq基本分析流程/2、
2、DEG分析的常用算法/3、
3、常见DEG工具的方法介绍和相互比较
前言
做生物生理生化生信数据分析时,最常听到的肯定是“差异(表达)基因分析”了,从最开始的RT-PCR,到基因芯片microarray,再到RNA-seq,最后到现在的single cell RNA-seq,统统都在围绕着差异表达基因做文章。
(开个脑洞:再下一步应该会测细胞内特定空间内特定基因的动态表达水平了)
表达量 :我们假设基因转录表达形成的mRNA的数量反映了基因的活性,也会影响下游蛋白和代谢物的变化。我们关注的是 基因的表达 ,不是结构,也是不是isoform。
为什么差异基因分析这么流行?
一是中心法则得到了确立,基因表达是核心的一个环节,决定了下游的蛋白组和代谢组;
二是建库测序的普及,获取基因的表达水平变得容易。
在生物体内,基因的表达时刻都在动态变化,不一定服从均匀分布,在不同时间、发育程度、组织和环境刺激下,基因的表达肯定会发生变化。
差异基因分析主要应用在:
发育过程中关键基因的表达变化 - 发育研究
突变材料里什么核心基因的表达发生了变化 - 调控研究
细胞在受到药物处理后哪些基因的表达发生了变化 - 药物研发
目前我们对基因和转录组的了解到什么程度了?
基本的建库方法?建库直接决定了我们能测到什么序列,也决定了我们能做什么分析!
基因表达的normalization方法有哪些?
第一类错误、第二类错误是什么?
多重检验的校正?FDR?
10x流程解释
The mean UMI counts per cell of this gene in cluster i
The log2 fold-change of this gene's expression in cluster i relative to other clusters
The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.
The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.
The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.
The p-value is a measure of the statistical significance of the expression difference and is based on a negative binomial test. The p-value reported here has been adjusted for multiple testing via the Benjamini-Hochberg procere.
In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files proced by the pipeline.
不同单细胞DEG鉴定工具的比较
Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data
For data with a high level of multimodality, methods that consider the behavior of each indivial gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 这些工具敏感性高,就是说不会漏掉很多真的DEG,但是会包含很多假的DEG。
If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 这些工具精准性很高,意味着得到的DEG里假的很少,所以会漏掉很多真的DEG,不会引入假的DEG。
time-course DEG analysis
Comparative analysis of differential gene expression tools for RNA sequencing time course data
参考:
Question: How to calculate "fold changes" in gene expression?
Exact Negative Binomial Test with edgeR
Differential gene expression analysis