導航:首頁 > 研究方法 > 差異表達分析基因方法

差異表達分析基因方法

發布時間:2022-12-24 00:48:32

A. 檢測基因表達水平差異的方法有哪些

基因的表達是dna-rna-蛋白,期間有轉錄水平調控、轉錄後調控、翻譯後調控等多種調控機制影響該基因的表達.

所以蛋白水平高低的原因就可能是多方面的.蛋白表達多,可能是mrna多,也可能mrna變化不大,而是翻譯多了;蛋白表達少,原因亦然.

從2個水平檢測一個基因的表達,可以更全面地了解該基因在該組織某個時期或某種條件下的變化受到什麼水平的調控.

所謂基因表達,就是從dna到mrna再到蛋白的一個過程,基因表達水平一般是通過該基因轉錄的mrna的多少來衡量的.

每個基因轉錄產生的mrna的量,是受到時空等多種因素調控的,個體在不同的生長發育階段,或者不同的組織水平,基因轉錄出mrna的量都是不一樣的.

例如,當某種植物長期生長在高鹽的環境里,該植物體內與抗鹽相關的基因的表達量就會增加,以適應這種高鹽環境,是植物能夠生存下來,這時植物抗鹽相關的基因表達水平就相對高

檢測基因表達的方法:

轉錄水平檢測:rt-pcr,real-time pcr,northern blot

翻譯水平檢測:western blot

還有直接檢測,如報告基因、融合熒光蛋白等。

rt-pcr是反轉錄pcr,是半定量方式。real-time pcr可以精確定量。 二者不同。後者為了區別於rt-pcr,一般不縮寫。

各位觀眾老爺們大家好!我是吆五,打算從今以後不定期分享一些生物類的專業知識。

一方面供自己學習積累,另一方面也希望對大家有所幫助。

生物是很枯燥的呢

B. 基因差異表達分析方法

問題一:怎麼判斷差異表達的基因 判斷差異表達的基因:

不同基因控制合成的蛋白質不同,蛋白質不同表現的生物性狀就不同,從而表達出了差異.

問題二:怎麼判斷差異表達的基因 真核生物中,從個體的生長、發育、衰老、死亡,到組織的得化、調亡以及細胞對各種生物、理化因子的應答,本質上都涉及基因的選擇性表達。高等生物大約有30000個不同的基因,但在生物體內任意8細胞中只有10%的基因的以表達,而這些基因的表達按特定的時間和空間順序有序地進行著,這種表達的方式即為基因的差異表達。其包括新出現的基因的表達與表達量有差異的基因的表達。生物體表現出的各種特性,主要是由於基因的差異表達引起的。
由於基因的差異表達的變化是調控細胞生命活動過程的核心機制,通過比較同一類細胞在不同生理條件下或在不同生長發育階段的基因表達差異,可為分析生命活動過程提供重要信息。研究基因差異表達的主要技術有差別雜交(differential hybridization)、扣除(消減)雜交(subtractive hybridization of cDNA,SHD)、mRNA差異顯示(mRNA differential display, DD)、抑制消減雜交法(suppression subtractive hybridization,SSH)、代表性差異分析(represential display *** ysis,RDA)、交互扣除RNA差別顯示技術(reciprocal subtraction differential RNA display)、基因表達系列分析(serial *** ysis of gene expression,SAGE)、電子消減(electronic subtraction)和DNA微列陣分析(DNA microarray)等。
一、差別雜交與扣除雜交
差別雜交(differential hybridization)又叫差別篩選(differential screening),適用於分離經特殊處理而被誘發表達的mRNA的cDNA克隆。為了增加這種方法的有效性,後來又發展出了扣除雜交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通過構建扣除文庫(subtractive library)得以實現的。
(一)差別雜交
從本質上講,差別雜交也是屬於核酸雜交的范疇。它特別適用於分離在特定組織中表達的基因、在細胞周期特定階段表達的基因、受生長因子調節的基因、以及在特定發育階段表達的或是參與發育調節的基因,同時亦可有效地用來分離經特殊處理而被誘發表達的基因。目前,差別雜交篩選法在克隆基因的分離工作中有著相當廣泛的用途。
差別雜交的技術基礎十分簡單,它不需要任何有關的目的基因的核苷酸序列信息,而重要的是耍擁有兩種不同的細胞群體:在一個細胞群體中目的基因正常表達,在另一個細胞群體中目的基因不表達。在這種情況下便可制備到兩種不同的mRNA提取物。其一是含有一定比例的目的基因mRNA類型的總mRNA群體,其二是不含有目的基因mRNA類型的總mRNA群體。因此,可以通過這兩種總mRNA(或是它們的cDNA拷貝)為探針的平行雜交,對由表達目的基因的細胞總mRNA構建的克隆庫進行篩選。當使用存在目的基因的mRNA探針時,所有包含著重組體的菌落都呈陽性反應,在X光底片上呈現黑色斑點,而使用不存在目的基因的mRNA探針時,除了含有目的基因的菌落外,其餘的所有菌落都呈陽性反應,在X光底片上呈現黑色斑點。比較這兩種底片並對照原平板,便可以挑選出含目的基因的菌落,供作進一步研究使用。
差別雜交篩選技術已被成功地用於分析爪蟾和粘菌的發育問題。這兩個應用例子表明,處於不同發育狀態或階段的......>>

問題三:請教關於韋恩圖分析差異表達基因的問題 差異表達基因分析是根據表型協變數(分類變數)鑒定組間差異表達,它屬於監督性分類的一種。在鑒定差異表達基因以前,一般需要對表達值實施非特異性過濾(在機器學習框架下屬於非監督性分類),因為適當的非特異性過濾可以提高差異表達基因的檢出率、甚至是功效。R分析差異表達基因的library有很多,但目前運用最廣泛的Bioconctor包是limma。
鑒定差異表達基因是表達譜晶元分析pipeline中必須的分析步驟。差異表達基因分析是根據表型協變數(分類變數)鑒定組間差異表達,它屬於監督性分類的一種。在鑒定差異表達基因以前,一般需要對表達值實施非特異性過濾(在機器學習框架下屬於非監督性分類),因為適當的非特異性過濾可以提高差異表達基因的檢出率、甚至是功效。R分析差異表達基因的library有很多,但目前運用最廣泛的Bioconctor包是limma。
本專題示例依然來自GEO資料庫中檢索號為GSE11787 的Affymetrix晶元的數據,數據介紹參閱專題一。
>library(limma)
>design colnames(design) fit contrast.matrix fit fit2 fit2 resultssummary(results)
>vennCounts(results)
>vennDiagram(results)
比較遺憾的是,目前limma自帶的venn作圖函數不能做超過3維的高維venn圖,只能畫出3個圓圈的venn圖,即只能同時對三個coef進行venn作圖。上面的venn圖只有一個coef,太簡單了。下面是一個由本實驗室晶元數據得出的三個coef的venn圖例:
>heatDiagram(results,fit2$coef)
紅色為control中(與LPS相比)的高表達基因,綠色為control中(與LPS相比)的低表......>>

問題四:有做基因差異表達分析的么 有做基因差異表達分析的
利用基因晶元研究乾旱脅迫下玉米基因表達
玉米是全球第一大作物、中國第二大作物,而乾旱是影響其產量的重要限制因素。山東大學生命科學院張舉仁教授的課題組利用基因晶元技術研究了開花期玉米頂葉乾旱脅迫下基因的表達。開花期是玉米需水臨界期,對乾旱脅迫反應最敏感,此時逢乾旱會使產量下降幅度最大。張教授的課題組以開花期玉米為材料,分別對其進行短期和長期的乾旱脅迫,採用全基因組晶元研究了頂葉中基因的表達情況。分析的結果表明,有197個基因在短期脅迫下差異表達(53%上調),而在長期脅迫下,則有1009個基因差異表達(32%上調)。分離得到的差異表達基因中約有一半的基因功能未知,其他基因按功能則可分為:代謝相關;細胞信號轉導;轉錄相關;蛋白質合成;細胞防禦;細胞運輸;亞細胞定位等幾大類。分析實驗表明,在短期脅迫下上調表達的基因中,約有1/3的已知功能基因屬於信號轉導功能的分類范疇,參與細胞內不同的信號轉導途徑,這表明信號轉導相關基因在玉米對乾旱的早期反應中起重要作用。而在長期乾旱條件下,頂葉中大量的代謝相關基因差異表達。
吸煙者肺細胞的基因表達模式有助於肺癌的早期診斷
在全世界癌症患者的死亡率中,肺癌的死亡率位居前列。肺癌高死亡率的主要原因之一是缺乏早期診斷工具。研究人員在3月出版的《自然―醫學》中報道:吸煙者肺細胞的基因表達模式也許有助於肺癌的早期診斷。
眾所周知,吸煙是肺癌的風險因子,因此吸煙者被認為是肺癌的高風險人群。吸煙者的正常上皮細胞的基因表達模型是否可用於肺癌存在狀態的一種生物標志呢?AvrumSpira和同事進行了這一研究。在預測患者是否會向癌症發展時,他們研究的生物標志的准確率達到90%。當與其他歷史數據結合在一起,准確率可增加到95%。

問題五:怎麼判斷差異表達的基因 細胞分化就是基因表達差異,同一個體各個細胞內的基因是相同的,但它們的形態結構和功能不同,就是基因選擇性表達的結果,造成基因差異

問題六:如何從轉錄組數據找出差異表達基因 轉錄本是一個基因序列通過一種剪切後所得的能RNA.以前說轉錄本都是說表達蛋白的.現在LncRNA的研究多了,也說是一個轉錄本了.還有沒有參考基因組序列的,一般是不可能去GO功能注釋的.因為去功能注釋的時候要有一個背景.

問題七:如何分析差異表達基因的ma-plot圖 差異表達基因分析是根據表型協變數(分類變數)鑒定組間差異表達,它屬於監督性分類的一種。在鑒定差異表達基因以前,一般需要對表達值實施非特異性過濾(在機器學習框架下屬於非監督性分類),因為適當的非特異性過濾可以提高差異表達基因的檢出率、甚至是功效。R分析差異表達基因的library有很多,但目前運用最廣泛的Bioconctor包是limma。
鑒定差異表達基因是表達譜晶元分析pipeline中必須的分析步驟。差異表達基因分析是根據表型協變數(分類變數)鑒定組間差異表達,它屬於監督性分類的一種。在鑒定差異表達基因以前,一般需要對表達值實施非特異性過濾(在機器學習框架下屬於非監督性分類),因為適當的非特異性過濾可以提高差異表達基因的檢出率、甚至是功效。R分析差異表達基因的library有很多,但目前運用最廣泛的Bioconctor包是limma。

問題八:求助基因差異表達結果分析 是不是誤差造成的,可以做一次重復看一下差異是否真的是不明顯。也或許在你說的那個濃度,你所檢測的基因表達不敏感,是一個臨界濃度? 我只是推測的。僅供參考。

C. 轉載--基因表達水平及差異表達分析

基因表達水平分析

一個基因表達水平的直接體現就是其轉錄本的豐度情況,轉錄本豐度越高,則基因表達水平越高。在RNA-seq分析中,我們可以通過定位到基因組區域或基因外顯子區的測序序列(reads)的計數來估計基因的表達水平。Reads計數除了與基因的真實表達水平成正比外,還與基因的長度和測序深度成正相關。為了使不同基因、不同實驗間估計的基因表達水平具有可比性,人們引入了FPKM的概念,FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百萬fragments中來自某一基因每千鹼基長度的fragments數目,其同時考慮了測序深度和基因長度對fragments計數的影響,是目前最為常用的基因表達水平估算方法(Trapnell, Cole, et al., 2010)。

差異表達分析

通過所有基因的FPKM分布圖以及盒形圖對不同實驗條件下的基因表達水平進行比較。對於同一實驗條件下的重復樣品,最終的FPKM為所有重復數據的平均值。

基因差異表達的輸入數據為基因表達水平分析中得到的readcount數據。對於有生物學重復的樣品,我們採用DESeq(Anders et al, 2010)進行分析:

該分析方法基於的模型是負二項分布,第 i 個基因在第 j 個樣本中的 read count 值為Kij,則有Kij ~ NB(µij,σij2)

對於無生物學重復的樣品,先採用TMM對read count數據進行標准化處理,之後用DEGseq進行差異分析。差異表達基因列表如下:

用火山圖可以推斷差異基因的整體分布情況,對於無生物學重復的實驗,為消除生物學變異,從差異倍數和顯著水平兩個方面進行評估,對差異基因進行篩選,

閾值設定一般為: |log2(FoldChange)| > 1 且 qvalue < 0.005。對於有生物學重復的實驗,由於DESeq已經進行了生物學變異的消除,我們對差異基因篩選的標准一般為:
padj < 0.05。

差異基因維恩圖

差異基因維恩圖展示了各比較組間差異基因的個數,以及比較組間的重疊關系。

差異基因聚類分析

聚類分析用於判斷差異基因在不同實驗條件下的表達模式;通過將表達模式相同或相近的基因聚集成類,從而識別未知基因的功能或已知基因的未知功能;因為這些同類的基因可能具有相似的功能,或是共同參與同一代謝過程或細胞通路。以不同實驗條件下的差異基因的FPKM值為表達水平,做層次聚類(hierarchical clustering)分析,不同顏色的區域代表不同的聚類分組信息,同組內的基因表達模式相近,可能具有相似的功能或參與相同的生物學過程。

原文: 基因表達水平及差異表達分析

D. 差異基因檢測方法

差異基因的檢測方法很多,但生物學家偏好使用的是fold change(FC)和t-test。猜測因為一是它們比較簡單,二來好解釋。很多研究表明,改進的t-test可以提高top gene list的質量。現在簡單的說一下原理

指兩個組group之間每個gene平均值在log2水平的差異。
FC=3=log2A-log2B=log(A/B)
所以,A/B=2^3=8
這樣有一個缺點就是高的FC並非真正的差異,而是來自變異,並無生物學意義。
值得注意的是,基於FC的gene list比基於t-test的可重復性強,但這不代表著更准確。
所以,如果關注基因表達的絕對變化,則看FC
如果關注潛在的噪音,則用t-test。
也就是說,FC只考慮到組間差異,二未考慮組內變異。

差異性=signal/noise,期中signal即為組間變異,二noise為組內變異
groupA和groupB的差異XA均值-XB均值,這個同FC的M均值。受3個因素影響
(1)Fold change(M均值):M均值越大,t值越大,也就是說signal大
(2)Variance(s):s越小,t越小,就是組內差異大,即noise大
(3)sample size(n):n越大,t越大,即M均值和s同樣的情況下,n越大,結果越精確。

上面可以看出,即使FC不大,但s值足夠小,也會有大的t值,所以引入懲罰t-test。初衷是避免將表達水平和變異程度較低的無生物學意義的gene識別為差異gene。

其中,s0是個小的正數。引入s0消除s過小
可見,若S小,則S0作用大,反之,S大,S0作用小。
晶元分析中的SAM(significant analysis of microarrays)即這種方法。
步驟
(1)samples在AB之間隨機打亂重拍1000次,d-value依次計算,這些d-value的均值作為整個gene的d-value,觀察到的d-value偏離期望d-value越大,越可能是真正的差異gene。
(2)隨著作者的cut off(德爾塔value)被選擇,需要權衡差異基因數目和假陽性結果的數目(FDR).

繼而,有基於貝葉斯理論的moerated t-test。也是最常用的。

包括貝葉斯模型,支持向量或隨機森林。

E. 💉🈯[生信基礎知識]幾種常用的差異表達基因識別方法FC,T檢驗,SAM

目前常用的幾款差異表達進識別方法有:FC、T檢驗、SAM等

FC(Fold Change) 演算法是最早用於識別 兩種 不同的實驗條件下基因表達水平存在差異的演算法,其演算法的原理是計算基因在兩類樣本中平均表達水平的倍數值,若該值達到預先設定的閾值(一般設置為2,在以2為底的對數表達比中為大於1或小於-1),則判定基因為差異表達(DE,different expression)基因,計算公式如下,其中,mean(X(i))與mean(Y(i))代表基因 i 在兩類樣本中的平均表達值:

在很多實際應用中,常常有人把FC值做log2轉換,log2fc 值相較於fc的有點在於:log2fc的值有正負值之分,很容易看出2個group之間的上下調關系>
關於limma包差異分析結果的logFC解釋

t檢驗(t-test) ,常用來識別兩類樣本中DE基因的演算法。其主要原理為:對每一個基因計算一個t統計量來衡量兩類樣本中基因表達的差異,然後根據t分布計算顯著性p值來衡量這種差異的顯著性。計算公式如下,其中,分子代表基因i在兩類樣本中的平均表達差值,分母代表基因i在所有樣本中的標准誤:

由於t檢驗要求數據呈現正太分布,所以公式中基因的表達值為測量值經過標准化後的值,反應的是兩類樣本間基因表達的倍數變化,也存在FC方法同樣的偏向性。此外,對基礎表達量低的基因來說,一個微小變異程度(標准誤)可能導致一個大的絕對t統計值,從而被識別為DE基因,即使在兩類條件下這個基因的平均表達水平的差異很小。低表達的基因比高表達的基因更容易產生大的t統計量。已有研究指出,數據的信噪比會隨著基因表達量的增高而降低,這就意味著,低表達的基因更容易受到雜訊的影響而產生誤差。因此,t檢驗同樣傾向於識別表達水平低的基因作為DE基因。

SAM(Significance analysis of microarrays) 演算法用於微陣列基因表達譜數據識別DE基因 。SAM演算法與t檢驗相似,但為了使具有較小標准誤的基因不會被誤判為DE基因,SAM在t統計量的分母中增加了校正值,提高了t檢驗的穩定性。計算公式如下,其中S0 為樣本殘差標准誤的校正值:

上還有一些關於差異表達的文章,你可以也看看
【r<-生信|實戰】用方差分析差異表達基因
基因晶元(Affymetrix)分析3:獲取差異表達基因
差異表達基因
差異表達分析圖標結果釋義

1.趙發林, 閆曉光, 李康. 幾種差異基因分析方法及篩選效果的比較[J]. 中國衛生統計, 2008, 25(4):354-356.
2.黃海燕 基於可重復性評價識別與癌相關的高表達基因

F. 差異表達基因分析:差異倍數(fold change), 差異的顯著性(P-value)

Differential gene expression analysis:差異表達基因分析

Differentially expressed gene (DEG):差異表達基因

差異表達分析是目前比較常用的識別疾病相關miRNA以及基因的方法,目前也有很多差異表達分析的方法,但比較簡單也比較常用的是Fold change方法。

它的優點是計算簡單直觀,缺點是沒有考慮到差異表達的統計顯著性;通常以2倍差異為閾值,判斷基因是否差異表達。Fold change的計算公式如下:

即用疾病樣本的表達均值除以正常樣本的表達均值。

差異表達分析的目的: 識別兩個條件下表達差異顯著的基因,即一個基因在兩個條件中的表達水平,在排除各種偏差後,其差異具有統計學意義。我們利用一種比較常見的T檢驗(T-test)方法來尋找差異表達的miRNA。T檢驗的主要原理為:對每一個miRNA計算一個T統計量來衡量疾病與正常情況下miRNA表達的差異,然後根據t分布計算顯著性p值來衡量這種差異的顯著性,T統計量計算公式如下:

差異倍數(fold change)

fold change翻譯過來就是倍數變化,假設A基因表達值為1,B表達值為3,那麼B的表達就是A的3倍。一般我們都用count、TPM或FPKM來衡量基因表達水平,所以基因表達值肯定是非負數,那麼fold change的取值就是(0, +∞).

為什麼我們經常看到差異基因里負數代表下調、正數代表上調?因為我們用了log2 fold change。

當expr(A) < expr(B)時,B對A的fold change就大於1,log2 fold change就大於0(見下圖),B相對A就是上調;

當expr(A) > expr(B)時,B對A的fold change就小於1,log2 fold change就小於0。

通常為了防止取log2時產生NA,我們會給表達值加1(或者一個極小的數),也就是log2(B+1) - log2(A+1). 【需要一點對數函數的基礎知識】

為什麼不直接用表達之差,差值接有正負啊?

假設A表達為1,B表達為8,C表達為64;直接用差值,B相對A就上調了7,C就相對B上調了56;用log2 fold change,B相對A就上調了3,C相對B也只上調了3. 

通過測序觀察我們發現,不同基因在細胞里的表達差異非常巨大,所以直接用差顯然不合適, 用log2 fold change更能表示相對的變化趨勢。

雖然大家都在用log2 fold change,但顯然也是有缺點的:

一、到底是5到10的變化大,還是100到120的變化大?

二、5到10可能是由於技術誤差導致的。所以當基因總的表達值很低時,log2 fold change的可信度就低了,尤其是在接近0的時候。

A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.

差異的顯著性(P-value) 

這就是統計學的范疇了,顯著性就是根據假設檢驗算出來的。

假設檢驗首先必須要有假設,我們假設A和B的表達沒有差異(H0,零假設),然後基於此假設,通過t test(以RT-PCR為例)算出我們觀測到的A和B出現的概率,就得到了P-value, 如果P-value<0.05,那麼說明小概率事件出現了,我們應該拒絕零假設,即A和B的表達不一樣,即有顯著差異。

顯著性只能說明我們的數據之間具有統計學上的顯著性,要看上調下調必須回去看差異倍數。

對於得到的顯著性p值,我們需要進行多重檢驗校正(FDR),比較常用的是BH方法(Benjamini and Hochberg, 1995)。

這里只說了最基本的原理,真正的DESeq2等工具裡面的演算法肯定要復雜得多。

這張圖對q-value(校正了的p-value)取了負log,相當於越顯著,負log就越大,所以在火山圖里,越外層的岩漿就越顯著,差異也就越大。

只需要看懂DEG結果的可以就此止步,想深入了解的可以繼續。

下面可以繼續討論的問題有:

1、RNA-seq基本分析流程/2、

2、DEG分析的常用演算法/3、

3、常見DEG工具的方法介紹和相互比較

前言

做生物生理生化生信數據分析時,最常聽到的肯定是「差異(表達)基因分析」了,從最開始的RT-PCR,到基因晶元microarray,再到RNA-seq,最後到現在的single cell RNA-seq,統統都在圍繞著差異表達基因做文章。

(開個腦洞:再下一步應該會測細胞內特定空間內特定基因的動態表達水平了)

表達量 :我們假設基因轉錄表達形成的mRNA的數量反映了基因的活性,也會影響下游蛋白和代謝物的變化。我們關注的是 基因的表達 ,不是結構,也是不是isoform。

為什麼差異基因分析這么流行?

一是中心法則得到了確立,基因表達是核心的一個環節,決定了下游的蛋白組和代謝組;

二是建庫測序的普及,獲取基因的表達水平變得容易。

在生物體內,基因的表達時刻都在動態變化,不一定服從均勻分布,在不同時間、發育程度、組織和環境刺激下,基因的表達肯定會發生變化。

差異基因分析主要應用在:

發育過程中關鍵基因的表達變化 - 發育研究

突變材料里什麼核心基因的表達發生了變化 - 調控研究

細胞在受到葯物處理後哪些基因的表達發生了變化 - 葯物研發

目前我們對基因和轉錄組的了解到什麼程度了?

基本的建庫方法?建庫直接決定了我們能測到什麼序列,也決定了我們能做什麼分析!

基因表達的normalization方法有哪些?

第一類錯誤、第二類錯誤是什麼?

多重檢驗的校正?FDR?

10x流程解釋

The mean UMI counts per cell of this gene in cluster i

The log2 fold-change of this gene's expression in cluster i relative to other clusters 

The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.

The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.

The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.

The p-value is a measure of the statistical significance of the expression difference and is based on a negative binomial test. The p-value reported here has been adjusted for multiple testing via the Benjamini-Hochberg procere.

In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files proced by the pipeline.

不同單細胞DEG鑒定工具的比較

Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data

For data with a high level of multimodality, methods that consider the behavior of each indivial gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 這些工具敏感性高,就是說不會漏掉很多真的DEG,但是會包含很多假的DEG。

If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 這些工具精準性很高,意味著得到的DEG里假的很少,所以會漏掉很多真的DEG,不會引入假的DEG。

time-course DEG analysis

Comparative analysis of differential gene expression tools for RNA sequencing time course data 

參考:

Question: How to calculate "fold changes" in gene expression?

Exact Negative Binomial Test with edgeR

Differential gene expression analysis

G. 從mRNA和蛋白水平來分析基因表達差異的方法有哪些

從mRNA和蛋白水平來分析基因表達差異的方法有哪些
基因的表達是DNA-RNA-蛋白,期間有轉錄水平調控、轉錄後復調控、翻譯後調控等多種調控機制影響該基因的表達.所以蛋白水平高低的原因就可能是多方面的.蛋白表達多,可能是mRNA多,也可能mRNA變化不大,而是翻譯多了;蛋白表達少制,原因亦然.從2個水平檢測一個基因的表達,可以更全面地了解該基因在該組織某個時期或某種條件下的變化受到什麼水平的調控.
所謂基因表達,就是從DNA到mRNA再到蛋白的一個過程,基因表達水平一般是通過百該基因轉錄的mRNA的多少來衡量的.每個基因轉錄產生的mRNA的量,是受到時空等多種因素調控的,個體在不同的生長發育階段,或者不同的組織水平,基因轉錄出mRNA的量都是不一樣的.例如,當某種植物長期生長在高度鹽的環境里,該植物體內與抗鹽相關的基因的表達量就會增加,以適應這種高鹽環境,是植物能夠生存下來,這時植物抗鹽相關的基因表達水平就相對高,希望我的回答能夠幫你弄清這個問題,

H. 轉錄組分析5——差異表達分析

• 現在常用的基因定量方法包括:RPM, RPKM, FPKM, TPM。
• 這些表達量的主要區別是:通過不同的標准化方法為轉錄本豐度提供一個
數值表示,以便於後續差異分析。
• 標准化的主要目的是去除測序數據的技術偏差:測序深度和基因長度。
• 測序深度:同一條件下,測序深度越深,基因表達的read讀數越多。
• 基因長度:同一條件下,不同的基因長度產生不對等的read讀數,基
因越長,該基因的read讀數越高。
https://mp.weixin.qq.com/s/KSMzgKBlgF2qIadME5nWhw

對於泊松分布而言,其均值和方差是相等的,但是我們的
數據確不符合這樣的規律。
紫色實線是泊松分布的擬合結果。
橙色實線是負二項分布的擬合結果。 (DESeq2)
橙色虛線是 edgeR 軟體的擬合結果。

I. 差異分析

基因的差異表達,即發現一組在正常樣本和患病樣本中表達不同的基因。

最簡單的是閾值法,用倍數分析基因表達水平差異,即計算基因在兩個條件下表達水平的比值(癌症和正常),確定比值的閾值,將絕對值大於此閾值的基因判斷為差異基因。

最常用的T-test、ANOVA(方差分析)或者稱為F檢驗。

T-test 檢驗是差異基因表達檢測中常用的統計方法,通過合並樣本間可變的數據,來評價差異表達,用於判斷某一基因在兩個樣本中是否有差異表達。由於晶元實驗成本較高,樣本量較少,從而對總體方差的估計不很准確,T檢驗的檢驗效能降低。

SAM演算法就是通過控制FDR值糾正多重假設檢驗中的假陽性率。SAM 方法檢驗差異表達,通過對分母增加一個常量 T 檢驗過程減小了假陽性發生的概率。根據文獻記載,相比較其他演算法,SAM演算法更為穩定,篩選出的結果也更為准確。SAM方法以q-value< 0.05作為篩選差異表達基因的標准,從公式上來看,p-value和q-value較為相似,而差異篩選是一個典型的多重假設檢驗過程。對於多重假設檢驗,單次檢驗中差異顯著基因的假陽性率(p-value較小)可能會較大,而 q-value FDR值較常見的BH校正方法 得到的FDR值而言,改進了其對假陽性估計的保守性。

火山圖可反映總體基因的表達情況, 橫坐標代表log2(Fold Change),縱坐標表示-log10(P值),每個點代表一個基因,顏色用以區分基因是否差異表達, 圖中橙色的點代表差異表達基因,藍色的點代表沒有差異表達的基因。

聚類圖可以衡量 樣本或基因之間表達的相似性 。 如上圖所示的聚類圖中, 橫坐標代表樣本聚類 ,一列代表一個樣本,聚類基於樣本間基因表達的相似性,樣本間基因表達越接近,靠的越近,以此類推。 縱坐標代表基因聚類 ,一行代表一個基因,聚類基於基因在樣本中表達的相似性,基因在樣本中表達越接近,靠的越近,以此類推。 色階代表基因表達豐度 ,越紅代表上調得越明顯,越綠代表下調得越明顯。

REF:
https://www.jianshu.com/p/b55276e46f0c

https://blog.csdn.net/u012325865/article/details/87344725

http://college.gcbi.com.cn/archives/1616

https://www.cnblogs.com/leezx/p/7132099.html

J. 轉錄組入門(7):差異表達分析

原先三個樣本的HTSeq-count計數的數據可以在我的GitHub中找到,但是前面已經說過Jimmy失誤讓我們分析的人類就只有3個樣本, 另外一個樣本需要從另一批數據獲取(請注意batch effect),所以不能保證每一組都有兩個重復。

我一直堅信」你並不孤獨「這幾個字,遇到這種情況的人肯定不止我一個,於是我找到了幾種解決方法

以上方法都會在後續進行介紹,但是我們DESeq2必須得要有重復的問題亟待解決,沒辦法我只能自己瞎編了。雖然是編,我們也要有模有樣,不能直接復制一份,要考慮到高通量測序的read是默認符合泊松分布的。我是這樣編的。

這僅僅是一種填坑的方法而已,更好模擬數據的方法需要參閱更加專業的文獻, 有生之年 我希望能補上這一個部分。

這部分內容最先在 RNA-Seq Data Analysis 的8.5.3節看到,剛開始一點都不理解,但是學完生物統計之後,我認為這是理解所有差異基因表達分析R包的關鍵。

基本上,統計課都會介紹如何使用 t檢驗 用來比較兩個樣本之間的差異,然後在樣本比較多的時候使用 方差分析 確定樣本間是否有差異。當然前是樣本來自於正態分布的群體,或者隨機獨立大量抽樣。

對於基因晶元的差異表達分析而言,由於普遍認為其數據是服從正態分布,因此差異表達分析無非就是用t檢驗和或者方差分析應用到每一個基因上。高通量一次性找的基因多,於是就需要對多重試驗進行矯正,控制假陽性。目前在基因晶元的分析用的最多的就是 limma

但是 ,高通量測序(HTS)的read count普遍認為是服從泊松分布(當然有其他不同意見),不可能直接用正態分布的 t檢驗 方差分析 。 當然我們可以簡單粗暴的使用對於的 非參數檢驗 的方法,但是統計力不夠,結果的p值矯正之估計一個差異基因都找不到。老闆花了一大筆錢,結果卻說沒有差異基因,是個負結果,於是好幾千經費打了水漂,他肯定是不樂意的。因此,還是得要用參數檢驗的方法,於是就要說到方差分析和線性模型之間的關系了。

線性回歸和方差分析是同一時期發展出的兩套方法。在我本科階段的田間統計學課程中就介紹用 方差分析 (ANOVA)分析不同肥料處理後的產量差異,實驗設計如下

這是最簡單的單因素方差分析,每一個結果都可以看成 yij = ai + u + eij, 其中u是總體均值,ai是每一個處理的差異,eij是隨機誤差。

:方差分析(Analysis of Variance, ANAOVA)名字聽起來好像是檢驗方差,但其實是為了判斷樣本之間的差異是否真實存在,為此需要證明不同處理內的方差顯著性大於不同處理間的方差。

線性回歸 一般是用於量化的預測變數來預測量化的響應變數。比如說體重與身高的關系建模:

當然線性回歸也可用處理名義型或有序型因子(也就是離散變數)作為預測變數,如果要畫圖的話,就是下面這個情況。

如果我們需要通過一個實驗找到不同處理後對照組和控制組的基因變化,那麼基因表達可以簡單寫成, y = a + b · treament + e。 和之前的 yij = ai + u + eij 相比,你會發現公式是如此的一致。 這是因為線性模型和方差分析都是 廣義線性模型 (generalizing linear models, GLM)在正態分布的預測變數的特殊形式。而GLM本身只要採用合適的 連接函數 是可以處理對任意類型的變數進行建模的。

目前認為read count之間的差異是符合負二項分布,也叫gamma-Possion分布。那麼問題來了,如何用GLM或者LM分析兩個處理件的差異呢?其實可以簡單的用上圖的擬合直線的斜率來解釋,如果不同處理之間存在差異,那麼這個擬合線的斜率必定不為零,也就是與X軸平行。但是這是一種便於理解的方式(雖然你也未必能理解),實際更加復雜,考慮因素更多。

注1 負二向分布有兩個參數,均值(mean)和離散值(dispersion). 離散值描述方差偏離均值的程度。泊松分布可以認為是負二向分布的離散值為1,也就是均值等於方差(mean=variance)的情況。
注2 這部分涉及大量的統計學知識,不懂就用維基網路一個個查清楚。

聊完了線性模型和方差分析,下面的設計矩陣(design matrix)就很好理解了, 其實就是用來告訴不同的差異分析函數應該如何對待變數。比如說我們要研究的KD和control之間變化,設計矩陣就是

那麼比較矩陣(contrast matrix)就是告訴差異分析函數應該如何對哪個因素進行比較, 這里就是比較不同處理下表達量的變化。

其實read count如何標准化的方法有很多,最常用的是FPKM和RPKM,雖然它們其實是錯的-- FPKM/RPKM是錯的 。

我推薦閱讀 Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data , 了解不同標准化方法之間的差異。

有一些方法是要求原始數據,有一些則要求經過某類標准化後的數據,記得區分。

關於DESeq2分析差異表達基因,其實在 https://www.bioconctor.org/help/workflows/rnaseqGene/ 裡面介紹的非常清楚了。

我們已經准備好了count matrix,接下來就是把數據導入DESeq2。DESeq2導入數據的方式有如下4種,基本覆蓋了主流read count軟體的結果。
DESeq2要求的數據是raw count, 沒必要進行FPKM/TPM/RPFKM/TMM標准化。

本來我們是可以用DESeq2為htseq-count專門提供的 DESeqDataSetFromHTSeq ,然而很尷尬數據不夠要自己湊數,所以只能改用 DESeqDataSetFromMatrix 了 :cold_sweat:

導入數據,構建 DESeq2 所需的 DESeqDataSet 對象

: 這一步到下一步之間可以過濾掉一些low count數據,節省內存,提高運行速度

使用 DESeq 進行差異表達分析: DESeq 包含三步,estimation of size factors(estimateSizeFactors), estimation of dispersion(estimateDispersons), Negative Binomial GLM fitting and Wald statistics(nbinomWaldTest),可以分布運行,也可用一步到位,最後返回 results 可用的DESeqDataSet對象。

用results獲取結果: results的參數非常的多,這里不好具體展開 :pensive: 但是你們會自己看的吧

我們可用mcols查看每一項結果的具體含義,比如說 log2FoldChange 表示倍數變化取log2結果,還能畫個火山圖。一般簡單粗暴的用2到3倍作為閾值,但是對於低表達的基因,3倍也是噪音,那些高表達的基因,1.1倍都是生物學顯著了。更重要的沒有考慮到組內變異,沒有統計學意義。 padj 就是用BH對多重試驗進行矯正。

用summary看描述性的結果,大致是上調的基因占總體的11%,下調的是7.1%(KD vs control)

畫個MA圖,還能標注p值最小的基因。

下圖是沒有經過 statistical moderation平緩log2 fold changes的情況

如果經過 lfcShrink 收縮log2 fold change, 結果會好看很多

當然還有火山圖,不過留給其他方法作圖,我們先把差異表達的基因找出來。

一般p value 小於0.05就是顯著了, 顯著性不代表結果正確,只用於給後續的富集分析和GSEA提供排序標准和篩選而已。關於P值的吐槽簡直無數, 請多注意。

edgeR在函數說明中稱其不但可以分析SAGE, CAGE的RNA-Seq,Tag-RNA,或RNA-seq, 也能分析ChIP-Seq和CRISPR得到的read counts數據。嗯,我信了:confused:!

edgeR使用 DGEList 函數讀取count matrix數據,也就說你需要提供一個現成的matrix數據,而不是指望它能讀取單獨的文件,然後進行合並(當然機智的我發現,其實可以用 tximport 或 DESeqDataSetFromHTSeq 讀取單獨的文件,然後傳遞給 DGEList )

第一步: 構建DGEList對象

第二步: 過濾 low counts數據。與DESeq2的預過濾不同,DESeq2的預過濾只是為了改善後續運算性能,在運行過程中依舊會自動處理low count數據,edgeR需要在分析前就要排除那些low count數據,而且非常嚴格。從生物學角度,有生物學意義的基因的表達量必須高於某一個閾值。從統計學角度上, low count的數據不太可能有顯著性差異,而且在多重試驗矯正階段還會拖後腿。 綜上所訴,放心大膽的過濾吧。

根據經驗(又是經驗 :dog: ), 基因至少在某一些文庫的count超過10 ~ 15 才被認為是表達。這一步全靠嘗試, 剔除太多就緩緩,剔除太少就嚴格點。 我們可以簡單的對每個基因的raw count進行比較,但是建議用CPM(count-per-million) 標准化 後再比較,避免了 文庫大小 的影響。

這里的0.5(即閾值)等於 10/(最小的文庫的 read count數 /1000000),keep.lib.size=FALSE表示重新計算文庫大小。

第三步: 根據組成偏好(composition bias)標准化。edgeR的 calcNormFactors 函數使用 TMM演算法 對DGEList標准化

大部分的mRNA-Seq數據分析用TMM標准化就行了,但是也有例外,比如說single-cell RNA-Seq(Lun, Bach, and Marioni 2016), 還有就是global differential expression, 基因組一半以上的基因都是差異表達的,請盡力避免,(D. Wu et al. 2013), 不然就需要用到內參進行標准化了(Risso et al. 2014).

第四步: 實驗設計矩陣(Design matrix), 類似於DESeq2中的design參數。 edgeR的線性模型和差異表達分析需要定義一個實驗設計矩陣。很直白的就能發現是1vs0

第五步: 估計離散值(Dispersion)。前面已經提到負二項分布(negative binomial,NB)需要均值和離散值兩個參數。edgeR對每個基因都估測一個經驗貝葉斯穩健離散值(mpirical Bayes moderated dispersion),還有一個公共離散值(common dispersion,所有基因的經驗貝葉斯穩健離散值的均值)以及一個趨勢離散值

還可以進一步通過quasi-likelihood (QL)擬合NB模型,用於解釋生物學和技術性導致的基因特異性變異 (Lund et al. 2012; Lun, Chen, and Smyth 2016).

注1 估計離散值這個步驟其實有許多 estimate*Disp 函數。當不存在實驗設計矩陣(design matrix)的時候, estimateDisp 等價於 estimateCommonDisp 和 estimateTagwiseDisp 。而當給定實驗設計矩陣(design matrix)時, estimateDisp 等價於 estimateGLMCommonDisp , estimateGLMTrendedDisp 和 estimateGLMTagwiseDisp 。 其中tag與gene同義。

注2 其實這里的第三, 四, 五步對應的就是DESeq2的 DESeq 包含的2步,標准化和離散值估測。

第六步: 差異表達檢驗(1)。這一步主要構建比較矩陣,類似於DESeq2中的 results 函數的 contrast 參數。

這里用的是 glmQLFTest 而不是 glmLRT 是因為前面用了glmQLTFit進行擬合,所以需要用QL F-test進行檢驗。如果前面用的是 glmFit ,那麼對應的就是 glmLRT . 作者稱QL F-test更加嚴格。多重試驗矯正用的也是BH方法。

後續就是提取顯著性差異的基因用作下游分析,做一些圖看看

第六步:差異表達檢驗(2)。上面找到的顯著性差異的基因,沒有考慮效應值,也就是具體變化了多少倍。我們也可用找表達量變化比較大的基因,對應的函數是 glmTreat 。

經過上面兩個方法的洗禮,基本上套路你也就知道了,我先簡單小結一下,然後繼續介紹limma包的 voom 。

Limma原先用於處理基因表達晶元數據,可是說是這個領域的老大 :sunglasses: 。如果你仔細看edgeR導入界面,你就會發現,edgeR有一部分功能依賴於limma包。Limma採用經驗貝葉斯模型( Empirical Bayesian model)讓結果更穩健。

在處理RNA-Seq數據時,raw read count先被轉成log2-counts-per-million (logCPM),然後對mean-variance關系建模。建模有兩種方法:

數據預處理 : Limma使用edgeR的DGEList對象,並且過濾方法都是一致的,對應edgeR的第一步,第二步, 第三步

差異表達分析 : 使用」limma-trend「

差異表達分析 : 使用」limma-voom「

如果分析基因晶元數據,必須好好讀懂LIMMA包。

基本上每一個包,我都提取了各種的顯著性基因,比較就需要用韋恩圖了,但是我偏不 :stuck_out_tongue: 我要用UpSetR.

感覺limma的結果有點奇怪,有生之年在折騰吧。

好吧,這部分我鴿了

[1] Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data

[2] https://www.bioconctor.org/help/workflows/rnaseqGene/

[3] https://www.bioconctor.org/help/workflows/RnaSeqGeneEdgeRQL/

[4] https://www.bioconctor.org/help/workflows/RNAseq123/

閱讀全文

與差異表達分析基因方法相關的資料

熱點內容
手臂痛怎麼治療方法 瀏覽:481
days360函數的使用方法 瀏覽:631
治療濕尤有效方法 瀏覽:910
小米的快捷鍵設置在哪裡設置方法 瀏覽:770
用底線思維方法解決問題 瀏覽:278
檢測方法elisa法 瀏覽:192
遠離口臭的最佳治療方法 瀏覽:684
中葯及其制劑常用的純化方法 瀏覽:151
充電機使用方法步驟12V 瀏覽:1001
正確懷孕的方法 瀏覽:50
iphone6跳屏解決方法 瀏覽:895
怎麼鑒定玉的真假最簡單的方法 瀏覽:60
椰子鞋帶交叉方法視頻 瀏覽:528
畫軸力圖的簡便方法 瀏覽:903
教學方法包含了教學手段 瀏覽:346
媽媽尿毒症的最佳治療方法 瀏覽:958
齒痕舌的原因和治療方法 瀏覽:759
高里程數計算方法 瀏覽:869
15x120簡便計算方法 瀏覽:57
成武白酥雞的食用方法 瀏覽:866