1. 轉載--基因表達水平及差異表達分析
<meta charset="utf-8">
基因表達水平分析
一個基因表達水平的直接體現就是其轉錄本的豐度情況,轉錄本豐度越高,則基因表達水平越高。在RNA-seq分析中,我們可以通過定位到基因組區域或基因外顯子區的測序序列(reads)的計數來估計基因的表達水平。Reads計數除了與基因的真實表達水平成正比外,還與基因的長度和測序深度成正相關。為了使不同基因、不同實驗間估計的基因表達水平具有可比性,人們引入了FPKM的概念,FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairssequenced)是每百萬fragments中來自某一基因每千鹼基長度的fragments數目,其同時考慮了測序深度和基因長度對fragments計數的影響,是目前最為常用的基因表達水平估算方法(Trapnell, Cole, et al., 2010)。
差異表達分析
通過所有基因的FPKM分布圖以及盒形圖對不同實驗條件下的基因表達水平進行比較。對於同一實驗條件下的重復樣品,最終的FPKM為所有重復數據的平均值。
基因差異表達的輸入數據為基因表達水平分析中得到的readcount數據。對於有生物學重復的樣品,我們採用DESeq(Anders et al, 2010)進行分析:
該分析方法基於的模型是負二項分布,第 i 個基因在第 j 個樣本中的 read count 值為Kij,則有Kij ~ NB(µij,σij2)
對於無生物學重復的樣品,先採用TMM對read count數據進行標准化處理,之後用DEGseq進行差異分析。差異表達基因列表如下:
用火山圖可以推斷差異基因的整體分布情況,對於無生物學重復的實驗,為消除生物學變異,從差異倍數和顯著水平兩個方面進行評估,對差異基因進行篩選,
閾值設定一般為: |log2(FoldChange)| > 1 且 qvalue < 0.005。對於有生物學重復的實驗,由於DESeq已經進行了生物學變異的消除,我們對差異基因篩選的標准一般為:
padj < 0.05。
差異基因維恩圖
差異基因維恩圖展示了各比較組間差異基因的個數,以及比較組間的重疊關系。
差異基因聚類分析
聚類分析用於判斷差異基因在不同實驗條件下的表達模式;通過將表達模式相同或相近的基因聚集成類,從而識別未知基因的功能或已知基因的未知功能;因為這些同類的基因可能具有相似的功能,或是共同參與同一代謝過程或細胞通路。以不同實驗條件下的差異基因的FPKM值為表達水平,做層次聚類(hierarchical clustering)分析,不同顏色的區域代表不同的聚類分組信息,同組內的基因表達模式相近,可能具有相似的功能或參與相同的生物學過程。
2. 💉🈯[生信基礎知識]幾種常用的差異表達基因識別方法FC,T檢驗,SAM
目前常用的幾款差異表達進識別方法有:FC、T檢驗、SAM等
FC(Fold Change) 演算法是最早用於識別 兩種 不同的實驗條件下基因表達水平存在差異的演算法,其演算法的原理是計算基因在兩類樣本中平均表達水平的倍數值,若該值達到預先設定的閾值(一般設置為2,在以2為底的對數表達比中為大於1或小於-1),則判定基因為差異表達(DE,different expression)基因,計算公式如下,其中,mean(X(i))與mean(Y(i))代表基因 i 在兩類樣本中的平均表達值:
在很多實際應用中,常常有人把FC值做log2轉換,log2fc 值相較於fc的有點在於:log2fc的值有正負值之分,很容易看出2個group之間的上下調關系>
關於limma包差異分析結果的logFC解釋
t檢驗(t-test) ,常用來識別兩類樣本中DE基因的演算法。其主要原理為:對每一個基因計算一個t統計量來衡量兩類樣本中基因表達的差異,然後根據t分布計算顯著性p值來衡量這種差異的顯著性。計算公式如下,其中,分子代表基因i在兩類樣本中的平均表達差值,分母代表基因i在所有樣本中的標准誤:
由於t檢驗要求數據呈現正太分布,所以公式中基因的表達值為測量值經過標准化後的值,反應的是兩類樣本間基因表達的倍數變化,也存在FC方法同樣的偏向性。此外,對基礎表達量低的基因來說,一個微小變異程度(標准誤)可能導致一個大的絕對t統計值,從而被識別為DE基因,即使在兩類條件下這個基因的平均表達水平的差異很小。低表達的基因比高表達的基因更容易產生大的t統計量。已有研究指出,數據的信噪比會隨著基因表達量的增高而降低,這就意味著,低表達的基因更容易受到雜訊的影響而產生誤差。因此,t檢驗同樣傾向於識別表達水平低的基因作為DE基因。
SAM(Significance analysis of microarrays) 演算法用於微陣列基因表達譜數據識別DE基因 。SAM演算法與t檢驗相似,但為了使具有較小標准誤的基因不會被誤判為DE基因,SAM在t統計量的分母中增加了校正值,提高了t檢驗的穩定性。計算公式如下,其中S0 為樣本殘差標准誤的校正值:
上還有一些關於差異表達的文章,你可以也看看
【r<-生信|實戰】用方差分析差異表達基因
基因晶元(Affymetrix)分析3:獲取差異表達基因
差異表達基因
差異表達分析圖標結果釋義
1.趙發林, 閆曉光, 李康. 幾種差異基因分析方法及篩選效果的比較[J]. 中國衛生統計, 2008, 25(4):354-356.
2.黃海燕 基於可重復性評價識別與癌相關的高表達基因
3. 從mRNA和蛋白水平來分析基因表達差異的方法有哪些
從mRNA和蛋白水平來分析基因表達差異的方法有哪些
基因的表達是DNA-RNA-蛋白,期間有轉錄水平調控、轉錄後復調控、翻譯後調控等多種調控機制影響該基因的表達.所以蛋白水平高低的原因就可能是多方面的.蛋白表達多,可能是mRNA多,也可能mRNA變化不大,而是翻譯多了;蛋白表達少制,原因亦然.從2個水平檢測一個基因的表達,可以更全面地了解該基因在該組織某個時期或某種條件下的變化受到什麼水平的調控.
所謂基因表達,就是從DNA到mRNA再到蛋白的一個過程,基因表達水平一般是通過百該基因轉錄的mRNA的多少來衡量的.每個基因轉錄產生的mRNA的量,是受到時空等多種因素調控的,個體在不同的生長發育階段,或者不同的組織水平,基因轉錄出mRNA的量都是不一樣的.例如,當某種植物長期生長在高度鹽的環境里,該植物體內與抗鹽相關的基因的表達量就會增加,以適應這種高鹽環境,是植物能夠生存下來,這時植物抗鹽相關的基因表達水平就相對高,希望我的回答能夠幫你弄清這個問題,
4. 怎麼判斷差異表達的基因
真核生物中,從個體的生長、發育、衰老、死亡,到組織的得化、調亡以及細胞對各種生物、理化因子的應答,本質上都涉及基因的選擇性表達。高等生物大約有30000個不同的基因,但在生物體內任意8細胞中只有10%的基因的以表達,而這些基因的表達按特定的時間和空間順序有序地進行著,這種表達的方式即為基因的差異表達。其包括新出現的基因的表達與表達量有差異的基因的表達。生物體表現出的各種特性,主要是由於基因的差異表達引起的。
由於基因的差異表達的變化是調控細胞生命活動過程的核心機制,通過比較同一類細胞在不同生理條件下或在不同生長發育階段的基因表達差異,可為分析生命活動過程提供重要信息。研究基因差異表達的主要技術有差別雜交(differential hybridization)、扣除(消減)雜交(subtractive hybridization of cDNA,SHD)、mRNA差異顯示(mRNA differential display, DD)、抑制消減雜交法(suppression subtractive hybridization,SSH)、代表性差異分析(represential display analysis,RDA)、交互扣除RNA差別顯示技術(reciprocal subtraction differential RNA display)、基因表達系列分析(serial analysis of gene expression,SAGE)、電子消減(electronic subtraction)和DNA微列陣分析(DNA microarray)等。
一、差別雜交與扣除雜交
差別雜交(differential hybridization)又叫差別篩選(differential screening),適用於分離經特殊處理而被誘發表達的mRNA的cDNA克隆。為了增加這種方法的有效性,後來又發展出了扣除雜交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通過構建扣除文庫(subtractive library)得以實現的。
(一)差別雜交
從本質上講,差別雜交也是屬於核酸雜交的范疇。它特別適用於分離在特定組織中表達的基因、在細胞周期特定階段表達的基因、受生長因子調節的基因、以及在特定發育階段表達的或是參與發育調節的基因,同時亦可有效地用來分離經特殊處理而被誘發表達的基因。目前,差別雜交篩選法在克隆基因的分離工作中有著相當廣泛的用途。
差別雜交的技術基礎十分簡單,它不需要任何有關的目的基因的核苷酸序列信息,而重要的是耍擁有兩種不同的細胞群體:在一個細胞群體中目的基因正常表達,在另一個細胞群體中目的基因不表達。在這種情況下便可制備到兩種不同的mRNA提取物。其一是含有一定比例的目的基因mRNA類型的總mRNA群體,其二是不含有目的基因mRNA類型的總mRNA群體。因此,可以通過這兩種總mRNA(或是它們的cDNA拷貝)為探針的平行雜交,對由表達目的基因的細胞總mRNA構建的克隆庫進行篩選。當使用存在目的基因的mRNA探針時,所有包含著重組體的菌落都呈陽性反應,在X光底片上呈現黑色斑點,而使用不存在目的基因的mRNA探針時,除了含有目的基因的菌落外,其餘的所有菌落都呈陽性反應,在X光底片上呈現黑色斑點。比較這兩種底片並對照原平板,便可以挑選出含目的基因的菌落,供作進一步研究使用。
差別雜交篩選技術已被成功地用於分析爪蟾和粘菌的發育問題。這兩個應用例子表明,處於不同發育狀態或階段的豐度相差5倍的特異的mRNA種是能夠被檢測出來的。生長因子調節基因(growth factor-regulated gene)的克隆,是差別雜交成功應用的一個典型例子。我們知道,血清中含有生長因子,因此用血清處理處於靜止期的細胞時,便會迅速誘發生長因子調節基因進行表達。所以,分別從靜止期細胞培養物和經血清激活3小時的細胞培養物中提取的poly(A)mRNA制劑,在mRNA種類上是有差別的,至少後者比前者多出了一種生長因子調節基因的mRNA類型。用從激活細胞中分離的poly(A)mRNA反轉錄合成的cDNA與λ噬菌體載體重組,構成cDNA文庫,並同時復制兩份硝酸纖維素濾膜。A組濾膜同血清激活細胞制備的cDNA探針雜交,B組濾膜同靜止期細胞制備的cDNA探針雜交。將所得的放射自顯影圖片進行仔細的比較,從中鑒定出只同激活細胞探針雜交而不能同靜止期細胞探針雜交的噬菌斑位置。這些克隆便有可能是帶有受血清誘發表達的生長因子調節基因的DNA編碼序列。
(二)扣除雜交
差別雜交可有效地對於因特殊處理而被誘發產生的mRNA的cDNA克隆的分離,或是在細胞中具高表達效率的mRNA之cDNA克隆的分離,但對於低豐度的mRNA的cDNA克隆的分離則有相當的困難。為了進一步提高差別雜交的篩選效率,一種切實可行的辦法是應用扣除雜交篩選法構建富含目的基因序列的cDNA文庫。
扣除雜交法的本質是除去那些普遍共同存在的、或是非誘發產生的cDNA序列,從而使待分離的目的基因的序列得到有效的富集,提高了分離的敏感性。下面以T細胞受體(T-cell receptor,TCR有時亦稱之為T細胞抗原受體)編碼基因的分離為例子,說明扣除雜交篩選法的基本原理與簡要過程。T細胞和B細胞來自共同的前體細胞,兩者都能夠識別特異的抗原。但與B細胞不同,T細胞不能識別游離的抗原,而只能識別在其它細胞表面的抗原。T細胞的這種抗原識別特異性是由TCR基因決定的。TCR基因只能在T細胞中表達,而不能在B細胞中表達。那麼從T細胞mRNA制備來的單鏈cDNA,同大大超量的B細胞的mRNA在有利於發生DNA-RNA雜交的條件下保溫,其結果會是所有的能夠在T和B兩類細胞中同時表達的T細胞基因的cDNA分子(約佔98%),都能與B細胞的mRNA退火形成DNA-RNA雜交分子,而不能在B細胞中表達的、T細胞特有的cDNA(約佔2%),由於B細胞中沒有相應的mRNA,故不能形成DNA-RNA雜交分子,仍然處於單鏈的狀態。將此種雜交混合物通過羥基磷灰石柱(hydroxylapatite column),於是DNA-RNA雜交分子便結合在柱上,而游離的單鏈cDNA則過柱流出。回收到的T細胞特異的cDNA被轉變為雙鏈cDNA之後,與適當的λ噬菌體載體重組並轉染給大腸桿菌寄主細胞,這樣便得到了T細胞特異cDNA高度富集的扣除文庫。然後再按照同樣方法制備扣除的cDNA探針,即被B細胞mRNA雜交扣除了的T細胞特異的cDNA探針,篩選文庫,可成功地分離到了T細的TCR基因。
扣除雜交法同樣也可以用來分離缺失突變基因。從野生型植株制備的染色體總DNA,用一種適當的核酸內切限制酶(比如Sau3A)切割成小片段。同時從缺失突變體植株制備的染色體總DNA,經隨機切割之後,用生物素(biotin)進行標記,作為非同位素標記探針使用。取大大超量的此種探針,同Sau3A酶切的野生型染色體總DNA片段混合,經變性、退火處理,溶液中的無生物素標記的野生型的DNA分子便同生物素標記的突變型的DNA探針雜交。將雜交反應混合物通過生物素結合蛋白質柱(avidin column)。這種柱是用包裹著生物素結合蛋白質的專用的細小磁珠裝填的。大部分野生型植株的DNA分子都同突變型植株的生物素標記的DNA探針雜交,便被結合到柱上。而野生型植株的DNA片段由於在突變型DNA中缺失了相應的片段,故沒有相應的生物素標記的探針與之雜交,經洗脫便過柱流出。隨後將洗脫收集的DNA同超量的生物素標記探針再雜交,再過柱。如此經過多次重復富集之後,用PCR法擴增DNA片段,並予以克隆。最後用Southern雜交法進一步鑒定出,只同野生型DNA雜交而不能同突變型DNA雜交的含有突變基因的陽性克隆。
5. 基因表達譜分析方法
表達譜案例分析
肺癌組織的表達譜分析:選取 2 個肺癌病人( 5T 和 10T)的組織提取總 RNA,進 行分析。
實驗目的:為了檢測兩個病人中表達差異較大的基因, 以便找出兩個病人症狀差 異的原因,並進行下一步相關的研究。
1、 數據質量的概述
通過嚴格的質量標准篩選後, 通過率達到 80%,最終得到 500 萬左右的 Tag標簽。
2、 標簽的初步分析統計
兩個樣品中有 95%的 Tag重復頻度超過 1,73%以上的 Tag重復頻度超過 50。
3、 表達譜測序飽和度分析
通過對表達譜測序飽和度的分析,通常在表達譜 Tag數目達到 200 萬時,測序 Tag接近飽和。因此,通過 Solexa 測序,僅需要 1次試驗,就可以得到足夠後 續進行表達分析的數據。
4、 樣品重復性。
5、 Tag 標簽的注釋(含 cDNA,預測基因, EST,線粒體基因組,基因組等)
本案例中,人的 2 萬 7 千個基因中有 50~60%都被 Tag所覆蓋。即一般的基因的 表達量差異被檢測出來。 為了提高 Tag同基因關聯的可信度, 我們僅僅選取了在 基因序列中唯一定位的 Tag。這部分唯一定位的 Tag佔全部 Tag數目的 50%左右。
另外,除去上述用於基因表達量統計的唯一定位 Tag,有大約 20%的 Tag 被定位 到了基因組的未注釋區域, 其中大約有 10萬個 Tag在基因組上的位置是唯 一的。 利用這些數據我們找到了許多新的轉錄本和調控區域。 同時發現了若干潛在的兩 個樣品間顯著差異的區域。為後續的實驗提供了可靠的研究目標。
6、 參考 Tag標簽的統計分析
下表顯示的人的參考 Tag 的統計信息,我們可以看到 96.53%的基因都擁有 Tag。 說明 Tag-based 新一代測序技術的方法進行表達譜分析的可行性
7、 基因表達量的分布統計
8、 樣本間表達差異基因的相關分析
通過對表達差異基因的統計和分析,我們可以選取樣品間表達存在差異的基因, 反饋給用戶; 此外一些已經報道可能相關的基因, 是這一部分研究的重點, 通過 表達差異,我們可以推測出相關基因可能發生的變化。針對此例,圖 3-3 中 2 個基因是已經報道的在 10T樣品中高表達的基因。
9、 樣本間表達差異基因的信號通路相關分析
對差異表達基因進行功能分析和信號通路分析。 結合樣本性狀差異, 鑒定與性狀 關聯的候選基因,以便通過進一步實驗驗證。
10、 根據 Tag距離 3』端的位置對 tag 和基因數目進行的統計分析
6. 差異基因檢測方法
差異基因的檢測方法很多,但生物學家偏好使用的是fold change(FC)和t-test。猜測因為一是它們比較簡單,二來好解釋。很多研究表明,改進的t-test可以提高top gene list的質量。現在簡單的說一下原理
指兩個組group之間每個gene平均值在log2水平的差異。
FC=3=log2A-log2B=log(A/B)
所以,A/B=2^3=8
這樣有一個缺點就是高的FC並非真正的差異,而是來自變異,並無生物學意義。
值得注意的是,基於FC的gene list比基於t-test的可重復性強,但這不代表著更准確。
所以,如果關注基因表達的絕對變化,則看FC
如果關注潛在的噪音,則用t-test。
也就是說,FC只考慮到組間差異,二未考慮組內變異。
差異性=signal/noise,期中signal即為組間變異,二noise為組內變異
groupA和groupB的差異XA均值-XB均值,這個同FC的M均值。受3個因素影響
(1)Fold change(M均值):M均值越大,t值越大,也就是說signal大
(2)Variance(s):s越小,t越小,就是組內差異大,即noise大
(3)sample size(n):n越大,t越大,即M均值和s同樣的情況下,n越大,結果越精確。
上面可以看出,即使FC不大,但s值足夠小,也會有大的t值,所以引入懲罰t-test。初衷是避免將表達水平和變異程度較低的無生物學意義的gene識別為差異gene。
其中,s0是個小的正數。引入s0消除s過小
可見,若S小,則S0作用大,反之,S大,S0作用小。
晶元分析中的SAM(significant analysis of microarrays)即這種方法。
步驟
(1)samples在AB之間隨機打亂重拍1000次,d-value依次計算,這些d-value的均值作為整個gene的d-value,觀察到的d-value偏離期望d-value越大,越可能是真正的差異gene。
(2)隨著作者的cut off(德爾塔value)被選擇,需要權衡差異基因數目和假陽性結果的數目(FDR).
繼而,有基於貝葉斯理論的moerated t-test。也是最常用的。
包括貝葉斯模型,支持向量或隨機森林。
7. 怎麼判斷差異表達的基因
判斷差異表達的基因常用的分析方法有三類,第一類稱之為倍數分析,計算每一個基因在兩個條件下的 Ratio 值,若大於給定閾值,則為表達差異顯著的基因;第二類方法採用統計分析中的 t 檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統計顯著性;第三類是建模的方法,通過確定兩個條件下的模型參數是否相同來判斷表達差異的顯著性,例如貝葉斯方法。
8. 差異分析
基因的差異表達,即發現一組在正常樣本和患病樣本中表達不同的基因。
最簡單的是閾值法,用倍數分析基因表達水平差異,即計算基因在兩個條件下表達水平的比值(癌症和正常),確定比值的閾值,將絕對值大於此閾值的基因判斷為差異基因。
最常用的T-test、ANOVA(方差分析)或者稱為F檢驗。
T-test 檢驗是差異基因表達檢測中常用的統計方法,通過合並樣本間可變的數據,來評價差異表達,用於判斷某一基因在兩個樣本中是否有差異表達。由於晶元實驗成本較高,樣本量較少,從而對總體方差的估計不很准確,T檢驗的檢驗效能降低。
SAM演算法就是通過控制FDR值糾正多重假設檢驗中的假陽性率。SAM 方法檢驗差異表達,通過對分母增加一個常量 T 檢驗過程減小了假陽性發生的概率。根據文獻記載,相比較其他演算法,SAM演算法更為穩定,篩選出的結果也更為准確。SAM方法以q-value< 0.05作為篩選差異表達基因的標准,從公式上來看,p-value和q-value較為相似,而差異篩選是一個典型的多重假設檢驗過程。對於多重假設檢驗,單次檢驗中差異顯著基因的假陽性率(p-value較小)可能會較大,而 q-value 和 FDR值較常見的BH校正方法 得到的FDR值而言,改進了其對假陽性估計的保守性。
火山圖可反映總體基因的表達情況, 橫坐標代表log2(Fold Change),縱坐標表示-log10(P值),每個點代表一個基因,顏色用以區分基因是否差異表達, 圖中橙色的點代表差異表達基因,藍色的點代表沒有差異表達的基因。
聚類圖可以衡量 樣本或基因之間表達的相似性 。 如上圖所示的聚類圖中, 橫坐標代表樣本聚類 ,一列代表一個樣本,聚類基於樣本間基因表達的相似性,樣本間基因表達越接近,靠的越近,以此類推。 縱坐標代表基因聚類 ,一行代表一個基因,聚類基於基因在樣本中表達的相似性,基因在樣本中表達越接近,靠的越近,以此類推。 色階代表基因表達豐度 ,越紅代表上調得越明顯,越綠代表下調得越明顯。
REF:
https://www.jianshu.com/p/b55276e46f0c
https://blog.csdn.net/u012325865/article/details/87344725
http://college.gcbi.com.cn/archives/1616
https://www.cnblogs.com/leezx/p/7132099.html
9. 差異表達基因分析:差異倍數(fold change), 差異的顯著性(P-value)
Differential gene expression analysis:差異表達基因分析
Differentially expressed gene (DEG):差異表達基因
差異表達分析是目前比較常用的識別疾病相關miRNA以及基因的方法,目前也有很多差異表達分析的方法,但比較簡單也比較常用的是Fold change方法。
它的優點是計算簡單直觀,缺點是沒有考慮到差異表達的統計顯著性;通常以2倍差異為閾值,判斷基因是否差異表達。Fold change的計算公式如下:
即用疾病樣本的表達均值除以正常樣本的表達均值。
差異表達分析的目的: 識別兩個條件下表達差異顯著的基因,即一個基因在兩個條件中的表達水平,在排除各種偏差後,其差異具有統計學意義。我們利用一種比較常見的T檢驗(T-test)方法來尋找差異表達的miRNA。T檢驗的主要原理為:對每一個miRNA計算一個T統計量來衡量疾病與正常情況下miRNA表達的差異,然後根據t分布計算顯著性p值來衡量這種差異的顯著性,T統計量計算公式如下:
差異倍數(fold change)
fold change翻譯過來就是倍數變化,假設A基因表達值為1,B表達值為3,那麼B的表達就是A的3倍。一般我們都用count、TPM或FPKM來衡量基因表達水平,所以基因表達值肯定是非負數,那麼fold change的取值就是(0, +∞).
為什麼我們經常看到差異基因里負數代表下調、正數代表上調?因為我們用了log2 fold change。
當expr(A) < expr(B)時,B對A的fold change就大於1,log2 fold change就大於0(見下圖),B相對A就是上調;
當expr(A) > expr(B)時,B對A的fold change就小於1,log2 fold change就小於0。
通常為了防止取log2時產生NA,我們會給表達值加1(或者一個極小的數),也就是log2(B+1) - log2(A+1). 【需要一點對數函數的基礎知識】
為什麼不直接用表達之差,差值接有正負啊?
假設A表達為1,B表達為8,C表達為64;直接用差值,B相對A就上調了7,C就相對B上調了56;用log2 fold change,B相對A就上調了3,C相對B也只上調了3.
通過測序觀察我們發現,不同基因在細胞里的表達差異非常巨大,所以直接用差顯然不合適, 用log2 fold change更能表示相對的變化趨勢。
雖然大家都在用log2 fold change,但顯然也是有缺點的:
一、到底是5到10的變化大,還是100到120的變化大?
二、5到10可能是由於技術誤差導致的。所以當基因總的表達值很低時,log2 fold change的可信度就低了,尤其是在接近0的時候。
A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.
差異的顯著性(P-value)
這就是統計學的范疇了,顯著性就是根據假設檢驗算出來的。
假設檢驗首先必須要有假設,我們假設A和B的表達沒有差異(H0,零假設),然後基於此假設,通過t test(以RT-PCR為例)算出我們觀測到的A和B出現的概率,就得到了P-value, 如果P-value<0.05,那麼說明小概率事件出現了,我們應該拒絕零假設,即A和B的表達不一樣,即有顯著差異。
顯著性只能說明我們的數據之間具有統計學上的顯著性,要看上調下調必須回去看差異倍數。
對於得到的顯著性p值,我們需要進行多重檢驗校正(FDR),比較常用的是BH方法(Benjamini and Hochberg, 1995)。
這里只說了最基本的原理,真正的DESeq2等工具裡面的演算法肯定要復雜得多。
這張圖對q-value(校正了的p-value)取了負log,相當於越顯著,負log就越大,所以在火山圖里,越外層的岩漿就越顯著,差異也就越大。
只需要看懂DEG結果的可以就此止步,想深入了解的可以繼續。
下面可以繼續討論的問題有:
1、RNA-seq基本分析流程/2、
2、DEG分析的常用演算法/3、
3、常見DEG工具的方法介紹和相互比較
前言
做生物生理生化生信數據分析時,最常聽到的肯定是「差異(表達)基因分析」了,從最開始的RT-PCR,到基因晶元microarray,再到RNA-seq,最後到現在的single cell RNA-seq,統統都在圍繞著差異表達基因做文章。
(開個腦洞:再下一步應該會測細胞內特定空間內特定基因的動態表達水平了)
表達量 :我們假設基因轉錄表達形成的mRNA的數量反映了基因的活性,也會影響下游蛋白和代謝物的變化。我們關注的是 基因的表達 ,不是結構,也是不是isoform。
為什麼差異基因分析這么流行?
一是中心法則得到了確立,基因表達是核心的一個環節,決定了下游的蛋白組和代謝組;
二是建庫測序的普及,獲取基因的表達水平變得容易。
在生物體內,基因的表達時刻都在動態變化,不一定服從均勻分布,在不同時間、發育程度、組織和環境刺激下,基因的表達肯定會發生變化。
差異基因分析主要應用在:
發育過程中關鍵基因的表達變化 - 發育研究
突變材料里什麼核心基因的表達發生了變化 - 調控研究
細胞在受到葯物處理後哪些基因的表達發生了變化 - 葯物研發
目前我們對基因和轉錄組的了解到什麼程度了?
基本的建庫方法?建庫直接決定了我們能測到什麼序列,也決定了我們能做什麼分析!
基因表達的normalization方法有哪些?
第一類錯誤、第二類錯誤是什麼?
多重檢驗的校正?FDR?
10x流程解釋
The mean UMI counts per cell of this gene in cluster i
The log2 fold-change of this gene's expression in cluster i relative to other clusters
The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.
The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.
The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.
The p-value is a measure of the statistical significance of the expression difference and is based on a negative binomial test. The p-value reported here has been adjusted for multiple testing via the Benjamini-Hochberg procere.
In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files proced by the pipeline.
不同單細胞DEG鑒定工具的比較
Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data
For data with a high level of multimodality, methods that consider the behavior of each indivial gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 這些工具敏感性高,就是說不會漏掉很多真的DEG,但是會包含很多假的DEG。
If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 這些工具精準性很高,意味著得到的DEG里假的很少,所以會漏掉很多真的DEG,不會引入假的DEG。
time-course DEG analysis
Comparative analysis of differential gene expression tools for RNA sequencing time course data
參考:
Question: How to calculate "fold changes" in gene expression?
Exact Negative Binomial Test with edgeR
Differential gene expression analysis
10. 檢測基因表達水平差異的方法有哪些
基因的表達是dna-rna-蛋白,期間有轉錄水平調控、轉錄後調控、翻譯後調控等多種調控機制影響該基因的表達.
所以蛋白水平高低的原因就可能是多方面的.蛋白表達多,可能是mrna多,也可能mrna變化不大,而是翻譯多了;蛋白表達少,原因亦然.
從2個水平檢測一個基因的表達,可以更全面地了解該基因在該組織某個時期或某種條件下的變化受到什麼水平的調控.
所謂基因表達,就是從dna到mrna再到蛋白的一個過程,基因表達水平一般是通過該基因轉錄的mrna的多少來衡量的.
每個基因轉錄產生的mrna的量,是受到時空等多種因素調控的,個體在不同的生長發育階段,或者不同的組織水平,基因轉錄出mrna的量都是不一樣的.
例如,當某種植物長期生長在高鹽的環境里,該植物體內與抗鹽相關的基因的表達量就會增加,以適應這種高鹽環境,是植物能夠生存下來,這時植物抗鹽相關的基因表達水平就相對高
檢測基因表達的方法:
轉錄水平檢測:rt-pcr,real-time pcr,northern blot
翻譯水平檢測:western blot
還有直接檢測,如報告基因、融合熒光蛋白等。
rt-pcr是反轉錄pcr,是半定量方式。real-time pcr可以精確定量。 二者不同。後者為了區別於rt-pcr,一般不縮寫。
各位觀眾老爺們大家好!我是吆五,打算從今以後不定期分享一些生物類的專業知識。
一方面供自己學習積累,另一方面也希望對大家有所幫助。
生物是很枯燥的呢