1. 從mRNA和蛋白水平來分析基因表達差異的方法有哪些
從mRNA和蛋白水平來分析基因表達差異的方法有哪些
基因的表達是DNA-RNA-蛋白,期間有轉錄水平調控、轉錄後調控、翻譯後調控等多種調控機制影響該基因的表達.所以蛋白水平高低的原因就可能是多方面的.蛋白表達多,可能是mRNA多,也可能mRNA變化不大,而是翻譯多了;蛋白表達少,原因亦然.從2個水平檢測一個基因的表達,可以更全面地了解該基因在該組織某個時期或某種條件下的變化受到什麼水平的調控.
所謂基因表達,就是從DNA到mRNA再到蛋白的一個過程,基因表達水平一般是通過該基因轉錄的mRNA的多少來衡量的.每個基因轉錄產生的mRNA的量,是受到時空等多種因素調控的,個體在不同的生長發育階段,或者不同的組織水平,基因轉錄出mRNA的量都是不一樣的.例如,當某種植物長期生長在高鹽的環境里,該植物體內與抗鹽相關的基因的表達量就會增加,以適應這種高鹽環境,是植物能夠生存下來,這時植物抗鹽相關的基因表達水平就相對高,希望我的回答能夠幫你弄清這個問題,
2. 怎麼看出7種細胞中所表達的蛋白質不同
要比較7種細胞中所表達的蛋白質的差異,你可以採用以下方法:
1.二維電泳 (2-DE):
使用二維電泳可以將細胞的蛋白質按照等電點和分子量進行分離。不同細胞類型的2-DE圖譜會展現出不同的蛋白質斑點模式。通過對比這些圖譜,你可以觀察到哪些蛋白質在某些細胞中表達而在其他細胞中不表達。
2.質譜分析 (MS):
使用液相色譜質譜 (如LC-MS/MS) 直接對細胞裂解物進行蛋白質組分析,可以得到大規模的蛋白質鑒定和定量數據。專門的軟體可以用來對比不同細胞中的蛋白質表達。
3.蛋白質晶元:
使用蛋白質晶元可以同時檢測多種蛋白質的表達或活性。對7種細胞的樣品進行蛋白質晶元分析,可以快速看出哪些蛋白質在不同細胞中的表達存在差異。
4.免疫印跡 (Western blot):
如果你對某些特定的蛋白質感興趣,可以使用特定的抗體進行Western blot分析,以比較這些蛋白質在7種細胞中的表達水平。
5.免疫細胞化學和免疫熒光:
使用特定的抗體標記蛋白質,並使用顯微鏡進行觀察,可以直觀地看到不同細胞中蛋白質的表達和定位
3. 差異表達基因分析:差異倍數(fold change), 差異的顯著性(P-value)
Differential gene expression analysis:差異表達基因分析
Differentially expressed gene (DEG):差異表達基因
差異表達分析是目前比較常用的識別疾病相關miRNA以及基因的方法,目前也有很多差異表達分析的方法,但比較簡單也比較常用的是Fold change方法。
它的優點是計算簡單直觀,缺點是沒有考慮到差異表達的統計顯著性;通常以2倍差異為閾值,判斷基因是否差異表達。Fold change的計算公式如下:
即用疾病樣本的表達均值除以正常樣本的表達均值。
差異表達分析的目的: 識別兩個條件下表達差異顯著的基因,即一個基因在兩個條件中的表達水平,在排除各種偏差後,其差異具有統計學意義。我們利用一種比較常見的T檢驗(T-test)方法來尋找差異表達的miRNA。T檢驗的主要原理為:對每一個miRNA計算一個T統計量來衡量疾病與正常情況下miRNA表達的差異,然後根據t分布計算顯著性p值來衡量這種差異的顯著性,T統計量計算公式如下:
差異倍數(fold change)
fold change翻譯過來就是倍數變化,假設A基因表達值為1,B表達值為3,那麼B的表達就是A的3倍。一般我們都用count、TPM或FPKM來衡量基因表達水平,所以基因表達值肯定是非負數,那麼fold change的取值就是(0, +∞).
為什麼我們經常看到差異基因里負數代表下調、正數代表上調?因為我們用了log2 fold change。
當expr(A) < expr(B)時,B對A的fold change就大於1,log2 fold change就大於0(見下圖),B相對A就是上調;
當expr(A) > expr(B)時,B對A的fold change就小於1,log2 fold change就小於0。
通常為了防止取log2時產生NA,我們會給表達值加1(或者一個極小的數),也就是log2(B+1) - log2(A+1). 【需要一點對數函數的基礎知識】
為什麼不直接用表達之差,差值接有正負啊?
假設A表達為1,B表達為8,C表達為64;直接用差值,B相對A就上調了7,C就相對B上調了56;用log2 fold change,B相對A就上調了3,C相對B也只上調了3.
通過測序觀察我們發現,不同基因在細胞里的表達差異非常巨大,所以直接用差顯然不合適, 用log2 fold change更能表示相對的變化趨勢。
雖然大家都在用log2 fold change,但顯然也是有缺點的:
一、到底是5到10的變化大,還是100到120的變化大?
二、5到10可能是由於技術誤差導致的。所以當基因總的表達值很低時,log2 fold change的可信度就低了,尤其是在接近0的時候。
A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B − A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.
差異的顯著性(P-value)
這就是統計學的范疇了,顯著性就是根據假設檢驗算出來的。
假設檢驗首先必須要有假設,我們假設A和B的表達沒有差異(H0,零假設),然後基於此假設,通過t test(以RT-PCR為例)算出我們觀測到的A和B出現的概率,就得到了P-value, 如果P-value<0.05,那麼說明小概率事件出現了,我們應該拒絕零假設,即A和B的表達不一樣,即有顯著差異。
顯著性只能說明我們的數據之間具有統計學上的顯著性,要看上調下調必須回去看差異倍數。
對於得到的顯著性p值,我們需要進行多重檢驗校正(FDR),比較常用的是BH方法(Benjamini and Hochberg, 1995)。
這里只說了最基本的原理,真正的DESeq2等工具裡面的演算法肯定要復雜得多。
這張圖對q-value(校正了的p-value)取了負log,相當於越顯著,負log就越大,所以在火山圖里,越外層的岩漿就越顯著,差異也就越大。
只需要看懂DEG結果的可以就此止步,想深入了解的可以繼續。
下面可以繼續討論的問題有:
1、RNA-seq基本分析流程/2、
2、DEG分析的常用演算法/3、
3、常見DEG工具的方法介紹和相互比較
前言
做生物生理生化生信數據分析時,最常聽到的肯定是「差異(表達)基因分析」了,從最開始的RT-PCR,到基因晶元microarray,再到RNA-seq,最後到現在的single cell RNA-seq,統統都在圍繞著差異表達基因做文章。
(開個腦洞:再下一步應該會測細胞內特定空間內特定基因的動態表達水平了)
表達量 :我們假設基因轉錄表達形成的mRNA的數量反映了基因的活性,也會影響下游蛋白和代謝物的變化。我們關注的是 基因的表達 ,不是結構,也是不是isoform。
為什麼差異基因分析這么流行?
一是中心法則得到了確立,基因表達是核心的一個環節,決定了下游的蛋白組和代謝組;
二是建庫測序的普及,獲取基因的表達水平變得容易。
在生物體內,基因的表達時刻都在動態變化,不一定服從均勻分布,在不同時間、發育程度、組織和環境刺激下,基因的表達肯定會發生變化。
差異基因分析主要應用在:
發育過程中關鍵基因的表達變化 - 發育研究
突變材料里什麼核心基因的表達發生了變化 - 調控研究
細胞在受到葯物處理後哪些基因的表達發生了變化 - 葯物研發
目前我們對基因和轉錄組的了解到什麼程度了?
基本的建庫方法?建庫直接決定了我們能測到什麼序列,也決定了我們能做什麼分析!
基因表達的normalization方法有哪些?
第一類錯誤、第二類錯誤是什麼?
多重檢驗的校正?FDR?
10x流程解釋
The mean UMI counts per cell of this gene in cluster i
The log2 fold-change of this gene's expression in cluster i relative to other clusters
The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.
The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.
The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.
The p-value is a measure of the statistical significance of the expression difference and is based on a negative binomial test. The p-value reported here has been adjusted for multiple testing via the Benjamini-Hochberg procere.
In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files proced by the pipeline.
不同單細胞DEG鑒定工具的比較
Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data
For data with a high level of multimodality, methods that consider the behavior of each indivial gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 這些工具敏感性高,就是說不會漏掉很多真的DEG,但是會包含很多假的DEG。
If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 這些工具精準性很高,意味著得到的DEG里假的很少,所以會漏掉很多真的DEG,不會引入假的DEG。
time-course DEG analysis
Comparative analysis of differential gene expression tools for RNA sequencing time course data
參考:
Question: How to calculate "fold changes" in gene expression?
Exact Negative Binomial Test with edgeR
Differential gene expression analysis