A. 使用Metascape進行GO及KEGG分析
首先進入界面後可以輸入或者直接導入序列文件。點擊custom analysis即可。
網站不僅提供了富集信息,還給了PPI 的結果。
查看分析報告頁(橘色按鈕)
ps: excel 小技巧
= B2&":"&C2 可以合並B2、C2兩格內容
將GO 分析表格存儲在excel中
接著可以拿去作圖了,GO/KEGG 數值。
還可製作通路與靶點的圖片,Descrpition/hit
B. 轉錄測序中的nr,nt,swissprot,cog,kegg,go分別是什麼意思
NR庫屬於非冗餘蛋白序列資料庫,是NCBI官方的蛋白序列資料庫,數據來源於GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默認的蛋白比對資料庫。
NT資料庫是美國國家生物技術信息中心NCBI官方的核酸序列資料庫,NT庫屬於非冗餘核酸序列資料庫,數據來源於GenBank、EMBL 以及 DDBJ,是NCBI默認的核酸blast比對資料庫。
SwissProt資料庫是檢查過的、手工注釋的蛋白資料庫,我們將Unigene注釋到SwissProt資料庫,以得到更加高質量的注釋結果。
COG (clusters of orthologous groups)主要是原核生物和單細胞真核生物的直系同源物,KOG(clusters of euKaryotic Orthologous Groups)資料庫包含了7個完整基因組的真核生物的直系同源家族蛋白, 構成每個 KOG 的蛋白集是被假定為來自於一個祖先蛋白,根據系統發生進行分類,一般COG指原核生物,KOG指真核生物,KOG與COG提供了相似的基因同源物的分類信息。
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是處理基因組、生物通路、疾病、葯物和化學物質之間聯系的集成資料庫。 KEGG用於生物信息研究等,包括基因組,代謝組學等其他組學的數據分析,涵蓋了Drug Development(葯物開發)、 Cellular Processes(細胞過程)、 Environmental Information Processing(環境信息處理)、Genetic Information Processing(遺傳信息處理)、 Human Diseases(人類疾病), Metabolism(代謝)、 Organismal Systems(有機系統)等方面。
GO( Gene Ontology ): 基因本體。生物技術的發展迅速,數據越來越多,不同資料庫命名標准不統一,為了解決不同的生物學資料庫可能會使用不同的術語的問題,從而基因本體聯合會(Gene Onotology Consortium)開發GO來描述基因在分子、細胞和組織水平的功能體現。GO的基本描述單元是GO terms。GO主要包括三個分支: 生物過程(biological processes)、分子功能(molecular function)和細胞組成(cellular components),用於描述基因產物的功能。GO中使用了is_a、part_of和regulates三種互作關系。
C. 如何使用KAAS進行KEGG注釋
標簽: KEGG, RNAseq, bioinformatics
中文名: 京都基因與基因組網路全書
外文名: koyto Encyclopedia of Genes and Genomes
根據輸入數據大小,網速等需要等待一段時間,好了以後會收到一封郵件,然後會給兩個鏈接,首先要確認開始
當伺服器運算結果出來以後會郵件通知,結果又兩種形式,一種是網頁版,他會列出所有注釋到的信息,然後每個信息對應的通路圖,還會提供geneID2KUM,每個基因對應的kegg的K號(直系同源)
D. 富集分析第二彈
富集分析,來自於Enrichment這個詞語
F or example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.
通俗來說:富集分析是基於一個先驗的知識圖譜將輸入內容進行聚類分析,得到聚類後結果。
上句話中逐個概念解析:
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO 富集結果(柱狀圖)</figcaption>
結果解析:我們可以基於柱狀圖,清楚的看出,每一個聚類後結果(橫軸下方的欄位),以及每一個分類所對應的基因/基因產物數量(此圖中為蛋白質數量)
上圖是氣泡圖形式,由於GO有三個互不交集的ontology本體,所以要單獨分區展示。氣泡圖比柱狀圖可以多展現1個維度,在上圖中,體現了4個維度信息:
(1)氣泡表示分類條目
(2)氣泡大小表示基因/基因產物數量。
(3)增加了p-value的展示。p值的負對數分配給y軸(越高就越重要),統計學基礎是超幾何分布。( 從總的N個基因中挑出n個基因,作為分母(這是背景基因),分子則是M個基因(我們的差異基因,這是前景基因),有k個落在了某通路里,有n-k個不落在了某通路里,然後使用超幾何分布來對它們進行計算,即前景基因落在某通路的比例是否高於背景基因在這一通路的比例 )
(4)表達量的上下調。橫軸zscore表示是表達量是高了還是低了(一般應用於RNA和蛋白中,基因一般不涉及)。 [圖片上傳失敗...(image-efb449-1611106941603)]
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">點擊一個分類,可以查看其所對應的局部知識圖譜</figcaption>
得到目標對象(基因或者基因產物)的富集結果(詞條)後,通過查看網站對詞條的注釋聲明,來驗證或判斷目標對象作為生物標志物的合理性。
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">方法論示例</figcaption>
示例1:《 與胰腺癌相關的重要基因本體論術語和生物學途徑分析 》IF: 2.197
示例 2: 《 使用基因本體論術語和KEGG途徑進行化學毒性作用分析 》 IF: 3.681
GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析
(1) David ——The D atabase for A nnotation, V isualization and I ntegrated D iscovery ,支持在線進行GO功能富集分析。 工作組 很多華人(從名字上看)
(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在線進行GO功能富集分析。
(3) KOBAS ——KEGG Orthology Based Annotation System,支持在線進行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 關聯疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大團隊做的。
(4) clusterProfiler : universal enrichment tool for functional and comparative study。推薦一個R分析工作包,是生信分析領域大牛 Y叔 寫的,幾乎能支持市面上常見的各類功能、通路、關聯疾病分析,受science大力推薦(反正Y叔公眾號上他自己是這么說的,有沒有忽悠成分咱就不管了哈,但是吃過的都說香)。
以 KOBAS 為例,演示兩個流程:
(1) GO分析
step i :選擇「基於基因列表進行富集分析」
step ii:在計算頁面等一會,查看分析結果
step iii:查看GO的DAG圖
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:3A004408</figcaption>
也有這樣的:
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:0045893</figcaption>
(2)KEGG pathway分析
step i: 參數選擇KEGG
step ii: 查看計算結果
step iii: 查看通路圖
有些情況下KEGG會報錯:
解決方法:注意將url的末尾添加一個/符號,即可正常展示。
E. 在什麼時候可以調用reset master
PURGE {MASTER | BINARY} LOGS TO 'log_name'
PURGE {MASTER | BINARY} LOGS BEFORE 'date'
用於刪除列於在指定的日誌或日期之前的日誌索引中的所有二進制日誌。這些日誌也會從記錄在日誌索引文件中的清單中被刪除,這樣被給定的日誌成為第一個。
例如:
PURGE MASTER LOGS TO 'mysql-bin.010';
PURGE MASTER LOGS BEFORE '2008-06-23 15:00:00';
清除3天前的 binlog
PURGE MASTER LOGS BEFORE DATE_SUB( NOW( ), INTERVAL 3 DAY);
BEFORE變數的date自變數可以為'YYYY-MM-DD hh:mm:ss'格式。MASTER和BINARY是同義詞。
如果您有一個活性的從屬伺服器,該伺服器當前正在讀取您正在試圖刪除的日誌之一,則本語句不會起作用,而是會失敗,並伴隨一個錯誤。不過,如果從屬伺服器是休止的,並且您碰巧清理了其想要讀取的日誌之一,則從屬伺服器啟動後不能復制。當從屬伺服器正在復制時,本語句可以安全運行。您不需要停止它們。
要清理日誌,需按照以下步驟:
1. 在每個從屬伺服器上,使用SHOW SLAVE STATUS來檢查它正在讀取哪個日誌。
2. 使用SHOW MASTER LOGS獲得主伺服器上的一系列日誌。
3. 在所有的從屬伺服器中判定最早的日誌。這個是目標日誌。如果所有的從屬伺服器是更新的,這是清單上的最後一個日誌。
4. 製作您將要刪除的所有日誌的備份。(這個步驟是自選的,但是建議採用。)
5. 清理所有的日誌,但是不包括目標日誌我
F. 基因注釋包括g0/cog/kegg,闡述什麼是g0/cog/kegg注釋及其注釋的主要方法
基因組注釋分析主要包括哪些內容
基因組注釋包括以下方面的內容:
(1) 重復序列的預測。通過比對已知的重復序列資料庫,找出序列中包含的重復序列,識別類型並轉化為N或者X,統計各種類型重復序列的分布。
(2) 編碼基因的預測。通過將轉錄組或EST數據比對到拼接後的基因組序列上,找出編碼基因位置,預測編碼基因結構。或者通過專業的外顯子預測,預測編碼基因的外顯子結構。
(3) 小RNA基因的預測。通過比對已知的小RNA的資料庫,或者通過生物信息(bioinformation)學預測,找出這些小RNA基因,並進行分類。
(4) 調控序列和假基因的預測。
基因功能的注釋,使用的資料庫包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比對的方法,如blast,找出同源相近的基因,並注釋功能。
G. 如何利用KEGG定位基因屬於哪個代謝通路
如何利用KEGG定位基因屬於哪個代謝通路
代謝通路:目前在通路資料庫(PATHWAY database) 中代謝通路是建立得最好的,有大約90個參考代謝途徑的圖形。每個參考代謝途徑是一個由酶或EC號組成的網路。
利用如下方法可通過計算機構建出生物體特有 的代謝通路:
先根據基因的序列相似性和位置相關性確定基因組中酶的基因。
然後合理地安排EC號。
最後將基因組中的基因和參照通路中用EC號編號的基因產物 結合起來。
H. 簡單、快速,KEGG批量注釋--kobas如何實現本地化
注意 :kobas支持python2 版本,本文安裝使用的是Centos 7.4系統
(1)出現的問題網址: https://www.cnblogs.com/saolv/p/6963314.html
(2)安裝:
(1) 出現的問題error: command 『gcc』 failed with exit status 1;
解決方案如下 (參考網址: https://blog.csdn.net/u010445516/article/details/76850704 );
出現的問題:
(1)如果rpy2報錯,直接重裝rpy2,命令:pip install rpy2==2.7.8
kobas-3.0.3.tar.gz、organism.db.gz、ko.db.gz、ko.pep.fasta.gz
6 KOBAS 的使用
若出現如下類似的問題:
則解決方案為:
使用命令 (加粗部分為自己要填寫的內容):
annotate.py -i all_genomic_gene.fasta -s ko -t fasta:nuc -o all_genomic_geneGene.ann -n 4
annotate.py -i diff_gene.fasta -s ko -t fasta:nuc -o diff_gene.ann -n 4
identify.py -f diff_gene.ann -b all_genomic_gene.ann -d K -o kegg.result.xls
I. 如何利用KEGG找模式菌的所有氨基酸代謝途徑
登陸http://www.genome.jp/kegg
輸入你要找的氨基酸名稱,例如找丙氨酸就輸入alanine,單擊go。
搜代謝途徑的話可以在Search後選擇KEGG PATHWAY。單擊map00???查看代謝途徑。