A. 使用Metascape进行GO及KEGG分析
首先进入界面后可以输入或者直接导入序列文件。点击custom analysis即可。
网站不仅提供了富集信息,还给了PPI 的结果。
查看分析报告页(橘色按钮)
ps: excel 小技巧
= B2&":"&C2 可以合并B2、C2两格内容
将GO 分析表格存储在excel中
接着可以拿去作图了,GO/KEGG 数值。
还可制作通路与靶点的图片,Descrpition/hit
B. 转录测序中的nr,nt,swissprot,cog,kegg,go分别是什么意思
NR库属于非冗余蛋白序列数据库,是NCBI官方的蛋白序列数据库,数据来源于GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默认的蛋白比对数据库。
NT数据库是美国国家生物技术信息中心NCBI官方的核酸序列数据库,NT库属于非冗余核酸序列数据库,数据来源于GenBank、EMBL 以及 DDBJ,是NCBI默认的核酸blast比对数据库。
SwissProt数据库是检查过的、手工注释的蛋白数据库,我们将Unigene注释到SwissProt数据库,以得到更加高质量的注释结果。
COG (clusters of orthologous groups)主要是原核生物和单细胞真核生物的直系同源物,KOG(clusters of euKaryotic Orthologous Groups)数据库包含了7个完整基因组的真核生物的直系同源家族蛋白, 构成每个 KOG 的蛋白集是被假定为来自于一个祖先蛋白,根据系统发生进行分类,一般COG指原核生物,KOG指真核生物,KOG与COG提供了相似的基因同源物的分类信息。
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是处理基因组、生物通路、疾病、药物和化学物质之间联系的集成数据库。 KEGG用于生物信息研究等,包括基因组,代谢组学等其他组学的数据分析,涵盖了Drug Development(药物开发)、 Cellular Processes(细胞过程)、 Environmental Information Processing(环境信息处理)、Genetic Information Processing(遗传信息处理)、 Human Diseases(人类疾病), Metabolism(代谢)、 Organismal Systems(有机系统)等方面。
GO( Gene Ontology ): 基因本体。生物技术的发展迅速,数据越来越多,不同数据库命名标准不统一,为了解决不同的生物学数据库可能会使用不同的术语的问题,从而基因本体联合会(Gene Onotology Consortium)开发GO来描述基因在分子、细胞和组织水平的功能体现。GO的基本描述单元是GO terms。GO主要包括三个分支: 生物过程(biological processes)、分子功能(molecular function)和细胞组成(cellular components),用于描述基因产物的功能。GO中使用了is_a、part_of和regulates三种互作关系。
C. 如何使用KAAS进行KEGG注释
标签: KEGG, RNAseq, bioinformatics
中文名: 京都基因与基因组网络全书
外文名: koyto Encyclopedia of Genes and Genomes
根据输入数据大小,网速等需要等待一段时间,好了以后会收到一封邮件,然后会给两个链接,首先要确认开始
当服务器运算结果出来以后会邮件通知,结果又两种形式,一种是网页版,他会列出所有注释到的信息,然后每个信息对应的通路图,还会提供geneID2KUM,每个基因对应的kegg的K号(直系同源)
D. 富集分析第二弹
富集分析,来自于Enrichment这个词语
F or example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set.
通俗来说:富集分析是基于一个先验的知识图谱将输入内容进行聚类分析,得到聚类后结果。
上句话中逐个概念解析:
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO 富集结果(柱状图)</figcaption>
结果解析:我们可以基于柱状图,清楚的看出,每一个聚类后结果(横轴下方的字段),以及每一个分类所对应的基因/基因产物数量(此图中为蛋白质数量)
上图是气泡图形式,由于GO有三个互不交集的ontology本体,所以要单独分区展示。气泡图比柱状图可以多展现1个维度,在上图中,体现了4个维度信息:
(1)气泡表示分类条目
(2)气泡大小表示基因/基因产物数量。
(3)增加了p-value的展示。p值的负对数分配给y轴(越高就越重要),统计学基础是超几何分布。( 从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例 )
(4)表达量的上下调。横轴zscore表示是表达量是高了还是低了(一般应用于RNA和蛋白中,基因一般不涉及)。 [图片上传失败...(image-efb449-1611106941603)]
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">点击一个分类,可以查看其所对应的局部知识图谱</figcaption>
得到目标对象(基因或者基因产物)的富集结果(词条)后,通过查看网站对词条的注释声明,来验证或判断目标对象作为生物标志物的合理性。
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">方法论示例</figcaption>
示例1:《 与胰腺癌相关的重要基因本体论术语和生物学途径分析 》IF: 2.197
示例 2: 《 使用基因本体论术语和KEGG途径进行化学毒性作用分析 》 IF: 3.681
GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析
(1) David ——The D atabase for A nnotation, V isualization and I ntegrated D iscovery ,支持在线进行GO功能富集分析。 工作组 很多华人(从名字上看)
(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在线进行GO功能富集分析。
(3) KOBAS ——KEGG Orthology Based Annotation System,支持在线进行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 关联疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大团队做的。
(4) clusterProfiler : universal enrichment tool for functional and comparative study。推荐一个R分析工作包,是生信分析领域大牛 Y叔 写的,几乎能支持市面上常见的各类功能、通路、关联疾病分析,受science大力推荐(反正Y叔公众号上他自己是这么说的,有没有忽悠成分咱就不管了哈,但是吃过的都说香)。
以 KOBAS 为例,演示两个流程:
(1) GO分析
step i :选择“基于基因列表进行富集分析”
step ii:在计算页面等一会,查看分析结果
step iii:查看GO的DAG图
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:3A004408</figcaption>
也有这样的:
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">GO:0045893</figcaption>
(2)KEGG pathway分析
step i: 参数选择KEGG
step ii: 查看计算结果
step iii: 查看通路图
有些情况下KEGG会报错:
解决方法:注意将url的末尾添加一个/符号,即可正常展示。
E. 在什么时候可以调用reset master
PURGE {MASTER | BINARY} LOGS TO 'log_name'
PURGE {MASTER | BINARY} LOGS BEFORE 'date'
用于删除列于在指定的日志或日期之前的日志索引中的所有二进制日志。这些日志也会从记录在日志索引文件中的清单中被删除,这样被给定的日志成为第一个。
例如:
PURGE MASTER LOGS TO 'mysql-bin.010';
PURGE MASTER LOGS BEFORE '2008-06-23 15:00:00';
清除3天前的 binlog
PURGE MASTER LOGS BEFORE DATE_SUB( NOW( ), INTERVAL 3 DAY);
BEFORE变量的date自变量可以为'YYYY-MM-DD hh:mm:ss'格式。MASTER和BINARY是同义词。
如果您有一个活性的从属服务器,该服务器当前正在读取您正在试图删除的日志之一,则本语句不会起作用,而是会失败,并伴随一个错误。不过,如果从属服务器是休止的,并且您碰巧清理了其想要读取的日志之一,则从属服务器启动后不能复制。当从属服务器正在复制时,本语句可以安全运行。您不需要停止它们。
要清理日志,需按照以下步骤:
1. 在每个从属服务器上,使用SHOW SLAVE STATUS来检查它正在读取哪个日志。
2. 使用SHOW MASTER LOGS获得主服务器上的一系列日志。
3. 在所有的从属服务器中判定最早的日志。这个是目标日志。如果所有的从属服务器是更新的,这是清单上的最后一个日志。
4. 制作您将要删除的所有日志的备份。(这个步骤是自选的,但是建议采用。)
5. 清理所有的日志,但是不包括目标日志我
F. 基因注释包括g0/cog/kegg,阐述什么是g0/cog/kegg注释及其注释的主要方法
基因组注释分析主要包括哪些内容
基因组注释包括以下方面的内容:
(1) 重复序列的预测。通过比对已知的重复序列数据库,找出序列中包含的重复序列,识别类型并转化为N或者X,统计各种类型重复序列的分布。
(2) 编码基因的预测。通过将转录组或EST数据比对到拼接后的基因组序列上,找出编码基因位置,预测编码基因结构。或者通过专业的外显子预测,预测编码基因的外显子结构。
(3) 小RNA基因的预测。通过比对已知的小RNA的数据库,或者通过生物信息(bioinformation)学预测,找出这些小RNA基因,并进行分类。
(4) 调控序列和假基因的预测。
基因功能的注释,使用的数据库包括NT/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比对的方法,如blast,找出同源相近的基因,并注释功能。
G. 如何利用KEGG定位基因属于哪个代谢通路
如何利用KEGG定位基因属于哪个代谢通路
代谢通路:目前在通路数据库(PATHWAY database) 中代谢通路是建立得最好的,有大约90个参考代谢途径的图形。每个参考代谢途径是一个由酶或EC号组成的网络。
利用如下方法可通过计算机构建出生物体特有 的代谢通路:
先根据基因的序列相似性和位置相关性确定基因组中酶的基因。
然后合理地安排EC号。
最后将基因组中的基因和参照通路中用EC号编号的基因产物 结合起来。
H. 简单、快速,KEGG批量注释--kobas如何实现本地化
注意 :kobas支持python2 版本,本文安装使用的是Centos 7.4系统
(1)出现的问题网址: https://www.cnblogs.com/saolv/p/6963314.html
(2)安装:
(1) 出现的问题error: command ‘gcc’ failed with exit status 1;
解决方案如下 (参考网址: https://blog.csdn.net/u010445516/article/details/76850704 );
出现的问题:
(1)如果rpy2报错,直接重装rpy2,命令:pip install rpy2==2.7.8
kobas-3.0.3.tar.gz、organism.db.gz、ko.db.gz、ko.pep.fasta.gz
6 KOBAS 的使用
若出现如下类似的问题:
则解决方案为:
使用命令 (加粗部分为自己要填写的内容):
annotate.py -i all_genomic_gene.fasta -s ko -t fasta:nuc -o all_genomic_geneGene.ann -n 4
annotate.py -i diff_gene.fasta -s ko -t fasta:nuc -o diff_gene.ann -n 4
identify.py -f diff_gene.ann -b all_genomic_gene.ann -d K -o kegg.result.xls
I. 如何利用KEGG找模式菌的所有氨基酸代谢途径
登陆http://www.genome.jp/kegg
输入你要找的氨基酸名称,例如找丙氨酸就输入alanine,单击go。
搜代谢途径的话可以在Search后选择KEGG PATHWAY。单击map00???查看代谢途径。