宏基因组基因预测及功能注释
基因预测(Predict)
开放阅读框(Open reading frame)
一个起始密码子到一个终止密码子之间的基因部分就叫做一个开放阅读框。ORF不一定是基因,但基因一定是ORF。
每一段序列都有6种读取方式(正链3种,负链3种),其中有的属于开放阅读框而有的则不能编码。
Prodigal
该软件可以快速预测原核生物的基因信息。默认密码子表是第11套(支原体用第4套)。
1 | prodigal -i test.fa -d test.ffn -a test.faa -o test.gff -f gff |
ffn文件是基因的核酸序列。
faa文件是翻译过后的基因氨基酸序列。
gff(gene feature file)文件是一种列表格式,记录一段序列起始和结束的位点,表示基因的坐标(sanger定义的一种格式)。
通过计算可以发现原核生物基因组中基因所占的部分较高,说明重复序列较少(存储效率高)。
Glimmer
也可以快速预测原核生物的基因信息,但不如prodigal方便,不能直接输出核酸序列,需要从列表里提取。不建议使用。
基因功能注释(Annotation)
功能注释数据库
NR数据库:非冗余的蛋白数据库。已发表的基因转录出的功能蛋白都收录,大而全,但准确性存疑。
UniProt:比较精确,其中的蛋白序列都是经过验证的,但数据库较小。
Gene Ontology:为了统一相同序列在不同数据库中名称不同而建立的库,使用统一的语言描述功能。
CARD数据库
KEGG数据库:基因的代谢信息,通路中的基因信息比较丰富。
COG数据库
CAZy数据库
Eggnog-mapper
Eggnog-mapper是一个基因功能注释流程,可以自动完成基因的功能注释,其内置了COG、KOG、KEGG、GO、BiGG等数据库(KEGG数据库是免费版本)。调用的是Diamond进行比对。
由于python版本问题,最好在虚拟环境中运行。
1 | emapper.py -i test.faa --output test.annotation -m diamond |
输入数据可以是faa氨基酸序列,也可以输入基因序列,但建议还是输入氨基酸序列。–data_dir还可以指定数据库的位置。
生成两个文件 .annotations和.seed_orthologs。比较重要的就是第一列和最后一列。
这个软件也提供一个在线的比对网站。