宏基因组基因预测及功能注释

基因预测（Predict）

一个起始密码子到一个终止密码子之间的基因部分就叫做一个开放阅读框。ORF不一定是基因，但基因一定是ORF。

每一段序列都有6种读取方式（正链3种，负链3种），其中有的属于开放阅读框而有的则不能编码。

该软件可以快速预测原核生物的基因信息。默认密码子表是第11套（支原体用第4套）。

1	prodigal -i test.fa -d test.ffn -a test.faa -o test.gff -f gff

通过计算可以发现原核生物基因组中基因所占的部分较高，说明重复序列较少（存储效率高）。

也可以快速预测原核生物的基因信息，但不如prodigal方便，不能直接输出核酸序列，需要从列表里提取。不建议使用。

Eggnog-mapper是一个基因功能注释流程，可以自动完成基因的功能注释，其内置了COG、KOG、KEGG、GO、BiGG等数据库（KEGG数据库是免费版本）。调用的是Diamond进行比对。

由于python版本问题，最好在虚拟环境中运行。

1	emapper.py -i test.faa --output test.annotation -m diamond

输入数据可以是faa氨基酸序列，也可以输入基因序列，但建议还是输入氨基酸序列。–data_dir还可以指定数据库的位置。

生成两个文件 .annotations和.seed_orthologs。比较重要的就是第一列和最后一列。

这个软件也提供一个在线的比对网站。