将NCBI分类转储转换为沿袭的工具

ncbitax2lin的Python项目详细描述


NCBItax2lin公司

将NCBI分类转储转换为沿袭。human (tax_id=9606)的示例 就像

tax_idsuperkingdomphylumclassorderfamilygenusspeciesfamily1formagenus1infraclassinfraorderkingdomno rankno rank1no rank10no rank11no rank12no rank13no rank14no rank15no rank16no rank17no rank18no rank19no rank2no rank20no rank21no rank22no rank3no rank4no rank5no rank6no rank7no rank8no rank9parvorderspecies groupspecies subgroupspecies1subclasssubfamilysubgenussubkingdomsubordersubphylumsubspeciessubtribesuperclasssuperfamilysuperordersuperorder1superphylumtribevarietas
9606EukaryotaChordataMammaliaPrimatesHominidaeHomoHomo sapiensSimiiformesMetazoacellular organismsOpisthokontaDipnotetrapodomorphaTetrapodaAmniotaTheriaEutheriaBoreoeutheriaEumetazoaBilateriaDeuterostomiaVertebrataGnathostomataTeleostomiEuteleostomiSarcopterygiiCatarrhiniHomininaeHaplorrhiniCraniataHominoideaEuarchontoglires

安装

ncbitax2lin需要python-3.7

pip install -U ncbitax2lin

生成血统

从NCBI首次下载分类法转储:

^{pr2}$

然后,运行ncbitax2lin

ncbitax2lin taxdump/nodes.dmp taxdump/names.dmp

默认情况下,生成的沿袭将保存到 ncbi_lineages_[date_of_utcnow].csv.gz。输出文件可以用 --output选项。在

常见问题解答

Q:我有大量的序列及其相应的加入 NCBI的数字,如何获得他们的血统?在

A:首先,您需要将登录号(GI已弃用)映射到税务标识 基于来自的nucl_*accession2taxid.gz文件 ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/。其次,你可以追踪 序列的整个沿袭基于其税标识 NCBItax2lin可以为您生成什么。在

如果你对这个项目有任何问题,请随时创建一个新的 issue。在

关于taxdump.tar.gz.md5的注释

NCBI似乎会周期性地重新生成taxdump.tar.gz,并且 taxdump.tar.gz.md5即使其含量仍然相同。我不知道怎么做 它们的再生起作用,但是{}会有所不同,仅仅是因为 不同的时间戳。在

用于

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
空间计数器在Java中不起作用   json在java中表示XPath列表的最佳方式   java报警服务接收器安卓   java注入bean在自定义的all存储库中   java从迁移到Spring MVC 4+Hibernate5   JavaEclipseIDE透视图被缓存,更改没有任何影响   java Hibernate:在将对象插入Derby嵌入式数据库时引发SQLGrammerException   适用于mp4或mp3文件的java Exoplayer自动流媒体质量   安卓如何在java的静态方法中使用这个关键字?   SSL服务器端的spring主机名验证+Tomcat和Java 8   java Eclipse强制刷新IDs   java有可能返回Mono。只是从GetMapping(“/”)处理程序中获取(“索引”)吗?   arraylist当我用java编程时,我遇到了这个错误,有人能告诉我到底出了什么问题吗?   java如何更改Apache CXF web服务中的日期时间格式   Jfoenix ChipView中的java多线程   java任务在Spark上不可序列化