用于处理来自alfred数据库(https://alfred.med.yale.edu)的microhaploptype数据的资源。

microhapdb的Python项目详细描述


MicroHapDB build statusPyPI versionBSD licensed

microhapdb

Daniel Standage,2018年
https://github.com/bioforensics/microhapdb

microhapdb是一个为对微单倍型分析感兴趣的科学家和研究人员设计的软件包。 这个包是一个分发和便利机制,不实现任何分析本身。 microhapdb旨在处理来自任何来源的microhap数据,尽管目前所有数据都来自耶鲁大学医学院的{a5}[1]

安装

要安装:

pip3 install microhapdb

要确保软件包安装正确:

pip3 install pytest
pytest --pyargs microhapdb --doctest-modules

microhapdb需要python版本3。

用法

microhapdb提供了几种方便的方法来访问微单体型数据。

  • 命令行界面
  • python api
  • 以制表符分隔的文本文件的集合

命令行界面

调用microhapdb --help获取命令行配置选项的描述和几个使用示例。

python api

在python中对microhap数据的编程访问非常简单,只需调用import microhapdb并查询下表。

  • microhapdb.frequencies
  • microhapdb.loci
  • microhapdb.populations
  • microhapdb.variants

每个都是一个Pandas[2]数据帧对象,支持方便高效的列表、子集和查询功能。 还有两个辅助表:一个包含所有变体到对应的MyHAP轨迹的映射,另一个表跨引用外部ID/标签/名称与内部MyHAPDB标识符。

  • microhapdb.variantmap
  • microhapdb.idmap

helper函数microhapdb.id_xref对于使用任何有效标识符检索数据也很有用。 下面的示例演示如何交叉引用跨不同表的数据。

>>>importmicrohapdb>>>microhapdb.id_xref('mh02KK-136')IDReferenceChromStartEndSource182MHDBL000183GRCh38chr2227227673227227743ALFRED>>>pops=microhapdb.populations.query('Name.str.contains("Amer")')>>>popsIDNameSource40MHDBP000041AfricanAmericansALFRED67MHDBP000068AfricanAmericansALFRED91MHDBP000092EuropeanAmericansALFRED>>>f=microhapdb.frequencies>>>f[(f.Locus=="MHDBL000183")&(f.Population.isin(pops.ID))]LocusPopulationAlleleFrequency75117MHDBL000183MHDBP000041G,T,C0.17275118MHDBL000183MHDBP000041G,T,A0.10375119MHDBL000183MHDBP000041G,C,C0.02975120MHDBL000183MHDBP000041G,C,A0.00075121MHDBL000183MHDBP000041T,T,C0.29375122MHDBL000183MHDBP000041T,T,A0.06375123MHDBL000183MHDBP000041T,C,C0.13275124MHDBL000183MHDBP000041T,C,A0.20775333MHDBL000183MHDBP000068G,T,C0.15675334MHDBL000183MHDBP000068G,T,A0.14875335MHDBL000183MHDBP000068G,C,C0.01675336MHDBL000183MHDBP000068G,C,A0.00075337MHDBL000183MHDBP000068T,T,C0.33675338MHDBL000183MHDBP000068T,T,A0.04975339MHDBL000183MHDBP000068T,C,C0.15675340MHDBL000183MHDBP000068T,C,A0.13975525MHDBL000183MHDBP000092G,T,C0.38475526MHDBL000183MHDBP000092G,T,A0.20275527MHDBL000183MHDBP000092G,C,C0.00075528MHDBL000183MHDBP000092G,C,A0.00075529MHDBL000183MHDBP000092T,T,C0.19775530MHDBL000183MHDBP000092T,T,A0.00075531MHDBL000183MHDBP000092T,C,C0.07175532MHDBL000183MHDBP000092T,C,A0.146

有关数据帧访问和查询方法的详细信息,请参阅Pandas文档。

制表符分隔的文本文件

microhapdb背后的数据包含在6个制表符分隔的文本文件中。 如果您不想使用microhapdb的命令行接口或python api,那么直接将这些文件加载到r、julia或您选择的数据科学环境中应该很简单。 在命令行上调用microhapdb files,查看安装的.tsv文件的位置。

  • locus.tsv:微单倍型位点
  • variant.tsv:与每个microhap位点相关的变体
  • allele.tsv:84个群体148个位点的等位基因频率
  • population.tsv:研究人群的总结
  • variantmap.tsv:显示哪些变体与哪些位点相关
  • idmap.tsv:将所有id/名称/标签映射到内部microhapdb id

引文

如果你使用这个包裹,请引用我们的工作。

Standage DS (2018) MicroHapDB: programmatic access to published microhaplotype data. GitHub repository, https://github.com/bioforensics/microhapdb.


[1]rajeevan h,soundarararajan u,kidd jr,pakstis aj,kidd kk(2012)alfred:研究和教学的等位基因频率资源。核酸研究,40(d1):d1010-d1015。doi:10.1093/nar/gkr924。

[2]McKinney W(2010)《Python中统计计算的数据结构》。第九届Python科学会议论文集,51-56

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
爪哇太阳报。安全验证器。ValidatorException:PKIX路径生成失败   java理解为什么在onDispatchTouchEvent()返回True后仍调用onClick()   java如何在资源包中使用JSF标记/如何在资源包中重写URL?   java什么是流控制异常的替代方案?   java使用Spring数据JPA/MongoDB交叉存储,一个查询可以跨越两个数据库吗?   Apache Sling/felix中的java OSGi slf4j日志记录   为什么当我们想要水平/垂直旋转矩阵时,我们要把这个项除以2?   尝试从外部网页接收JSON字符串时出现安卓 Java NullPointerException   java执行异常:从Callable调用方法时   java在jetty上以调试模式运行webapp,使用maven jetty插件在intellij中构建成功(应用程序应在调试模式下启动)   带有内存数据库的linux Java应用程序的构建时间太长   基于java的随机数单元测试算法   java类型javax。摆动JComponent无法解析   Google日历API和UI小部件Java   java tomcat没有突然和任意地响应   java无法使用jsoup在html中获取图像src   我无法让Java接受键盘输入字符串   java如何开始使用Bambol而不让部署永远继续?   java如何使用另一个类的actionPerformed方法删除一个类/组件中的按钮?   java JSON反序列化brakets{}中的一系列对象