用于处理来自alfred数据库(https://alfred.med.yale.edu)的microhaploptype数据的资源。

microhapdb的Python项目详细描述


MicroHapDB build statusPyPI versionBSD licensed

microhapdb

Daniel Standage,2018年
https://github.com/bioforensics/microhapdb

microhapdb是一个为对微单倍型分析感兴趣的科学家和研究人员设计的软件包。 这个包是一个分发和便利机制,不实现任何分析本身。 microhapdb旨在处理来自任何来源的microhap数据,尽管目前所有数据都来自耶鲁大学医学院的{a5}[1]

安装

要安装:

pip3 install microhapdb

要确保软件包安装正确:

pip3 install pytest
pytest --pyargs microhapdb --doctest-modules

microhapdb需要python版本3。

用法

microhapdb提供了几种方便的方法来访问微单体型数据。

  • 命令行界面
  • python api
  • 以制表符分隔的文本文件的集合

命令行界面

调用microhapdb --help获取命令行配置选项的描述和几个使用示例。

python api

在python中对microhap数据的编程访问非常简单,只需调用import microhapdb并查询下表。

  • microhapdb.frequencies
  • microhapdb.loci
  • microhapdb.populations
  • microhapdb.variants

每个都是一个Pandas[2]数据帧对象,支持方便高效的列表、子集和查询功能。 还有两个辅助表:一个包含所有变体到对应的MyHAP轨迹的映射,另一个表跨引用外部ID/标签/名称与内部MyHAPDB标识符。

  • microhapdb.variantmap
  • microhapdb.idmap

helper函数microhapdb.id_xref对于使用任何有效标识符检索数据也很有用。 下面的示例演示如何交叉引用跨不同表的数据。

>>>importmicrohapdb>>>microhapdb.id_xref('mh02KK-136')IDReferenceChromStartEndSource182MHDBL000183GRCh38chr2227227673227227743ALFRED>>>pops=microhapdb.populations.query('Name.str.contains("Amer")')>>>popsIDNameSource40MHDBP000041AfricanAmericansALFRED67MHDBP000068AfricanAmericansALFRED91MHDBP000092EuropeanAmericansALFRED>>>f=microhapdb.frequencies>>>f[(f.Locus=="MHDBL000183")&(f.Population.isin(pops.ID))]LocusPopulationAlleleFrequency75117MHDBL000183MHDBP000041G,T,C0.17275118MHDBL000183MHDBP000041G,T,A0.10375119MHDBL000183MHDBP000041G,C,C0.02975120MHDBL000183MHDBP000041G,C,A0.00075121MHDBL000183MHDBP000041T,T,C0.29375122MHDBL000183MHDBP000041T,T,A0.06375123MHDBL000183MHDBP000041T,C,C0.13275124MHDBL000183MHDBP000041T,C,A0.20775333MHDBL000183MHDBP000068G,T,C0.15675334MHDBL000183MHDBP000068G,T,A0.14875335MHDBL000183MHDBP000068G,C,C0.01675336MHDBL000183MHDBP000068G,C,A0.00075337MHDBL000183MHDBP000068T,T,C0.33675338MHDBL000183MHDBP000068T,T,A0.04975339MHDBL000183MHDBP000068T,C,C0.15675340MHDBL000183MHDBP000068T,C,A0.13975525MHDBL000183MHDBP000092G,T,C0.38475526MHDBL000183MHDBP000092G,T,A0.20275527MHDBL000183MHDBP000092G,C,C0.00075528MHDBL000183MHDBP000092G,C,A0.00075529MHDBL000183MHDBP000092T,T,C0.19775530MHDBL000183MHDBP000092T,T,A0.00075531MHDBL000183MHDBP000092T,C,C0.07175532MHDBL000183MHDBP000092T,C,A0.146

有关数据帧访问和查询方法的详细信息,请参阅Pandas文档。

制表符分隔的文本文件

microhapdb背后的数据包含在6个制表符分隔的文本文件中。 如果您不想使用microhapdb的命令行接口或python api,那么直接将这些文件加载到r、julia或您选择的数据科学环境中应该很简单。 在命令行上调用microhapdb files,查看安装的.tsv文件的位置。

  • locus.tsv:微单倍型位点
  • variant.tsv:与每个microhap位点相关的变体
  • allele.tsv:84个群体148个位点的等位基因频率
  • population.tsv:研究人群的总结
  • variantmap.tsv:显示哪些变体与哪些位点相关
  • idmap.tsv:将所有id/名称/标签映射到内部microhapdb id

引文

如果你使用这个包裹,请引用我们的工作。

Standage DS (2018) MicroHapDB: programmatic access to published microhaplotype data. GitHub repository, https://github.com/bioforensics/microhapdb.


[1]rajeevan h,soundarararajan u,kidd jr,pakstis aj,kidd kk(2012)alfred:研究和教学的等位基因频率资源。核酸研究,40(d1):d1010-d1015。doi:10.1093/nar/gkr924。

[2]McKinney W(2010)《Python中统计计算的数据结构》。第九届Python科学会议论文集,51-56

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
AmazonS3查找从S3forJava下载的压缩文件的MIME类型   java如何使用Selenium在<span>中查找具有特定文本的元素   python如何使用OpenIEDemo生成自定义三元组。由stanfordnlp提供的java   java遇到“方法不适用”编译错误   java如何使用Mockito在Looper中运行的验证代码。getMainLooper?   类Java目录错误   java在已知其他泛型信息时使用原始类型   java connect()和disconnect()在哪里实现?   java使用PDF Box库拆分PDF,生成的PDF几乎与源PDF文件大小相同   java PowerMockito返回错误的对象   java如何找到TIBCO集合消息的字节编码?   java Basic音乐播放器下一步和上一步按钮   添加模块描述符时,java没有名为“entityManagerFactory”的bean可用   java为什么我的代码不是线程安全的?   eclipse java。引用项目中的类的lang.NoClassDefFoundError