用于处理来自alfred数据库(https://alfred.med.yale.edu)的microhaploptype数据的资源。
microhapdb的Python项目详细描述
microhapdb
Daniel Standage,2018年
https://github.com/bioforensics/microhapdb
microhapdb是一个为对微单倍型分析感兴趣的科学家和研究人员设计的软件包。 这个包是一个分发和便利机制,不实现任何分析本身。 microhapdb旨在处理来自任何来源的microhap数据,尽管目前所有数据都来自耶鲁大学医学院的{a5}[1]。
安装
要安装:
pip3 install microhapdb
要确保软件包安装正确:
pip3 install pytest
pytest --pyargs microhapdb --doctest-modules
microhapdb需要python版本3。
用法
microhapdb提供了几种方便的方法来访问微单体型数据。
- 命令行界面
- python api
- 以制表符分隔的文本文件的集合
命令行界面
调用microhapdb --help
获取命令行配置选项的描述和几个使用示例。
python api
在python中对microhap数据的编程访问非常简单,只需调用import microhapdb
并查询下表。
microhapdb.frequencies
microhapdb.loci
microhapdb.populations
microhapdb.variants
每个都是一个Pandas[2]数据帧对象,支持方便高效的列表、子集和查询功能。 还有两个辅助表:一个包含所有变体到对应的MyHAP轨迹的映射,另一个表跨引用外部ID/标签/名称与内部MyHAPDB标识符。
microhapdb.variantmap
microhapdb.idmap
helper函数microhapdb.id_xref
对于使用任何有效标识符检索数据也很有用。
下面的示例演示如何交叉引用跨不同表的数据。
>>>importmicrohapdb>>>microhapdb.id_xref('mh02KK-136')IDReferenceChromStartEndSource182MHDBL000183GRCh38chr2227227673227227743ALFRED>>>pops=microhapdb.populations.query('Name.str.contains("Amer")')>>>popsIDNameSource40MHDBP000041AfricanAmericansALFRED67MHDBP000068AfricanAmericansALFRED91MHDBP000092EuropeanAmericansALFRED>>>f=microhapdb.frequencies>>>f[(f.Locus=="MHDBL000183")&(f.Population.isin(pops.ID))]LocusPopulationAlleleFrequency75117MHDBL000183MHDBP000041G,T,C0.17275118MHDBL000183MHDBP000041G,T,A0.10375119MHDBL000183MHDBP000041G,C,C0.02975120MHDBL000183MHDBP000041G,C,A0.00075121MHDBL000183MHDBP000041T,T,C0.29375122MHDBL000183MHDBP000041T,T,A0.06375123MHDBL000183MHDBP000041T,C,C0.13275124MHDBL000183MHDBP000041T,C,A0.20775333MHDBL000183MHDBP000068G,T,C0.15675334MHDBL000183MHDBP000068G,T,A0.14875335MHDBL000183MHDBP000068G,C,C0.01675336MHDBL000183MHDBP000068G,C,A0.00075337MHDBL000183MHDBP000068T,T,C0.33675338MHDBL000183MHDBP000068T,T,A0.04975339MHDBL000183MHDBP000068T,C,C0.15675340MHDBL000183MHDBP000068T,C,A0.13975525MHDBL000183MHDBP000092G,T,C0.38475526MHDBL000183MHDBP000092G,T,A0.20275527MHDBL000183MHDBP000092G,C,C0.00075528MHDBL000183MHDBP000092G,C,A0.00075529MHDBL000183MHDBP000092T,T,C0.19775530MHDBL000183MHDBP000092T,T,A0.00075531MHDBL000183MHDBP000092T,C,C0.07175532MHDBL000183MHDBP000092T,C,A0.146
有关数据帧访问和查询方法的详细信息,请参阅Pandas文档。
制表符分隔的文本文件
microhapdb背后的数据包含在6个制表符分隔的文本文件中。
如果您不想使用microhapdb的命令行接口或python api,那么直接将这些文件加载到r、julia或您选择的数据科学环境中应该很简单。
在命令行上调用microhapdb files
,查看安装的.tsv
文件的位置。
locus.tsv
:微单倍型位点variant.tsv
:与每个microhap位点相关的变体allele.tsv
:84个群体148个位点的等位基因频率population.tsv
:研究人群的总结variantmap.tsv
:显示哪些变体与哪些位点相关idmap.tsv
:将所有id/名称/标签映射到内部microhapdb id
引文
如果你使用这个包裹,请引用我们的工作。
Standage DS (2018) MicroHapDB: programmatic access to published microhaplotype data. GitHub repository, https://github.com/bioforensics/microhapdb.
[1]rajeevan h,soundarararajan u,kidd jr,pakstis aj,kidd kk(2012)alfred:研究和教学的等位基因频率资源。核酸研究,40(d1):d1010-d1015。doi:10.1093/nar/gkr924。
[2]McKinney W(2010)《Python中统计计算的数据结构》。第九届Python科学会议论文集,51-56。