来自popoulation基因组数据集的遗传多样性度量。
pypgen的Python项目详细描述
Pypgen为评估标准基因提供了多种实用工具 多样性措施,包括GST、G'ST、G'ST和JOST D 基因组数据集(Hedrick,2005;Jost,2008;Masatoshi Nei,1973;Nei&; 切瑟,1983年)。Pypgen在单个SNP上同时操作 以及用户定义的区域(例如,平铺的5千基窗口 在每个染色体上)。对于窗口分析,Pypgen估计 每个估计器的多轨迹版本。
特点:
- 处理多等位snp调用
- 允许单个VCF文件包含多个填充
- 按标准VCF (Variant Call Format)操作 格式化的snp呼叫
- 使用bgziped输入 用于快速随机访问
- 利用多个处理器核
- 计算其他度量:
- 每个窗口的snp计数
- 每个窗口的平均读取深度(+/-stdev)
- 每个单核苷酸多态性具有固定等位基因的群体
- 我想得更多
重要提示:
Pypgen仍在积极开发中,几乎肯定包含 漏洞。如果发现错误,请在的issues section中提交报告 github存储库,我会尽快解决它。
所附脚本:
- 滑动窗口分析(vcf_sliding_window.py)
- 根据SNP分析(vcf_snpwise_fstats.py)
依赖性:
- OSX或Linux
- Python 2.7
- Numpy
- pysam 以及samtools
安装:
首先安装samtools。在os x上,我建议使用homebrew来实现这一点。安装samtools并在终端中可用后,您可以使用pip或setuptools安装当前版本的pypgen:
pip install pypgen
或者,
easy_install pypgen
或者,如果您喜欢生活在边缘,可以从github克隆并安装当前的开发版本。
pip install -e git+https://github.com/ngcrawford/pypgen.git
文档:
将提供更详细的文档,但同时可以通过运行:
python [script name].py --help
输出:
注意:这可能会改变。
vcf_滑动窗口.py:
- chrm=染色体名
- start=窗口的起始位置
- stop=窗口的结束位置
- snp_count=窗口中snp的总数
- total_depth_mean=整个窗口的平均读取深度
- total_depth_stdev=读取深度的标准偏差 窗口
- pop1.sample_count.mean=对于“pop1”,每个snp的平均样本数
- pop1.sample_count.stdev=每个snp的样本标准偏差 对于-“pop1”
- pop2.sample_count.mean=对于“pop2”,每个snp的平均样本数
- pop2.sample_count.stdev=每个snp的样本标准偏差 对于“POP2”
- pop2.pop1.d_est=多位点目标(jost 2008)
- pop2.pop1.g_double_prime_st_est=(Meirmans&hedrick 2011年)
- pop2.pop1.g_prime_st_est=标准GST(Hedrick 2005)
- pop2.pop1.gst_est=fst根据样本大小进行了更正,并允许 多等位基因座(nei&chesser 1983)
- 继续……
vcf_snpwise_fstats.py:
- chrm=染色体名
- pos=snp的位置
- outgroups=样本数
- pop1=人口id
- pop1.pop2.d_est=多位点目标(jost 2008)
- pop1.pop2.g_double_prime_st_est=(梅尔曼和亨德里克 2011年)
- pop1.pop2.g_prime_st_est=标准GST(Hedrick 2005)
- pop1.pop2.gst_est=fst根据样本量和 一允许多等位基因座(nei&chesser 1983)
- pop1.pop2.hs_est
- pop1.pop2.ht_est
- 继续……,
- pop1_fixed=如果样本固定在特定等位基因处,则 标志设置为1(二进制为“真”)。
- 继续……