愉快的蟒蛇血统操纵

pedd的Python项目详细描述


快速系谱:vcf qc
---------

<;img src="https://cloud.githubusercontent.com/assets/1739/21734388/5a927926-d420-11e6-8ff9-534046df3305.png"style="width:287px;height:168px">;

peddy比较了[ped/fam文件](https://www.cog-genomics.org/plink2/formats fam)中报告的家庭关系和性别与从vcf推断的关系。

**杂合性**,**性别**,**血统**。它使用250.4万个基因组样本作为背景来校准相关性计算并进行祖先预测。


它通过采样、使用c进行计算密集部分以及并行化来快速完成这项工作。

昆兰,谁?利用Peddy检测和解决人类DNA样本异常
测序研究,美国人类遗传学杂志(2017),
http://dx.doi.org/10.1016/j.ajhg.2017.01.017(http://www.cell.com/action/showfulltextmimages?pii=s002-9297(17)30017-4)



[![水蟒服务器徽章](https://anaconda.org/bioconda/peddy/badges/installer/conda.svg)(https://conda.anaconda.org/bioconda)
[![PYPI版本](https://badge.fury.io/py/peddy.svg)(http://badge.fury.io/py/peddy)
[![文档状态](https://readthedocs.org/projects/peddy/badge/?版本=最新](http://peddy.readthedocs.org/en/latest/?徽章=最新)
<;!< < >![构建状态](https://travis-ci.org/brentp/peddy.svg?branch=master)(https://travis ci.org/brentp/peddy)
-->;




quickstart
--



请参阅下面的安装。

大多数用户只需要作为带有PED和VCF的命令行工具运行,例如:

```
python-m peddy-p 4--plot——前缀ceph-1463 data/ceph1463.vcf.gz data/ceph1463.ped
````

创建4个csv文件和4个qc图。
这些将表明:

+ped报告和基因型推断关系之间的差异
+ped报告和基因型推断性别之间的差异
+het调用水平较高、深度较低的样本,对于het调用,b等位基因频率(ref/(ref+alt))的方差更大。
+基于对上千个基因组主成分投影的祖先预测

最后,它将创建一个新的文件ped files`ceph1463.peddy.ped',其中还列出了` het check和sex check。用户可以**首先查看这个扩展的ped文件,了解可能出现的问题**。

HG19/GRCH37型。它可以通过传递"-sites hg38"强制使用hg38站点。
创建自定义站点,查看[peddy包含的站点文件](https://github.com/brentp/peddy/blob/master/peddy/grch37.sites)以及相应的.bin.gz,它只是来自已被写入uint8的1000个基因组的原始二进制替代计数(gt_类型)和Gzipped.



速度
----


由于采样方法和并行化,"peddy"非常快。
有4个CPU,在17个成员的*ceph1643*全基因组vcf家系上,peddy可以在~8秒内运行HET检查和PCA。比较所有样本与所有样本的系谱检查在3.6秒内完成。
它在大约20秒内完成整套检查。

比较[国王](http://people.virginia.edu/~wc9c/king/manual.html)在14秒内完成
(它是**非常快**);从vcf到二进制ped的转换时间为85秒。成百上千个样本,尽可能多地添加
核心是有益的;对于具有几十个样本的较小数据集,大约4个处理器可以减少8个或更多的计算时间。




参见下图,其中peddy
关联度估计值比king更接近实际值,king则对关联度进行了过高估计。

!【Peddy vs King】(https://raw.githubusercontent.com/brentp/peddy/master/docs//u static/peddy-v-king.png"与King的比较")


Peddy使用King算法计算关联度,因此它们非常匹配。
Peddy还在1000个基因组中的2504个样本上运行PCA,
然后拟合一个支持向量机并预测祖先,此外还计算17个样本的所有成对组合之间的相关性。


警告和检查关于创建系谱对象(通过ped('some.ped')的
----


。` peddy"将酌情向stderr打印警告,例如:

```
系谱警告:'101811-101811'是父亲,但具有女性性别
系谱警告:'101897-101897'是父亲,但具有女性性别
系谱警告:'101896-101896'是自己的母亲
系谱警告:'102110-102110'是母亲但有男性
系谱警告:"102110-102110"是自己的母亲
系谱警告:"101381-101381"是父亲但有女性
系谱警告:"101393-101393"是母亲但有男性

未知样本:家庭中102498-102498:k34175
未知样本:家庭中11509-11509:k567331
未知示例:5180-5180系列:k8565
`````

这意味着
可以通过以下方式轻松安装您自己的python版本:

````
install_path=~/anaconda
wget http://repo.continum.io/miniconda/miniconda2-latest-linux-x86_64.sh
wget http://repo.continum.io/miniconda/miniconda2-latest-macosx-x86_64.sh
bash miniconda2-latest*-fbp$install_path
path=$install_path/bin:$path

conda update-y conda
conda config--添加通道bioconda

````

这应该安装所有依赖项,这样您就可以使用以下4个进程运行peddy:

``````
python-m peddy--plot-p 4——前缀mystudy$vcf$ped的mystudy$vcf$ped
```





`````
>```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
virtualbox无法从java移动共享文件夹中的文件   java如何连接Android 4.3.5(GA)的apache HttpClient库?   片段中的java Recyclerview未立即显示警报对话框结果   javac(n,r)计算器程序不工作   java使用BooleanQuery还是编写更多索引?   如何在java中设置y/n循环?   java不兼容的通用通配符捕获   java如何在安卓xml中编写数据绑定时的三元操作条件   java如何使用FileDialog?   java如何创建单元测试来检测是否有人使用错误的编码编辑了文件?   java如何从唯一的字符串生成唯一的int?   java gradletomcatplugin:log4j:WARN找不到记录器的附加程序   java我的动态编程解决方案(Kefa和第一步)在codeforces中有什么问题?   java每天更新两个数据库,使它们都包含相同的有效数据集   java如何检查给定的时间是否在时间限制之间   java在单个json POST上保存父级和子级   java如何获取Solr字段类型