愉快的蟒蛇血统操纵
pedd的Python项目详细描述
快速系谱:vcf qc
---------
<;img src="https://cloud.githubusercontent.com/assets/1739/21734388/5a927926-d420-11e6-8ff9-534046df3305.png"style="width:287px;height:168px">;
peddy比较了[ped/fam文件](https://www.cog-genomics.org/plink2/formats fam)中报告的家庭关系和性别与从vcf推断的关系。
**杂合性**,**性别**,**血统**。它使用250.4万个基因组样本作为背景来校准相关性计算并进行祖先预测。
它通过采样、使用c进行计算密集部分以及并行化来快速完成这项工作。
昆兰,谁?利用Peddy检测和解决人类DNA样本异常
测序研究,美国人类遗传学杂志(2017),
http://dx.doi.org/10.1016/j.ajhg.2017.01.017(http://www.cell.com/action/showfulltextmimages?pii=s002-9297(17)30017-4)
[![水蟒服务器徽章](https://anaconda.org/bioconda/peddy/badges/installer/conda.svg)(https://conda.anaconda.org/bioconda)
[![PYPI版本](https://badge.fury.io/py/peddy.svg)(http://badge.fury.io/py/peddy)
[![文档状态](https://readthedocs.org/projects/peddy/badge/?版本=最新](http://peddy.readthedocs.org/en/latest/?徽章=最新)
<;!< < >![构建状态](https://travis-ci.org/brentp/peddy.svg?branch=master)(https://travis ci.org/brentp/peddy)
-->;
quickstart
--
请参阅下面的安装。
大多数用户只需要作为带有PED和VCF的命令行工具运行,例如:
```
python-m peddy-p 4--plot——前缀ceph-1463 data/ceph1463.vcf.gz data/ceph1463.ped
````
创建4个csv文件和4个qc图。
这些将表明:
+ped报告和基因型推断关系之间的差异
+ped报告和基因型推断性别之间的差异
+het调用水平较高、深度较低的样本,对于het调用,b等位基因频率(ref/(ref+alt))的方差更大。
+基于对上千个基因组主成分投影的祖先预测
最后,它将创建一个新的文件ped files`ceph1463.peddy.ped',其中还列出了` het check和sex check。用户可以**首先查看这个扩展的ped文件,了解可能出现的问题**。
HG19/GRCH37型。它可以通过传递"-sites hg38"强制使用hg38站点。
创建自定义站点,查看[peddy包含的站点文件](https://github.com/brentp/peddy/blob/master/peddy/grch37.sites)以及相应的.bin.gz,它只是来自已被写入uint8的1000个基因组的原始二进制替代计数(gt_类型)和Gzipped.
速度
----
由于采样方法和并行化,"peddy"非常快。
有4个CPU,在17个成员的*ceph1643*全基因组vcf家系上,peddy可以在~8秒内运行HET检查和PCA。比较所有样本与所有样本的系谱检查在3.6秒内完成。
它在大约20秒内完成整套检查。
比较[国王](http://people.virginia.edu/~wc9c/king/manual.html)在14秒内完成
(它是**非常快**);从vcf到二进制ped的转换时间为85秒。成百上千个样本,尽可能多地添加
核心是有益的;对于具有几十个样本的较小数据集,大约4个处理器可以减少8个或更多的计算时间。
参见下图,其中peddy
关联度估计值比king更接近实际值,king则对关联度进行了过高估计。
!【Peddy vs King】(https://raw.githubusercontent.com/brentp/peddy/master/docs//u static/peddy-v-king.png"与King的比较")
Peddy使用King算法计算关联度,因此它们非常匹配。
Peddy还在1000个基因组中的2504个样本上运行PCA,
然后拟合一个支持向量机并预测祖先,此外还计算17个样本的所有成对组合之间的相关性。
警告和检查关于创建系谱对象(通过ped('some.ped')的
----
。` peddy"将酌情向stderr打印警告,例如:
```
系谱警告:'101811-101811'是父亲,但具有女性性别
系谱警告:'101897-101897'是父亲,但具有女性性别
系谱警告:'101896-101896'是自己的母亲
系谱警告:'102110-102110'是母亲但有男性
系谱警告:"102110-102110"是自己的母亲
系谱警告:"101381-101381"是父亲但有女性
系谱警告:"101393-101393"是母亲但有男性
未知样本:家庭中102498-102498:k34175
未知样本:家庭中11509-11509:k567331
未知示例:5180-5180系列:k8565
`````
这意味着
可以通过以下方式轻松安装您自己的python版本:
````
install_path=~/anaconda
wget http://repo.continum.io/miniconda/miniconda2-latest-linux-x86_64.sh
wget http://repo.continum.io/miniconda/miniconda2-latest-macosx-x86_64.sh
bash miniconda2-latest*-fbp$install_path
path=$install_path/bin:$path
conda update-y conda
conda config--添加通道bioconda
````
这应该安装所有依赖项,这样您就可以使用以下4个进程运行peddy:
``````
python-m peddy--plot-p 4——前缀mystudy$vcf$ped的mystudy$vcf$ped
```
`````
>```
---------
<;img src="https://cloud.githubusercontent.com/assets/1739/21734388/5a927926-d420-11e6-8ff9-534046df3305.png"style="width:287px;height:168px">;
peddy比较了[ped/fam文件](https://www.cog-genomics.org/plink2/formats fam)中报告的家庭关系和性别与从vcf推断的关系。
**杂合性**,**性别**,**血统**。它使用250.4万个基因组样本作为背景来校准相关性计算并进行祖先预测。
它通过采样、使用c进行计算密集部分以及并行化来快速完成这项工作。
昆兰,谁?利用Peddy检测和解决人类DNA样本异常
测序研究,美国人类遗传学杂志(2017),
http://dx.doi.org/10.1016/j.ajhg.2017.01.017(http://www.cell.com/action/showfulltextmimages?pii=s002-9297(17)30017-4)
[![水蟒服务器徽章](https://anaconda.org/bioconda/peddy/badges/installer/conda.svg)(https://conda.anaconda.org/bioconda)
[![PYPI版本](https://badge.fury.io/py/peddy.svg)(http://badge.fury.io/py/peddy)
[![文档状态](https://readthedocs.org/projects/peddy/badge/?版本=最新](http://peddy.readthedocs.org/en/latest/?徽章=最新)
<;!< < >![构建状态](https://travis-ci.org/brentp/peddy.svg?branch=master)(https://travis ci.org/brentp/peddy)
-->;
quickstart
--
请参阅下面的安装。
大多数用户只需要作为带有PED和VCF的命令行工具运行,例如:
```
python-m peddy-p 4--plot——前缀ceph-1463 data/ceph1463.vcf.gz data/ceph1463.ped
````
创建4个csv文件和4个qc图。
这些将表明:
+ped报告和基因型推断关系之间的差异
+ped报告和基因型推断性别之间的差异
+het调用水平较高、深度较低的样本,对于het调用,b等位基因频率(ref/(ref+alt))的方差更大。
+基于对上千个基因组主成分投影的祖先预测
最后,它将创建一个新的文件ped files`ceph1463.peddy.ped',其中还列出了` het check和sex check。用户可以**首先查看这个扩展的ped文件,了解可能出现的问题**。
HG19/GRCH37型。它可以通过传递"-sites hg38"强制使用hg38站点。
创建自定义站点,查看[peddy包含的站点文件](https://github.com/brentp/peddy/blob/master/peddy/grch37.sites)以及相应的.bin.gz,它只是来自已被写入uint8的1000个基因组的原始二进制替代计数(gt_类型)和Gzipped.
速度
----
由于采样方法和并行化,"peddy"非常快。
有4个CPU,在17个成员的*ceph1643*全基因组vcf家系上,peddy可以在~8秒内运行HET检查和PCA。比较所有样本与所有样本的系谱检查在3.6秒内完成。
它在大约20秒内完成整套检查。
比较[国王](http://people.virginia.edu/~wc9c/king/manual.html)在14秒内完成
(它是**非常快**);从vcf到二进制ped的转换时间为85秒。成百上千个样本,尽可能多地添加
核心是有益的;对于具有几十个样本的较小数据集,大约4个处理器可以减少8个或更多的计算时间。
参见下图,其中peddy
关联度估计值比king更接近实际值,king则对关联度进行了过高估计。
!【Peddy vs King】(https://raw.githubusercontent.com/brentp/peddy/master/docs//u static/peddy-v-king.png"与King的比较")
Peddy使用King算法计算关联度,因此它们非常匹配。
Peddy还在1000个基因组中的2504个样本上运行PCA,
然后拟合一个支持向量机并预测祖先,此外还计算17个样本的所有成对组合之间的相关性。
警告和检查关于创建系谱对象(通过ped('some.ped')的
----
。` peddy"将酌情向stderr打印警告,例如:
```
系谱警告:'101811-101811'是父亲,但具有女性性别
系谱警告:'101897-101897'是父亲,但具有女性性别
系谱警告:'101896-101896'是自己的母亲
系谱警告:'102110-102110'是母亲但有男性
系谱警告:"102110-102110"是自己的母亲
系谱警告:"101381-101381"是父亲但有女性
系谱警告:"101393-101393"是母亲但有男性
未知样本:家庭中102498-102498:k34175
未知样本:家庭中11509-11509:k567331
未知示例:5180-5180系列:k8565
`````
这意味着
可以通过以下方式轻松安装您自己的python版本:
````
install_path=~/anaconda
wget http://repo.continum.io/miniconda/miniconda2-latest-linux-x86_64.sh
wget http://repo.continum.io/miniconda/miniconda2-latest-macosx-x86_64.sh
bash miniconda2-latest*-fbp$install_path
path=$install_path/bin:$path
conda update-y conda
conda config--添加通道bioconda
这应该安装所有依赖项,这样您就可以使用以下4个进程运行peddy:
``````
python-m peddy--plot-p 4——前缀mystudy$vcf$ped的mystudy$vcf$ped
```
`````
>```