Phip Seq分析工具
phip-stat的Python项目详细描述
#` phip stat`:分析phip seq数据的工具
phip seq分析首先在[larman等人
al.]中描述(https://dx.doi.org/10.1038/nbt.1856)。此repo包含用于将原始phip seq数据处理为分析准备的富集分数的代码。
这些对齐转换为
计数,然后根据广义poisson
回归模型将其转换为分数。
这些工具是用python实现的,可以将作业分派给hpc作业
调度程序,如lsf或网格引擎。
请提交[问题](https://github.com/lasersonlab/phip stat/issues)报告任何问题。该代码实现了原始larman等人论文中所述的统计模型。目前有多种替代模型正在开发中。
如果有任何问题,请作为问题提交。
``bash
pip install phip stat
````
>或从github安装最新开发版本ly from github](https://github.com/lasersonlab/phip stat/releases).
d
希望它在"路径"上可用。
在集群上运行时,我们假设您可以从所有节点(例如nfs)访问公共文件系统
,这在学术hpc计算环境中是常见的。将"phip stat"包安装到将在集群中调用的python发行版中也很重要。我们建议使用conda,以便将python轻松安装到本地用户目录中(请参见附录)。
(您的
`path`可能需要修改以包含python安装的'bin/`directory
)可以通过传递`-h`获得命令列表。
```
$phip-h
用法:phip[options]command[args]…
options:
-h,--帮助显示此消息并退出。
注释illumina使用条形码读取一些…
合并列merge tab delim文件
将fastq split fastq文件拆分成更小的块
````
还可以使用"-f"获取特定命令的选项/用法,例如:
````
$phip split fastq-h
us年龄:phip split fastq[选项]
显示此消息并退出。
````
从phip seq实验中读取数据(原始数据)
2。校准用phip seq库或蝴蝶结索引的参考文件
3。在没有任何免疫沉淀的情况下对phip seq库进行测序得到的输入计数
\unks用于对齐。
``bash
phip split fastq-n 2000000-i path/to/input.fastq-o path/to/workdir/parts
````
然后使用"蝴蝶结"将每个读取的内容与参考phip seq库对齐
(确保设置正确的队列):
``bash
phip align parts\
-iworkdir/parts-o workdir/alns \
-x path/to/index \;表示路径/to/index.1.ebwt存在等。
-b"bsub-q short"
````
注意:"align parts"的工作方式是构造一个"bowtie"命令,并在该命令前面加上"-b"选项中给定的命令来执行它。每次调用
都会执行并阻塞到完成,如果提交给
批处理调度程序(如lsf,如图所示),这是即时的。如果省略或指定空白作为
字符串,则每个命令都将按顺序执行。
接下来,我们将按示例重新组织生成的对齐,假设
示例条形码包含在每次读取的"查询ID"中。
``bash
phip groupby sample-i workdir/alns-o workdir/alns_by_sample-m mapping.tsv
```
对于预解复用的".fastq"文件,您可以立即从"对齐部分"开始,并跳过"groupby sample"。我们假设样本标识符是文件名的基本部分(例如,
`sample1.fastq`)。
将"vector用于
特定的噬菌体库"。
``bash
phip计算计数\
-i workdir/alns_by_sample-o workdir/counts-r path/to/reference/counts.tsv
````
因此它可以与作业
调度程序并行。
``bash
phip compute pvals-i workdir/counts-o workdir/pvals-b"bsub-q short"
````
若要仅在单个计数文件上手动计算p值,请执行
``bash
phip compute pvals-i workdir/counts/sample1.counts.tsv-o sample1.pvals.tsv
`````
合并列-i workdir/pvals-o pvals.tsv-p 1
```
茎和与蟒蛇和小蟒蛇的分布紧密相连。使用
conda可以非常容易地将一个完整的python发行版安装到您的
本地目录中,以及所有的重磅软件包中。它还为exmaple管理许多非python包,包括蝴蝶结。
`` bash
curl https://repo.continuum.io/miniconda/miniconda3-latest-linux-x86\u 64.sh>;miniconda3.sh
bash miniconda3.sh-b-p$home/miniconda3
ofile
conda install-y numpy scipy biopython单击conda install-y bowtie
````
这将把python 3和bowtie安装到您的主目录中,与系统python安装完全隔离。
o进入一个
"未标识"文件,该文件不包含该读取的索引序列。
相反,这些索引在单独的".fastq"文件中可用。要使用这些
数据集,必须重写reads`.fastq'文件,以便在read头中包含索引
序列。这可以通过"phip join-
条形码"命令完成。
phip seq分析首先在[larman等人
al.]中描述(https://dx.doi.org/10.1038/nbt.1856)。此repo包含用于将原始phip seq数据处理为分析准备的富集分数的代码。
这些对齐转换为
计数,然后根据广义poisson
回归模型将其转换为分数。
这些工具是用python实现的,可以将作业分派给hpc作业
调度程序,如lsf或网格引擎。
请提交[问题](https://github.com/lasersonlab/phip stat/issues)报告任何问题。该代码实现了原始larman等人论文中所述的统计模型。目前有多种替代模型正在开发中。
如果有任何问题,请作为问题提交。
``bash
pip install phip stat
````
>或从github安装最新开发版本ly from github](https://github.com/lasersonlab/phip stat/releases).
d
希望它在"路径"上可用。
在集群上运行时,我们假设您可以从所有节点(例如nfs)访问公共文件系统
,这在学术hpc计算环境中是常见的。将"phip stat"包安装到将在集群中调用的python发行版中也很重要。我们建议使用conda,以便将python轻松安装到本地用户目录中(请参见附录)。
(您的
`path`可能需要修改以包含python安装的'bin/`directory
)可以通过传递`-h`获得命令列表。
```
$phip-h
用法:phip[options]command[args]…
options:
-h,--帮助显示此消息并退出。
注释illumina使用条形码读取一些…
合并列merge tab delim文件
将fastq split fastq文件拆分成更小的块
````
还可以使用"-f"获取特定命令的选项/用法,例如:
````
$phip split fastq-h
us年龄:phip split fastq[选项]
显示此消息并退出。
````
从phip seq实验中读取数据(原始数据)
2。校准用phip seq库或蝴蝶结索引的参考文件
3。在没有任何免疫沉淀的情况下对phip seq库进行测序得到的输入计数
\unks用于对齐。
``bash
phip split fastq-n 2000000-i path/to/input.fastq-o path/to/workdir/parts
````
然后使用"蝴蝶结"将每个读取的内容与参考phip seq库对齐
(确保设置正确的队列):
``bash
phip align parts\
-iworkdir/parts-o workdir/alns \
-x path/to/index \;表示路径/to/index.1.ebwt存在等。
-b"bsub-q short"
````
注意:"align parts"的工作方式是构造一个"bowtie"命令,并在该命令前面加上"-b"选项中给定的命令来执行它。每次调用
都会执行并阻塞到完成,如果提交给
批处理调度程序(如lsf,如图所示),这是即时的。如果省略或指定空白作为
字符串,则每个命令都将按顺序执行。
接下来,我们将按示例重新组织生成的对齐,假设
示例条形码包含在每次读取的"查询ID"中。
``bash
phip groupby sample-i workdir/alns-o workdir/alns_by_sample-m mapping.tsv
```
对于预解复用的".fastq"文件,您可以立即从"对齐部分"开始,并跳过"groupby sample"。我们假设样本标识符是文件名的基本部分(例如,
`sample1.fastq`)。
将"vector用于
特定的噬菌体库"。
``bash
phip计算计数\
-i workdir/alns_by_sample-o workdir/counts-r path/to/reference/counts.tsv
````
因此它可以与作业
调度程序并行。
``bash
phip compute pvals-i workdir/counts-o workdir/pvals-b"bsub-q short"
````
若要仅在单个计数文件上手动计算p值,请执行
``bash
phip compute pvals-i workdir/counts/sample1.counts.tsv-o sample1.pvals.tsv
`````
合并列-i workdir/pvals-o pvals.tsv-p 1
```
茎和与蟒蛇和小蟒蛇的分布紧密相连。使用
conda可以非常容易地将一个完整的python发行版安装到您的
本地目录中,以及所有的重磅软件包中。它还为exmaple管理许多非python包,包括蝴蝶结。
`` bash
curl https://repo.continuum.io/miniconda/miniconda3-latest-linux-x86\u 64.sh>;miniconda3.sh
bash miniconda3.sh-b-p$home/miniconda3
ofile
conda install-y numpy scipy biopython单击conda install-y bowtie
````
这将把python 3和bowtie安装到您的主目录中,与系统python安装完全隔离。
o进入一个
"未标识"文件,该文件不包含该读取的索引序列。
相反,这些索引在单独的".fastq"文件中可用。要使用这些
数据集,必须重写reads`.fastq'文件,以便在read头中包含索引
序列。这可以通过"phip join-
条形码"命令完成。