nucdiff定位和分类两个密切相关的核苷酸序列之间的差异。

NucDiff的Python项目详细描述


#nucdiff手册它能够处理非常零碎的基因组、结构重排和各种局部差异。这些特性使得nucdiff非常适合相互比较程序集或与可用的参考基因组进行比较。

nucdiff提供有关差异类型及其位置的信息。可以将结果上传到基因组浏览器中进行可视化和进一步检查。它是用python编写的,使用mummer[1]中的numer包进行序列比较。

<;br>;<;br>;
2个先决条件
nucdiff可以在Linux和Mac操作系统上运行。它使用Python2.7、MummerV3.23和Biopython包。在运行nucdiff之前,mummer和biopython包应该安装在路径中。

mummer tarball可在http://sourceforge.net/projects/mummer/下载。
biopython包可在http://biopython.org/wiki/download下载。

<;br>;<;br>;
3运行nucdiff
3.1命令行语法和输入参数
以运行nucdiff,使用有效的输入参数运行"nucdiff.py"脚本:

```
$python nucdiff.py[-h][--reloc_dist[int]]
[--nucmer_opt[nummer_opt]
[--filter_opt[filter_opt]
[--delta_file[delta_file]
[--proc[int]
[--ref_name_full[{yes,no}]]
[--query_name_full[{yes,no}]]
[--vcf[{yes,无}]
[--version]
reference.fasta query.fasta output_dir prefix

````


positional参数:
**reference.fasta**-具有引用序列的fasta文件
**query.fasta**-具有查询的fasta文件sequences
**output_dir**-存储所有中间和最终结果的目录路径
**prefix**-将添加到所有生成文件(包括由numer创建的文件)的名称


--帮助**-显示此帮助消息并退出
**--reloc_dist**-两个重新定位的块之间的最小距离[10000]
**--numer_opt**-nummer run options。默认情况下,numer将使用其默认参数值运行,但--maxmatch参数除外。--maxmatch是硬编码的,不能更改。若要更改任何其他参数值,请在单引号或双引号内键入参数名称和新值。
**--filter_opt**-delta filter run options。默认情况下,它将仅与-q参数一起运行。-q是硬编码的,不能更改。要添加任何其他参数值,在单引号或双引号内键入参数名称及其值。
**--delta_file**-已存在的delta文件(numer输出文件)的路径
**--proc**-要使用的进程数[1]
**--ref_name_full**-打印输出文件中的完整引用名称("是"价值)。如果"否",则忽略第一个空格后的所有内容。['no']
**--query_name_full**-在输出文件中打印完整的查询名称("yes"值)。如果"否",则忽略第一个空格后的所有内容。['no']
**--vcf[{yes,no}]**-以vcf格式输出中小型本地差异['no']
**--version**-显示程序的版本号并退出

<;br>;<;br>;
3.2运行示例
具有nucdiff和nucmer预定义参数值的运行示例,nucmer—maxmatch参数和delta filter-q参数除外。--maxmatch是硬编码的,不能更改为-mum或-mumreference。-q也是硬编码的,不能改为-g或-r:

````
$python n nucdiff.py my_reference.fasta my_query.fasta my_output_dir my_prefix
````

<;br>;当用户需要更改nucmer和nucdiff默认参数值时的运行示例:

````
$python nucdiff.py--proc 5--ref_name_full yes--query_name full yes--nummer opt'-c 200-l 250'我的电脑参考.fasta我的电脑查询.fasta我的电脑输出目录我的电脑前缀
````
<;br>;<;br>;
有关所有可能的nummer和delta过滤器参数以及.delta和.coord输出文件的详细说明,请参见mummer手册http://mumer.sourceforge.net/manual/。

<;br>;<;br>;
4方法概述
4.1 nucdiff步骤
nucdiff工作流如图1所示。所有步骤的详细说明见[2]。

![]图1:NUCDIFF工作流
<;br>;
4.2差异类型
所有差异分为3组:全局、局部和结构(图2)。



![](figures_readme/types_of_differences.png)

在[2]和githhub wiki(https://github.com/uio-cels/nucdiff/wiki)中可以找到不同之处。


<;br>;<;br>;
5。nucdiff output
nucdiff将其输出放在`<;output_dir>;/results`目录中。输出包含9个文件:
*&lsaquo;prefix&rsaquo;\u ref&u snps.gff
*&lsaquo;prefix&rsaquo;\u ref&u struct.gff
*&lsaquo;prefix&rsaquo;&u ref&u blocks.gff
*&lsaquo;prefix&rsaquo;&u ref&snps.vcf
*&lsaquo;prefix&rsaquo;_查询"snps.gff
*&lsaquo;前缀&rsaquo;\u查询结构.gff
*&lsaquo;前缀&rsaquo;&u查询块.gff
*&lsaquo;前缀&rsaquo;&u查询snps.vcf
*&lsaquo;前缀&rsaquo;_ stat.out



所有输出文件的详细说明可以在githhub wiki(https://githhub.com/uio-cels/nucdiff/wiki)中找到。

分别为https://github.com/the-sequence-ontology/specifications/blob/master/gff3.md和https://samtools.github.io/hts-specs/vcfv4.2.pdf。

6.引用nucdiff

nucdiff:两组dna序列差异的深入表征和注释。生物信息学。2017年;18(1):338。doi:10.1186/s12859-017-1748-z.



<;br>;
\references
[1]kurtz s等人。用于比较大型基因组的通用开放软件。基因组生物学。2004;5(2):r12。doi 10.1186/gb-2004-5-2-r12.

[2]khelik等人。nucdiff:两组dna序列差异的深入表征和注释。生物信息学。2017年;18(1):338。doi:10.1186/s12859-017-1748-z。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用ContentExchange设置请求属性   java Spark/Hdfs/Hdfsclient兼容性   java springcloudstreamkafka配置:instanceCount和instanceIndex   Java中web服务序列化日期   java用动态数据替换占位符   java git gc似乎覆盖了一个packfile,留下了一个打开的文件描述符,其中包含对“oldxxx.pack”的引用   为什么Apache项目对Java版本敏感?   java Anylogic帮助如何在导入的3dobject通过输送机上的多个“站”时更改其颜色?   JavaEclipseNeonM2E可以导入一个大型项目,但似乎不能自动解决依赖关系   java@FindBy搜索具有满足条件的子元素的元素   java如何将ActionEvent e与键绑定一起使用?   java转换以集中方式从外部库抛出的异常   java中用户文件/数据文件与系统/程序文件的区别   java使用变量字符串或字符作为对象名   字体使用Java图形操纵字符串中每个字符的形状   JavaFX图表移动数据   java RandomAccessFile:将所有项设置为相同的字节数?   java Google Play inapp Billing onPurchasesUpdated()错误响应代码1   java在不知道属性名和属性数的情况下处理json对象   java是否可以一次从HazelcastInstance(映射和列表)中删除所有数据?