SAM文件分析,保持唯一的不一致记录。

unique-sam的Python项目详细描述


独特的sam

unique sam是一个简单的命令行工具,用于删除重复的 SAM文件中的对齐。 如果对齐的mapq字段可用,unique sam将保持 只有一个和最高得分一致。否则, unique sam将根据路线的md或 雪茄字段并使用计算值移除重复的 对准。

安装

  • 使用源代码安装,在源文件夹中:

    python setup.py install
    
  • 如果你有**pip** 安装后,您只需运行

    pip install unique-sam
    

    安装后,您可以通过命令访问unique sam。 行。

用法

unique sam需要一个sam格式文件才能正常运行。使用前 unique-sam命令,我们必须根据 QNAME字段。你可以用samtools来达到这个目的, 有关更多帮助,请参阅samtools:

samtools sort --help

对于基本用法,在命令行环境中:

unique-sam input.sam -o output.sam

-s参数

如果您没有访问samtools的权限,可以使用 unique-sam

unique-sam -s input.sam -o output.sam

unique-sam的排序功能实现为

  1. 从原始sam文件复制临时文件
  2. 提取sam文件的头
  3. 使用bash sort程序对对齐进行排序

-k参数

-k参数提供如何提取对齐的控件 key from qname字段-k的参数是正则的 表达式。你应该用括号把关键部分分组。**例如 1**>;问题名称: N|GACGCGGATCTT/500407:4:H03E5AFXX:1:21109:5977:6969_2:N:0:ATACAA>;>; -k'(.*)\_[1-2](.*)'>;gt;键将是: N|GACGCGGATCTT/500407:4:H03E5AFXX:1:21109:5977:6969:N:0:ATACAA>; 它将删除qname的_1/2部分。

**例如2**>;qname:HWI-ST667_0147:1:1101:1128:2079#CGATGT/1>; >;-k'(.*)\/[1-2]'>;gt;键将是: HWI-ST667_0147:1:1101:1128:2079#CGATGT>;它将删除 /1/2qname的一部分。

有关unique sam的更多信息,请运行:

unique-sam --help

独特的策略

以下策略可用于找到唯一和最佳的对齐方式

  1. 保持得分最高的一对。如果不止一个 两人的“最高分数”相同,这两人将 远离的。
  2. READ1和READ2应该映射到不同的链上。
  3. 由读对决定的段长度应大于 0.7*读取长度

日志文件

所有删除的对齐都将写入日志文件input.sam.log 在当前文件夹下。日志文件的每一行都以符号和 然后是删除的路线(中的原始路线记录 input.sam)。这个符号描述了为什么 应删除对齐。这些符号的规格是 下表中列出:

|符号描述----–。| 错误行<;低分对齐=对 有多个最佳分数~读取对映射到 同一串段长度太短-。| 标记字段或未映射段中的READ1/2信息无效

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Cassandra复制因子大于节点数   java J2EE JTA事务回滚不适用于OSE Glassfish 4.0(Build 89)   java spring安全预认证用户登录   org的java类文件。反应流。从RxJava编译示例时未找到Publisher?   java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头   Javafx类的java静态实例   java如何防止一个部件在关闭时覆盖另一个部件的位置   sql server无法从我的java代码连接到数据库   java在JList(Swing)中显示带有的ArrayList   从Java中的CXF服务获取WSAddressing数据   使用资产文件夹进行java简单json解析(本地)   java LDAPException未绑定的无效凭据   JavaJSFspring部署到weblogic   JAVA中字符数组中的特定元素排列?   如果脚本位于不同的目录中,则ant不会使用exec标记运行Javashell脚本