拷贝数分析的最小误差校正与规范化

mecan4cna的Python项目详细描述


拷贝数剖面通常需要校准 样品杂质和测量引起的基线(正常拷贝数) 偏见。在比较CN配置文件时,将其规范化是至关重要的 分析,因为通常每个剖面都有不同的信号尺度。

mecan4cna(拷贝数的最小误差校准和标准化 分析)使用代数方法估计基线和 DNA水平之间的距离(称为水平距离)。可能是 用于单文件分析和多文件规范化。

主要功能:

  • 校准分割文件,使正常信号为 与2对齐(log2中为0)
  • 估计DNA水平之间的距离
  • 将多个文件规范化为统一的信号比例,以便3 (log2中的0.585)和log2中的1(-1)实际上对应一个副本 得失一本
  • 只需要一个分段文件(来自任何平台)
  • 深入分析的详细结果和图表

如何安装

最简单的方法是通过pip安装:

pip install mecan4cna
mecan4cna --help

如何使用

manual 详细情况。

快速启动

mecan4can -i [SEGMENT_FILE] -o [OUTPUT_PATH]

演示模式

mecan4can --demo

这将把5个示例文件复制到当前目录并使用 默认设置。它调用run_mecan_example.sh脚本,该脚本 也将被复制并用作自定义的模板 分析。

一般用法

Usage: mecan4cna [OPTIONS]

Options:
  -i, --input_file FILENAME       The input file.
  -o, --output_path TEXT          The path for output files.
  -n, --normalize                 Calibrate and normalize the input file.
  -p, --plot                      Whether to save the signal histogram.
  -b, --bins_per_interval INTEGER RANGE
                                  The number of bins in each copy number
                                  interval.
  -v, --intervals INTEGER RANGE   The number of copy number intervals.
  --demo                          Copy example files and run a demo script in
                                  the current directory.
  -pt, --peak_thresh INTEGER RANGE
                                  The minimum probes of a peak.
  -st, --segment_thresh INTEGER RANGE
                                  The minimum probes of a segment.
  --model_steps INTEGER RANGE     The incremental step size in modeling.
  --mpd_coef FLOAT                Minimum Peak Distance coefficient in peak
                                  detection.
  --max_level_distance FLOAT      The maximum value of level distance.
  --min_level_distance FLOAT      The minimum value of level distance.
  --min_model_score INTEGER RANGE
                                  The minimum value of the model score.
  --info_lost_ratio_thresh FLOAT  The threshold of information lost ratio.
  --info_lost_range_low FLOAT     The low end of information lost range.
  --info_lost_range_high FLOAT    The high end of information lost range.
  --ld_scaler FLOAT               The scaler of level distance in
                                  normalization.
  --help                          Show this message and exit.

所需选项为:

  • -i FILENAME
  • -o OUTPUTPATH

输入文件格式

输入应该是分段文件:

  • 至少有5列:id、染色体、开始、结束、探针和 值(按确切顺序,名称无关紧要)。任何附加列 将被忽略。
  • 文件的第一行假定为列名,并且 忽略。不要在文件的开头放空行。
  • tab分隔,不带引号

例如:

id  chro    start   end num_probes  seg_mean
GSM378022   1   775852  143752373   9992    0.025
GSM378022   1   143782024   214220966   6381    0.1607
GSM378022   2   88585000    144628991   4256    0.0131
GSM378022   2   144635510   146290468   146 0.1432
GSM378022   3   48603   8994748 1469    0.0544

输出文件

将在输出路径中创建4个文件。如果mecan没有检测到 任何东西(没有足够的异常段或没有有效的模型),只有 将创建直方图:

  • base_level.txt:包含估计的基线和水平距离。
  • 直方图:信号分布的直观图示。
  • models.tsv:一个选项卡分隔的表,详细说明 所有型号。
  • peaks.tsv:用制表符分隔的表显示所确定的信号峰值 与基线相比,它们的相对DNA水平。

校准和标准化

使用-n标志,输入文件将被规范化并保存为 normalized.tsv

作为python库导入

importmecan4can.algorithmsasalgimportmecan4can.commonascommwithopen('examples\segment_example_1.tsv','r')asfin:segments=comm.file2list(fin)m=alg.mecan()r=m.run(segments)

常见问题

matplotlib的

错误

似乎matplotlib的最新版本(3.0.3)中有一个bug, 这可能会导致OSX出现问题。麦肯使用的是 matplotlib(2.0.2)以避免此问题。如果你需要使用最新的 版本和运行时遇到问题,请检查以下链接。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中从本地文件系统导入文件   spring boot如何在Java SpringBoot项目中集成Olingo(Odata)   java查找连续数组中缺少的第k个元素(超过时间限制)   java为什么在mySql中插入1/2行时会得到2/4行   java不能在静态上下文中使用它   File Observer方法的java My onEvent()部分不起作用   java Netty NioSocketChannel在多线程写入时收到中断消息   java将文件夹与父文件夹一起复制   java我的TictaToe代码出了什么问题?如何检查已采取的措施?   java Swing JTable更新   java如何将cordinates查找为int   如何使用selenium和java在firefox中打开新的空选项卡   java Gradle构建输出Jar未运行   java没有GET/WEBINF/jsp/login的映射。jsp