拷贝数分析的最小误差校正与规范化
mecan4cna的Python项目详细描述
拷贝数剖面通常需要校准 样品杂质和测量引起的基线(正常拷贝数) 偏见。在比较CN配置文件时,将其规范化是至关重要的 分析,因为通常每个剖面都有不同的信号尺度。
mecan4cna(拷贝数的最小误差校准和标准化 分析)使用代数方法估计基线和 DNA水平之间的距离(称为水平距离)。可能是 用于单文件分析和多文件规范化。
主要功能:
- 校准分割文件,使正常信号为 与2对齐(log2中为0)
- 估计DNA水平之间的距离
- 将多个文件规范化为统一的信号比例,以便3 (log2中的0.585)和log2中的1(-1)实际上对应一个副本 得失一本
- 只需要一个分段文件(来自任何平台)
- 深入分析的详细结果和图表
- 快
如何安装
最简单的方法是通过pip安装:
pip install mecan4cna mecan4cna --help
如何使用
见 manual 详细情况。
快速启动
mecan4can -i [SEGMENT_FILE] -o [OUTPUT_PATH]
演示模式
mecan4can --demo
这将把5个示例文件复制到当前目录并使用 默认设置。它调用run_mecan_example.sh脚本,该脚本 也将被复制并用作自定义的模板 分析。
一般用法
Usage: mecan4cna [OPTIONS] Options: -i, --input_file FILENAME The input file. -o, --output_path TEXT The path for output files. -n, --normalize Calibrate and normalize the input file. -p, --plot Whether to save the signal histogram. -b, --bins_per_interval INTEGER RANGE The number of bins in each copy number interval. -v, --intervals INTEGER RANGE The number of copy number intervals. --demo Copy example files and run a demo script in the current directory. -pt, --peak_thresh INTEGER RANGE The minimum probes of a peak. -st, --segment_thresh INTEGER RANGE The minimum probes of a segment. --model_steps INTEGER RANGE The incremental step size in modeling. --mpd_coef FLOAT Minimum Peak Distance coefficient in peak detection. --max_level_distance FLOAT The maximum value of level distance. --min_level_distance FLOAT The minimum value of level distance. --min_model_score INTEGER RANGE The minimum value of the model score. --info_lost_ratio_thresh FLOAT The threshold of information lost ratio. --info_lost_range_low FLOAT The low end of information lost range. --info_lost_range_high FLOAT The high end of information lost range. --ld_scaler FLOAT The scaler of level distance in normalization. --help Show this message and exit.
所需选项为:
- -i FILENAME
- -o OUTPUTPATH
输入文件格式
输入应该是分段文件:
- 至少有5列:id、染色体、开始、结束、探针和 值(按确切顺序,名称无关紧要)。任何附加列 将被忽略。
- 文件的第一行假定为列名,并且 忽略。不要在文件的开头放空行。
- 以tab分隔,不带引号
例如:
id chro start end num_probes seg_mean GSM378022 1 775852 143752373 9992 0.025 GSM378022 1 143782024 214220966 6381 0.1607 GSM378022 2 88585000 144628991 4256 0.0131 GSM378022 2 144635510 146290468 146 0.1432 GSM378022 3 48603 8994748 1469 0.0544
输出文件
将在输出路径中创建4个文件。如果mecan没有检测到 任何东西(没有足够的异常段或没有有效的模型),只有 将创建直方图:
- base_level.txt:包含估计的基线和水平距离。
- 直方图:信号分布的直观图示。
- models.tsv:一个选项卡分隔的表,详细说明 所有型号。
- peaks.tsv:用制表符分隔的表显示所确定的信号峰值 与基线相比,它们的相对DNA水平。
校准和标准化
使用-n标志,输入文件将被规范化并保存为 normalized.tsv。
作为python库导入
importmecan4can.algorithmsasalgimportmecan4can.commonascommwithopen('examples\segment_example_1.tsv','r')asfin:segments=comm.file2list(fin)m=alg.mecan()r=m.run(segments)