利用稀有变异的区域聚集进行eqtl分析。
aeqtl的Python项目详细描述
aeqtl
利用稀有变异的区域聚集进行eqtl分析。
要求
- Python3.5
- 点
- bx_interval_tree(请参阅下面的安装说明)
- git(可选)
安装
首先,从bx python安装intervaltree。我们强烈建议使用名为bx_interval_tree的独立包,它比bx python更小,更易于编译
git clone https://github.com/ccwang002/bx_interval_tree
cd bx_interval_tree
python setup.py install
cd ..
选择以下选项之一继续安装aeqtl。
(1)来自PYPI
安装AeQTL最简单的方法是从PyPI
pip install aeqtl
(2)来自源代码
或者,下载aeqtl的源代码
git clone https://github.com/Huang-lab/AeQTL
然后安装aeqtl
cd AeQTL
pip install .
可选(但推荐)
将路径附加到AEQTL到PATH环境变量
export PATH=/path/to/AeQTL/bin:$PATH
运行
aeqtl -v <vcf file> -b <bed file> -e <expression file> \
-cn <numerical covariates> -cc <categorical covariates> -s <covariate file> \
-o <output directory>
输入数据格式
注意:可以在“demo”文件夹中找到兼容格式的demo输入文件
VCF文件
一个标准的多示例VCF文件,文件扩展名为.vcf(或.vcf.gz)。VCF文件、表达式文件和协变量文件中的示例ID应完全匹配。
床文件
至少有四列且没有标题的床位文件(标签分开)。文件格式如下:
<chromosome> <start> <end> <region_name> <tested_genes>
示例行:
chr17 41197693 41197821 BRCA1 BRCA1;SLC25A39;HEXIM2
前四列是必需的。第五列是由“;”分隔的基因列表。如果未提供第五列(已测试的_基因),则AEQTL将使用表达式文件中的每个基因测试每个区域。
表达式文件
一种矩阵格式,tab分隔的.tsv文件,包含来自rna序列的基因表达。文件的第一行(标题)应如下:
gene_id <sample_id_1> <sample_id_2> <sample_id_3> ...
文件的第一列如下:
gene_id
<gene_1>
<gene_2>
...
协变量文件
以制表符分隔的.tsv文件,其列名与协变量相对应。列名称为“sample_id”的sample id列是必需的。在AeQTL中输入的协变量及其对应的列名必须完全匹配但是,协变量文件也可以包含其他未使用的列如果输入类别协变量,请确保每个类别在整个文件中具有相同的值(即避免出现“女性”和“女性”同时出现在同一列的情况)
输出数据格式
以制表符分隔的.tsv摘要统计文件(小数点后最多5位)。每一行是一个区域和一个基因之间的eqtl检验。文件包含以下字段:
- 区域
- 基因
- 系数截距
- coef_基因型
- 协变量(对于每个协变量)
- p值截距
- pvalue_基因型
- p值协变量(对于每个协变量)