各种癌症基因组数据集的预处理
cancer-data的Python项目详细描述
癌症数据
这个软件包提供了访问癌症研究中常用数据集的统一方法。在
安装
pip install cancer_data
系统要求
原始下载的文件大约占用15gb,处理过的hdf占用大约10gb。在一个相对较新的机器上,下载后处理所有文件需要3-4个小时。建议使用至少16GB的RAM来处理大型拼接表。在
数据集
数据集的完整描述可以在schema.csv中找到。在
Collection | Datasets | Portal |
---|---|---|
Cancer Cell Line Encyclopedia (CCLE) | Many (see portal) | https://portals.broadinstitute.org/ccle/data (registration required) |
Cancer Dependency Map (DepMap) | Genome-wide CRISPR-cas9 and RNAi screens, gene expression, mutations, and copy number | https://depmap.org/portal/download/ |
The Cancer Genome Atlas (TCGA) | Mutations, RNAseq expression and splicing, and copy number | https://xenabrowser.net/datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443 |
The Genotype-Tissue Expression (GTEx) Project | RNAseq expression and splicing | https://gtexportal.org/home/datasets |
特点
这个软件包的目标是使这些数据集的统计分析和协调更加容易。最后,它提供了以下功能:
- 协调:集合中的数据集将样本ID缩减为相同的格式。例如,所有CCLE+DepMap数据集都被修改为使用Achilles/Arxspan id,而不是细胞系名称。在
- 速度:处理过的数据集都存储在高性能的HDF5 format中,允许加载大表的速度比使用CSV或TSV格式快几个数量级。在
- 空间:纯数值表(如基因表达、甲基化、药物敏感性)以半精度格式存储。压缩用于所有表,导致稀疏矩阵(如突变表)的大小减少10倍以上,而高度冗余的表(如基因水平的拷贝数估计)的大小缩减超过50倍。在
工作原理
schema用作所使用的所有数据集的参考点。每个数据集由一个唯一的id
列标识,该列也用作其访问标识符。在
从download_url
中指定的位置下载数据集,然后根据提供的downloaded_md5
哈希检查它们。在
接下来的步骤取决于数据集的type
:
reference
数据集,如hg19 FASTA文件,保持原样。在primary_dataset
对象被预处理并转换为HDF5格式。在secondary_dataset
对象定义为由primary_dataset
对象构成。这些文件也会被处理并转换成HDF5格式。在
为了跟踪生成另一个数据集所需的数据集,dependencies
列指定生成另一个数据集所需的数据集id
。例如,ccle_proteomics
数据集依赖于ccle_annotations
数据集,用于将细胞系名称转换为致命弱点。如果发现不符合依赖项,则会在发现依赖项时自动引发处理错误。在
注释
有些数据集已应用筛选以减小其大小。具体如下:
- 对CCLE、GTEx和TCGA剪接数据集进行了过滤,去除了许多缺失值和低标准差的剪接事件。在
- 当构造二元突变矩阵(
depmap_damaging
和depmap_hotspot
)时,使用最小突变频率来消除特别罕见(少于四个样本)的突变。在 - tcgamx拼接数据集非常大(大约10000行×900000列),因此它被按列划分为8个块。在
- 项目
标签: