Python cancer-data包_程序模块 - PyPI

各种癌症基因组数据集的预处理

cancer-data的Python项目详细描述

癌症数据

这个软件包提供了访问癌症研究中常用数据集的统一方法。在

安装

pip install cancer_data

系统要求

原始下载的文件大约占用15gb，处理过的hdf占用大约10gb。在一个相对较新的机器上，下载后处理所有文件需要3-4个小时。建议使用至少16GB的RAM来处理大型拼接表。在

数据集

数据集的完整描述可以在schema.csv中找到。在

Collection	Datasets	Portal
Cancer Cell Line Encyclopedia (CCLE)	Many (see portal)	https://portals.broadinstitute.org/ccle/data (registration required)
Cancer Dependency Map (DepMap)	Genome-wide CRISPR-cas9 and RNAi screens, gene expression, mutations, and copy number	https://depmap.org/portal/download/
The Cancer Genome Atlas (TCGA)	Mutations, RNAseq expression and splicing, and copy number	https://xenabrowser.net/datapages/?cohort=TCGA%20Pan-Cancer%20(PANCAN)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443
The Genotype-Tissue Expression (GTEx) Project	RNAseq expression and splicing	https://gtexportal.org/home/datasets

特点

这个软件包的目标是使这些数据集的统计分析和协调更加容易。最后，它提供了以下功能：

协调：集合中的数据集将样本ID缩减为相同的格式。例如，所有CCLE+DepMap数据集都被修改为使用Achilles/Arxspan id，而不是细胞系名称。在
速度：处理过的数据集都存储在高性能的HDF5 format中，允许加载大表的速度比使用CSV或TSV格式快几个数量级。在
空间：纯数值表（如基因表达、甲基化、药物敏感性）以半精度格式存储。压缩用于所有表，导致稀疏矩阵（如突变表）的大小减少10倍以上，而高度冗余的表（如基因水平的拷贝数估计）的大小缩减超过50倍。在

工作原理

schema用作所使用的所有数据集的参考点。每个数据集由一个唯一的id列标识，该列也用作其访问标识符。在

从download_url中指定的位置下载数据集，然后根据提供的downloaded_md5哈希检查它们。在

接下来的步骤取决于数据集的type：

reference数据集，如hg19 FASTA文件，保持原样。在
primary_dataset对象被预处理并转换为HDF5格式。在
secondary_dataset对象定义为由primary_dataset对象构成。这些文件也会被处理并转换成HDF5格式。在

为了跟踪生成另一个数据集所需的数据集，dependencies列指定生成另一个数据集所需的数据集id。例如，ccle_proteomics数据集依赖于ccle_annotations数据集，用于将细胞系名称转换为致命弱点。如果发现不符合依赖项，则会在发现依赖项时自动引发处理错误。在

注释

有些数据集已应用筛选以减小其大小。具体如下：

对CCLE、GTEx和TCGA剪接数据集进行了过滤，去除了许多缺失值和低标准差的剪接事件。在
当构造二元突变矩阵（depmap_damaging和depmap_hotspot）时，使用最小突变频率来消除特别罕见（少于四个样本）的突变。在
tcgamx拼接数据集非常大（大约10000行×900000列），因此它被按列划分为8个块。在

欢迎加入QQ群-->： 979659372

cancer-data 0.3.0

cancer-data的Python项目详细描述

癌症数据

安装

系统要求

数据集

特点

工作原理

注释

推荐PyPI第三方库

Unlock

collective.recaptcha

pyunisend

django-rforum

Config-gen

achallonge

ConfMerge

akima

logbin

xbox-smartglass-stump

resources

Teleportd

aupyom

django-pip-starter

markdown-urlize

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

cancer-data 0.3.0

cancer-data的Python项目详细描述

癌症数据

安装

系统要求

数据集

特点

工作原理

注释

推荐PyPI第三方库

Unlock

collective.recaptcha

pyunisend

django-rforum

Config-gen

achallonge

ConfMerge

akima

logbin

xbox-smartglass-stump

resources

Teleportd

aupyom

django-pip-starter

markdown-urlize

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签