存储和访问基因表达数据集和基因定义。
genedataset的Python项目详细描述
genedataset是存储和访问基因表达式的包 数据集和基因定义。它包含两个主要类,geneset 和数据集。
基因集
geneset存储来自ensembl和 ncbi/entrez(仅限鼠标和人),以便您可以查询:
$ gs = geneset.Geneset().subset(queryStrings='ccr3') $ print gs.geneIds() ['ENSG00000183625', 'ENSMUSG00000035448'] $ gs.dataframe() | EnsemblId | Species | EntrezId | GeneSymbol | Synonyms | Description | MedianTranscriptLength | Orthologue | ExonLength | |--------------------|-------------|----------|------------|------------------------------|----------------------------------|------------------------|-------------------------|------------| | ENSG00000183625 | HomoSapiens | 1232 | CCR3 | CC-CKR-3|CD193|CKR3|CMKBR3 | chemokine (C-C motif),receptor 3 | 1242.5 | ENSMUSG00000035448:Ccr3 | 3568.0 | | ENSMUSG00000035448 | MusMusculus | 12771 | Ccr3 | CC-CKR3|CKR3|Cmkbr1l2|Cmkbr3 | chemokine (C-C motif),receptor 3 | 3273 | ENSG00000183625:CCR3 | 3273.0 |
数据集
数据集可以存储基因表达数据以便查询。这个 存储的数据包括表达值(微阵列和rna序列)和 样本数据打包成HDF5格式。
$ ds = dataset.Dataset("genedataset/data/testdataset.h5") $ ds <Dataset name:testdata species:MusMusculus, platform_type:microarray> $ ds.expressionMatrix() | probeId | s01 | s02 | s03 | s04 | |---------|------|------|------|------| | probe1 | 3.45 | 4.65 | 2.65 | 8.23 | | probe2 | 5.54 | 0.00 | 1.43 | 6.43 | | probe3 | 0.00 | 0.00 | 4.34 | 5.44 | $ ds.sampleTable() | sampleId | celltype | tissue | |----------|----------|--------| | s01 | B1 | BM | | s02 | B1 | BM | | s03 | B2 | BM | | s04 | B2 | BM |
更改
- v0.1.x-初始版本,对测试pypi和github上传/下载进行了一些小的调整。
- v0.6.2-在数据中添加了一个新列“exonlength”。