使用注释(第一行)和(第一列)操作编码为二维矩阵的数据集
matricks的Python项目详细描述
用于导入和查询作为列组织的表达式数据集的类- 行注释矩阵。
表达式数据集包含一个或多个示例的数值结果 来源于微阵列分析。每个分析的共同点是 特定平台(微阵列)。数据集可以看作是一个表 有行和列。每一列代表一个分析,每一行 包含分析平台上特定探针的分析结果。因此, 任何给定行中的值都是从同一探针位置获得的值 在站台上。它们被称为表达式配置文件。
数据集可以看作是一个表,例如这个表:
probe_id | HSC 1 | HSC 2 | NK 1 | NK 2 |
---|---|---|---|---|
45283 | 10.14 | 9.31 | 8.9 | 8.78 |
45284 | 12.52 | 12.63 | 12.55 | 11.96 |
45285 | 6.78 | 6.91 | 7.83 | 7.86 |
45286 | 5.58 | 5.06 | 6.69 | 6.64 |
45287 | 7.85 | 8.13 | 8.47 | 8.56 |
45288 | 8.12 | 7.17 | 8.71 | 8.08 |
45289 | 6.82 | 6.15 | 5.87 | 5.32 |
45290 | 10.55 | 10.39 | 10.7 | 9.93 |
表达式数据集(很少例外)存储在文本(即平面)文件中 格式如下:
- 两行或多行数据,由ascii换行符(\x0a)分隔。 (严格来说,根本不需要任何数据,但这又有什么意义呢?)
- 每一行或每一行由两列或多列数据组成,由ascii制表符(\x09)分隔。
- 第一列包含键或探测id,假定为字母数字,或用于探测。
- 第一行由标识探测ID和样本列的标签组成。这也是假设 是字母数字。
- 第二行到最后一行包含表达式值,除了第一列之外,还有 包含探测ID,假定为浮点数。用微阵列的说法, 每一行通常称为表达式配置文件。
某些数据集可能与此格式不同。例如,可能没有(第一)行标签, 或者数据的格式可能不是浮点。为处理这些 可以说是特殊情况。但是,实例化矩阵类的默认设置 对原始源数据的内容进行上述假设。进一步假设 源数据集以ascii字符串编码,需要转换所有数字数据 到float类型对象。
矩阵选择操作通常返回矩阵对象。这些可以重复, 与列表或元组非常类似,按行访问单个表达式配置文件,其中的内容 可以使用列表/元组语义检索。