crunch.io多维数据集库
cr.cube的Python项目详细描述
压缩立方体
使用crunchcubes的api的开源python实现
简介
这个包包含crunchcube api的实现。它习惯于 从crunchcube响应中提取有用的信息(我们称之为 cubes在后面的文本中)。cubes是从crunch.io获取的。 平台,作为json对用户创建的特定查询的响应。 这些查询指定用户要从crunch.io中提取哪些数据。 系统。最常见的用法是获取以下信息:
- 不同变量之间的互相关
- 交叉表cube的边距
- 交叉表cube的比例(例如,每个元素占整个样本大小的比例)
- 百分比
从crunch.io平台获取数据时,需要 解释为便于用户使用的形式。的实际形状 cubejson包含许多内部细节,这些细节对 最终用户(但仍然是正确的cube功能所必需的)。
这个库的工作是提供一个方便的api来处理
复杂,使用户能够快速轻松地获取(提取)
来自cube的相关数据。这样的数据最好用类似于
格式。因此,大多数api函数都返回某种形式的
ndarray
类型,来自numpy
包。每一个功能都有更详细的说明
详细信息,请参阅本文件API小节下的章节。
安装
可以使用pip install
:
cr.cube
包
pip install cr.cube
对于开发者
对于开发模式,cr.cube
需要从本地签出安装
在crunch-cube
存储库中。强烈建议使用virtualenv
。
假设您已经创建并激活了一个虚拟环境venv
,请导航
在本地文件系统上,转到repo的顶级文件夹,然后运行:
pip install -e .
或
python setup.py develop
运行测试
要设置和运行测试,您需要安装cr.cube
和测试
依赖关系。为此,只需从根目录运行:
pip install -e .[testing]
然后可以使用根目录中的py.test
运行测试:
pytest
用法
成功安装cr.cube
包后,用法如下
简单如下:
from cr.cube.crunch_cube import CrunchCube
### Obtain the crunch cube JSON from the Crunch.io
### And store it in the 'cube_JSON_response' variable
cube = CrunchCube(cube_JSON_response)
cube.as_array()
### Outputs:
#
# np.array([
# [5, 2],
# [5, 3]
# ])
API
as_array
表格或矩阵表示cube。详细描述可以 被发现 here。
margin
计算cube的边距。可以找到详细的描述 here。
proportions
计算单个变量元素与整个样本大小的比例。 可以找到详细的描述 here。
percentages
计算单个变量元素占整个样本大小的百分比。 可以找到详细的描述 here。
更改
1.11.5
- 修正有缺陷矩阵的pval计算问题(秩<;2)
- 修复由使用
np.empty
引起的偶尔溢出问题(改用np.zeros
)
1.11.3
- 为(0d,1d,1d,…)添加
cr.cube.cube.CubeSet
和自动维度膨胀 立方体集合。
有关更改的完整列表,请参见history。