计算多个相关性的统计方法
man的Python项目详细描述
很多
这个包为经常实现的统计和可视化方法提供了一个通用的工具箱。请参阅blog post,以了解此包的用途和使用的方法的说明。在
安装
pip install many
注意:如果要使用CUDA加速统计方法(即many.stats.mat_mwu_gpu
),还必须独立安装cupy的相应版本。在
组件
统计方法
统计方法包括几个用于变量对之间关联挖掘的函数。这些方法针对pandas
数据帧进行了优化,并受到numpy
提供的corrcoef
函数的启发。在
因为这些函数依赖于numpy
提供的本机矩阵级操作,因此许多函数比基于简单循环的替代方法要快一个数量级。这使得它们有助于构建大型关联网络或特征提取,在生物标志物发现等领域有重要用途。所有方法也返回统计显著性的估计值。在
在某些情况下,例如相关系数的计算,这些矢量化方法都带有numerical instability的警告。作为一种折衷方案,还提供了基于“天真”循环的实现来进行测试和比较。建议用这些基本方法验证矢量化方法得到的任何重要结果。在
下面按变量比较类型列出了当前可用的函数。基准测试还提供了与基于等效循环的方法的比较。在所有方法中,都提供了一个melt
选项,以将输出作为一组行-列变量变量对统计矩阵或作为单个DataFrame
返回,每个统计信息都融合到一列中。在
视觉方法
还包括几种视觉方法来解释统计方法的结果。与统计方法一样,这些方法也按绘制的变量类型分组。在
发展
- 使用
poetry install
安装依赖项 - 使用
poetry shell
初始化环境 - 使用
pre-commit install
初始化预提交钩子
- 项目
标签: