大型稀疏矩阵及其元的理想结构(或可能性)

2024-04-16 14:22:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用一个大约260k行、3M列和26M非零值(以矩阵市场格式存储)的稀疏矩阵。我还有描述每一行和每一列元数据的JSON文件。我需要对这个矩阵执行矩阵运算,即矩阵积,尽管其他运算肯定是必需的。我一直在使用我的矩阵和字典(来自JSONs),每个字典都将行/列索引链接到它的元数据值。虽然效果不错,但并不理想。你知道吗

我想知道,有没有更好的选择?我知道Pandas/Dato数据帧,但在我看来,矩阵部分(及其操作)以某种方式降级了。我一直在关注blaze项目(Dask,xray,主要是这些核心技术之外的技术)。我想知道处理这种情况的标准方法(或最合适的方法)是什么。你知道吗

任何洞察都是非常感激的。谢谢。你知道吗


Tags: 文件数据方法jsonpandas字典市场链接
1条回答
网友
1楼 · 发布于 2024-04-16 14:22:14

最新版本的pandas具有“sparse”数据结构,包括DataFrameSeriesPanel,这些数据结构可以压缩到任何公共值上,包括NaN,而不仅仅是0。Pandas在幕后由^{}optionally^{}支持,后者有^{}模块用于直接处理数学上稀疏的(主要是0填充的)矩阵。”稀疏“Pandas”对象也有一个experimental API来转换成scipy.sparse对象。你知道吗

相关问题 更多 >