In [2]: df
Out[2]:
text
0 is it good movie
1 wooow is it very goode
2 bad movie
解决方案:让我们用TFIDF稀疏矩阵创建一个sparsedaframe:
^{pr2}$
结果:
In [13]: sdf
Out[13]:
bad good goode wooow text
0 0.0 1.0 0.000000 0.000000 is it good movie
1 0.0 0.0 0.707107 0.707107 wooow is it very goode
2 1.0 0.0 0.000000 0.000000 bad movie
In [14]: sdf.memory_usage()
Out[14]:
Index 80
bad 8
good 8
goode 8
wooow 8
text 24
dtype: int64
考虑以下演示:
来源数据:
解决方案:让我们用TFIDF稀疏矩阵创建一个sparsedaframe:
^{pr2}$结果:
请注意
.memory_usage()
-我们没有失去“稀疏性”。如果我们使用pd.concat
、join
、merge
等,我们将失去“稀疏性”,因为所有这些方法都会生成合并数据帧的新的常规(非稀疏)副本也许你可以尝试在连接之前对稀疏矩阵使用
to_dense()
,然后用to_sparse()
转换回稀疏矩阵。希望有帮助。在相关问题 更多 >
编程相关推荐