我应该使用什么样的数据结构来处理大量的文本数据?

2024-04-19 18:19:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用scikit learn的TFIDFvectorier和最近邻算法进行一些文本分类。你知道吗

我需要找到两个数据集(每个数据集包含18000个条目)之间的相似性度量。我不确定什么样的数据结构最适合用来计算我认为应该是18000*18000的相似性度量。你知道吗

到目前为止,我只考虑了数据帧。你知道吗


Tags: 数据文本算法数据结构度量分类条目scikit
1条回答
网友
1楼 · 发布于 2024-04-19 18:19:48

如果进一步分析不需要任何中间数据,可以使用生成器保存数据点,然后通过生成器调用运行算法。否则你可能会想要一份清单。你知道吗

相关问题 更多 >