我应该使用什么样的数据结构来处理大量的文本数据？ - 问答 - Python中文网

我应该使用什么样的数据结构来处理大量的文本数据？

2024-04-19 18:19:48 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用scikit learn的TFIDFvectorier和最近邻算法进行一些文本分类。你知道吗

我需要找到两个数据集（每个数据集包含18000个条目）之间的相似性度量。我不确定什么样的数据结构最适合用来计算我认为应该是18000*18000的相似性度量。你知道吗

到目前为止，我只考虑了数据帧。你知道吗

Tags：数据文本算法数据结构度量分类条目 scikit

1条回答

网友

1楼 · 发布于 2024-04-19 18:19:48

如果进一步分析不需要任何中间数据，可以使用生成器保存数据点，然后通过生成器调用运行算法。否则你可能会想要一份清单。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章