从大型语料库中提取词频表 - 问答 - Python中文网

从大型语料库中提取词频表

2024-04-28 07:36:51 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个很大的英语语料库，名为SubIMDB，我想列出所有单词及其频率。意思是他们在整个语料库中出现了多少。该频率表应具有以下特点：

像boy和boys这样的单词或其他语法特征，如get和get，同一个单词或引理，如果有3个boy和2个boys，则应将它们列为boy 5。但是，不适用于像围棋和围棋这种不规则形状（或脚和脚）的情况
我想用这个频率列表作为一种字典，所以每当我在程序的另一部分看到一个单词时，我就想在这个列表中检查它的频率。所以，如果它是可搜索的，而不必全部查找，那就更好了。在

我的问题是：

第一个问题，我该怎么办？柠檬化？还是堵住？或者我怎么才能得到呢？在
其次，我应该把它设置成什么样的变量类型？像字典或列表之类的？在
最好用csv保存吗？在
有没有为python准备好的工具箱来完成这一切？在

非常感谢你。在

Tags：程序列表 get 字典语法情况特征单词

1条回答

网友

1楼 · 发布于 2024-04-28 07:36:51

如上所述，问题是基于意见的模糊问题，但以下是一些方向：

这两种方法都适用于你的案子。去词干通常更简单、更快。我建议从nltk's ^{}开始。如果你需要复杂的柠檬化，看看^{}，在我看来这是行业标准。在
你需要字典，一旦你有了词干/引理，它会给你分期付款的O（1）查找。而且^{}也可能有用。在
取决于你的用例。CSV更“便携”^{}可能更容易使用。在
在nltk和spaCy中有很多“构建块”，构建管道/模型取决于您

相关问题更多 >

编程相关推荐

热门问题

热门文章