从大型语料库中提取词频表

2024-04-28 07:36:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个很大的英语语料库,名为SubIMDB,我想列出所有单词及其频率。意思是他们在整个语料库中出现了多少。该频率表应具有以下特点:

  1. 像boy和boys这样的单词或其他语法特征,如get和get,同一个单词或引理,如果有3个boy和2个boys,则应将它们列为boy 5。但是,不适用于像围棋和围棋这种不规则形状(或脚和脚)的情况
  2. 我想用这个频率列表作为一种字典,所以每当我在程序的另一部分看到一个单词时,我就想在这个列表中检查它的频率。所以,如果它是可搜索的,而不必全部查找,那就更好了。在

我的问题是:

  1. 第一个问题,我该怎么办?柠檬化?还是堵住?或者我怎么才能得到呢?在
  2. 其次,我应该把它设置成什么样的变量类型?像字典或列表之类的?在
  3. 最好用csv保存吗?在
  4. 有没有为python准备好的工具箱来完成这一切?在

非常感谢你。在


Tags: 程序列表get字典语法情况特征单词
1条回答
网友
1楼 · 发布于 2024-04-28 07:36:51

如上所述,问题是基于意见的模糊问题,但以下是一些方向:

  1. 这两种方法都适用于你的案子。去词干通常更简单、更快。我建议从nltk's ^{}开始。如果你需要复杂的柠檬化,看看^{},在我看来这是行业标准。在
  2. 你需要字典,一旦你有了词干/引理,它会给你分期付款的O(1)查找。而且^{}也可能有用。在
  3. 取决于你的用例。CSV更“便携”^{}可能更容易使用。在
  4. 在nltk和spaCy中有很多“构建块”,构建管道/模型取决于您

相关问题 更多 >