我有一个很大的英语语料库,名为SubIMDB,我想列出所有单词及其频率。意思是他们在整个语料库中出现了多少。该频率表应具有以下特点:
- 像boy和boys这样的单词或其他语法特征,如get和get,同一个单词或引理,如果有3个boy和2个boys,则应将它们列为boy 5。但是,不适用于像围棋和围棋这种不规则形状(或脚和脚)的情况
- 我想用这个频率列表作为一种字典,所以每当我在程序的另一部分看到一个单词时,我就想在这个列表中检查它的频率。所以,如果它是可搜索的,而不必全部查找,那就更好了。在
我的问题是:
- 第一个问题,我该怎么办?柠檬化?还是堵住?或者我怎么才能得到呢?在
- 其次,我应该把它设置成什么样的变量类型?像字典或列表之类的?在
- 最好用csv保存吗?在
- 有没有为python准备好的工具箱来完成这一切?在
非常感谢你。在
Tags:
如上所述,问题是基于意见的模糊问题,但以下是一些方向:
相关问题 更多 >
编程相关推荐