从大量文本语料库中获取Ngram频率。文件夹

1条回答

网友

1楼 · 发布于 2024-05-26 17:42:59

新语料库的使用方法与内置nltk语料库相同，如Brown或Reuters语料库：根据需要调用方法words()或{}。这两个方法都接受一个filename参数；如果使用，您将只获得该文件的单词。我建议使用它一次处理一个文件，否则一些ngram将在一个文件中开始，在另一个文件中结束。（你想要跨越句子界限的ngrams吗？您必须做出决定并相应地进行）。在

NLTK book有函数nltk.bigrams，nltk.trigrams，和{}（它接受第二个参数n，指定ngram大小）。在

for fname in files.fileids():
    lots_of_bigrams = nltk.bigrams(files.words(fname))
    # count them however you want

NLTK书籍的Chapter 2展示了如何使用words()和{}，甚至还有一节关于ngram。好好看看。在

编程相关推荐

算法根据Java中传递的参数定义数据类型
java将图像文件存储在Google云存储桶中后，显示大小为“0字节”的所有文件列表
swing Java表模型删除Bounds 1的行排列
java中表上的for循环基本迭代
带有Http请求和UTF8的java下载文件
java滞后于setImageDrawable
java如何使用println按单位打印同一列中的数字列表？
中文Windows版本的Java默认编码
java编程项目，ADT列表
无法识别java消息部分MyClass。（它是否存在于服务WSDL中？）

相关问题更多 >

编程相关推荐

热门问题

热门文章

从大量文本语料库中获取Ngram频率。文件夹

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >