印度语NLTK读写器

from nltk.corpus import PlaintextCorpusReader corpus_root = "./Punjabi_Corpora" corpus = PlaintextCorpusReader(corpus_root,"Panjabi Monolingual_TextCorpus_Sample.txt") corpus.words('Panjabi_Monolingual_TextCorpus_Sample.txt')

1条回答

网友

1楼 · 发布于 2024-05-23 17:46:41

你说得对。根据doc，PlainTextCorpusReader是为ascii输入设置的读卡器。因此，它不能正常工作也就不足为奇了。在

我不是这方面的专家，但我试着用IndianCorpusReader代替你的数据集，它似乎起作用了：

from nltk.corpus import IndianCorpusReader
corpus = IndianCorpusReader("./Punjabi_Corpora", "Panjabi Monolingual_TextCorpus_Sample.txt")
print(corpus.words('Panjabi Monolingual_TextCorpus_Sample.txt'))

以及输出：

^{pr2}$

在python3上测试过。在

编程相关推荐

java Cassandra复制因子大于节点数
java J2EE JTA事务回滚不适用于OSE Glassfish 4.0（Build 89）
java spring安全预认证用户登录
org的java类文件。反应流。从RxJava编译示例时未找到Publisher？
java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头
Javafx类的java静态实例
java如何防止一个部件在关闭时覆盖另一个部件的位置
sql server无法从我的java代码连接到数据库
java在JList（Swing）中显示带有的ArrayList
从Java中的CXF服务获取WSAddressing数据

相关问题更多 >

编程相关推荐

热门问题

热门文章

印度语NLTK读写器

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >