各位,我为NLTK准备了一组语料库,基本上是简单的XML文件。我可以这样装:
>>> from nltk.corpus import cicero
>>> print cicero.fileids()
['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...]
现在,我明白了XMLCorpusReader不会一次给出所有这些XML文件的内容,因为它希望一次只处理一个XML,对吗?我试图绕过它写一个for循环,把它放在一个列表中,然后把它交给XMLCorpusReader,但是没有运气。。。在
简单地说:如何使用NLTK加载多个XML语料库并同时在所有这些语料库中运行.words()?工作代码示例会很好。
似乎我不能一次加载所有的XML,然后使用它们,比如说,与类Text()一起使用,再次打印一个单词在所有XML文件中的一致性,而不是一次只打印一个。在
有没有解决办法或真正的NLTK解决方案?我应该编写一个神奇的XMLCorpusReader继承类来完成它吗?我应该放弃XML而使用平面文件吗。。。?在
这与我的问题类似,但到目前为止,我认为答案并不是真正有用的
不完全是我想要的,但它现在解决了问题。我会多玩玩它,所以也许以后会有不同的结果。总之,一个小的工作测试:-)
^{1}$相关问题 更多 >
编程相关推荐