如何使用NLTK加载多个语料库的XML文件,并将其作为一个整体与Text类一起使用?

2024-05-13 12:50:59 发布

您现在位置:Python中文网/ 问答频道 /正文

各位,我为NLTK准备了一组语料库,基本上是简单的XML文件。我可以这样装:

>>> from nltk.corpus import cicero
>>> print cicero.fileids()
['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...]

现在,我明白了XMLCorpusReader不会一次给出所有这些XML文件的内容,因为它希望一次只处理一个XML,对吗?我试图绕过它写一个for循环,把它放在一个列表中,然后把它交给XMLCorpusReader,但是没有运气。。。在

简单地说:如何使用NLTK加载多个XML语料库并同时在所有这些语料库中运行.words()?工作代码示例会很好。

似乎我不能一次加载所有的XML,然后使用它们,比如说,与类Text()一起使用,再次打印一个单词在所有XML文件中的一致性,而不是一次只打印一个。在

有没有解决办法或真正的NLTK解决方案?我应该编写一个神奇的XMLCorpusReader继承类来完成它吗?我应该放弃XML而使用平面文件吗。。。?在

这与我的问题类似,但到目前为止,我认为答案并不是真正有用的


Tags: 文件fromimportcorpusxmlprint语料库nltk
1条回答
网友
1楼 · 发布于 2024-05-13 12:50:59

不完全是我想要的,但它现在解决了问题。我会多玩玩它,所以也许以后会有不同的结果。总之,一个小的工作测试:-)

^{1}$

相关问题 更多 >