如何使用NLTK加载多个语料库的XML文件，并将其作为一个整体与Text类一起使用？

2024-05-13 12:50:59 发布

男 | 程序猿一只，喜欢编程写python代码。

各位，我为NLTK准备了一组语料库，基本上是简单的XML文件。我可以这样装：

>>> from nltk.corpus import cicero
>>> print cicero.fileids()
['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...]

现在，我明白了XMLCorpusReader不会一次给出所有这些XML文件的内容，因为它希望一次只处理一个XML，对吗？我试图绕过它写一个for循环，把它放在一个列表中，然后把它交给XMLCorpusReader，但是没有运气。。。在

简单地说：如何使用NLTK加载多个XML语料库并同时在所有这些语料库中运行.words（）？工作代码示例会很好。

似乎我不能一次加载所有的XML，然后使用它们，比如说，与类Text（）一起使用，再次打印一个单词在所有XML文件中的一致性，而不是一次只打印一个。在

有没有解决办法或真正的NLTK解决方案？我应该编写一个神奇的XMLCorpusReader继承类来完成它吗？我应该放弃XML而使用平面文件吗。。。？在

这与我的问题类似，但到目前为止，我认为答案并不是真正有用的

Tags：文件 from import corpus xml print 语料库 nltk

1条回答

网友

1楼 · 发布于 2024-05-13 12:50:59

不完全是我想要的，但它现在解决了问题。我会多玩玩它，所以也许以后会有不同的结果。总之，一个小的工作测试：-）

^{1}$