NLTK-如何找出在python中安装了哪些语料库？

2条回答

网友

1楼 · 编辑于 2024-06-06 15:52:44

试试看

import nltk.corpus
dir(nltk.corpus)

在这一点上，它可能告诉了你一些关于__LazyModule__...的事情，所以请再次dir(nltk.corpus)。

如果不起作用，请尝试在iPython中完成制表符。

网友

2楼 · 编辑于 2024-06-06 15:52:44

NLTK包含一个包nltk.corpus，其中包含语料库读取器的定义（例如PlainTextCorpusReader）。这个包还包括一个大型的corpo预定义访问点列表，可以使用nltk.downloader()下载。无论是否下载了相应的语料库，这些访问点（例如nltk.corpus.brown）都被定义。

要查看在NLTK中定义了哪些访问点，请使用dir(nltk.corpus)（在import nltk之后）。
要查看您的nltk_data区域中有哪些语料库，请尝试以下操作：
```
import os
import nltk
print( os.listdir( nltk.data.find("corpora") ) )
```
这只会转储包含文件夹nltk_data/corpora内容的列表。你可以从那里拿走。
如果您已经在nltk_data/corpora区域安装了自己的语料库，而NLTK对此一无所知，则需要自己启动相应的阅读器。E、例如，如果它是corpora/mycorpus中的纯文本语料库，并且所有文件都以.txt结尾，那么您应该这样做：
```
import nltk
from nltk.corpus import PlaintextCorpusReader

mypath = nltk.data.find("corpora/mycorpus")
mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
```
但是在这种情况下，你可以把你自己的语料库放在任何地方，直接指向它，而不是要求NLTK找到它。

相关问题更多 >

编程相关推荐

热门问题

热门文章

NLTK-如何找出在python中安装了哪些语料库？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >