擅长:python、mysql、java
<p>你试过用读卡器吗?<code>nltk</code>语料库读取器被设计成以增量方式传递文本,从后台的磁盘读取大的块,而不是整个文件。所以只要在你的整个语料库上打开一个<code>PlaintextCorpusReader</code>,它就应该一句一句地传达你的整个语料库,而不是任何恶作剧。例如:</p>
<pre><code>reader = nltk.corpus.reader.PlaintextCorpusReader("path/to/corpus", r".*\.txt")
for sent in reader.sents():
if "shenanigans" in sent:
print(" ".join(sent))
</code></pre>