擅长:python、mysql、java
<p>在NLTK术语中,“语料库”是整个集合,可以由多个文件组成。听起来你可以将每个论坛会话(你称之为“语料库”)存储到一个单独的文件中,使用一种结构化格式,允许你在文件的开头存储元数据。在</p>
<p>NLTK通常使用XML来实现这一目的,但是不难滚动您自己的语料库阅读器,它读取一个文件头,然后遵从<code>PlainTextCorpusReader</code>,或者任何最适合您的文件格式的标准阅读器。如果使用XML,还必须扩展<code>XMLCorpusReader</code>,并提供方法<code>sents()</code>,<code>words()</code>,等等</p>