我有一个庞大的论坛数据数据库。我需要从数据库中提取语料库用于NLP目的。提取步骤有参数(例如FTS查询),我想将带有参数元数据的语料库保存在文件系统上。在
有些语料库会有几十兆字节大。用元数据保存文件的最佳方法是什么,这样我就可以在不加载整个文件的情况下读取元数据。在
我使用了以下可能相关的技术:PyQt、Postgres、Python、NLTK。在
注意事项:
我想我可以将元数据pickle为string并让文件的第一行表示元数据。这似乎是我认为最简单的方法。也就是说,如果pickle格式是ASCII安全的。在
为什么不在你的语料库文件中添加一个JSON头呢? 或者任何其他的结构化格式。。。我现在能想到Jekyll帖子中的YAML front matter。在
在NLTK术语中,“语料库”是整个集合,可以由多个文件组成。听起来你可以将每个论坛会话(你称之为“语料库”)存储到一个单独的文件中,使用一种结构化格式,允许你在文件的开头存储元数据。在
NLTK通常使用XML来实现这一目的,但是不难滚动您自己的语料库阅读器,它读取一个文件头,然后遵从
PlainTextCorpusReader
,或者任何最适合您的文件格式的标准阅读器。如果使用XML,还必须扩展XMLCorpusReader
,并提供方法sents()
,words()
,等等相关问题 更多 >
编程相关推荐