用python序列化语料库

2024-05-23 21:31:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个庞大的论坛数据数据库。我需要从数据库中提取语料库用于NLP目的。提取步骤有参数(例如FTS查询),我想将带有参数元数据的语料库保存在文件系统上。在

有些语料库会有几十兆字节大。用元数据保存文件的最佳方法是什么,这样我就可以在不加载整个文件的情况下读取元数据。在

我使用了以下可能相关的技术:PyQt、Postgres、Python、NLTK。在

注意事项:

  1. 我想把语料库从重量级数据库中分离出来。在
  2. 我不希望使用sqlite,因为元数据的结构非常简单。在
  3. 据我所知,酸洗不允许部分非工业化。在
  4. 我不希望有单独的元数据文件。在
  5. 我有使用协议缓冲区的经验,但它似乎又过于繁重。在

我想我可以将元数据pickle为string并让文件的第一行表示元数据。这似乎是我认为最简单的方法。也就是说,如果pickle格式是ASCII安全的。在


Tags: 文件数据方法目的数据库参数字节nlp
2条回答

为什么不在你的语料库文件中添加一个JSON头呢? 或者任何其他的结构化格式。。。我现在能想到Jekyll帖子中的YAML front matter。在

在NLTK术语中,“语料库”是整个集合,可以由多个文件组成。听起来你可以将每个论坛会话(你称之为“语料库”)存储到一个单独的文件中,使用一种结构化格式,允许你在文件的开头存储元数据。在

NLTK通常使用XML来实现这一目的,但是不难滚动您自己的语料库阅读器,它读取一个文件头,然后遵从PlainTextCorpusReader,或者任何最适合您的文件格式的标准阅读器。如果使用XML,还必须扩展XMLCorpusReader,并提供方法sents()words(),等等

相关问题 更多 >