用python序列化语料库

2条回答

网友

1楼 · 编辑于 2024-05-23 21:31:53

为什么不在你的语料库文件中添加一个JSON头呢？或者任何其他的结构化格式。。。我现在能想到Jekyll帖子中的YAML front matter。在

网友

2楼 · 编辑于 2024-05-23 21:31:53

在NLTK术语中，“语料库”是整个集合，可以由多个文件组成。听起来你可以将每个论坛会话（你称之为“语料库”）存储到一个单独的文件中，使用一种结构化格式，允许你在文件的开头存储元数据。在

NLTK通常使用XML来实现这一目的，但是不难滚动您自己的语料库阅读器，它读取一个文件头，然后遵从PlainTextCorpusReader，或者任何最适合您的文件格式的标准阅读器。如果使用XML，还必须扩展XMLCorpusReader，并提供方法sents()，words()，等等

编程相关推荐

graph Java自己生成类图
java MouseMotionListener：鼠标和触控板给出不同的结果
java解析清单条目的正确方法是什么。jar中的mf文件？
java如何创建带有半透明色块的透明gif/png图像？
java应用内计费V3：跨设备同步购买
java Spring数据JPA注入失败BeanCreationException:无法自动连接字段
Java数据结构维护插入顺序和重复值
java无法在VSCode中设置JavaFX
java中数据字段初始化的类顺序
java如何使用ClientBuilder为Rest Post Api多部分编写集成测试

相关问题更多 >

编程相关推荐

热门问题

热门文章

用python序列化语料库

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >