如何构建IMS开源语料库工作台和NLTK可读语料库?
我现在有一堆.txt文件。在每个.txt文件中,每个句子都是用换行符分开的。我想把它们转换成IMS CWB格式,这样CWB才能读取。同时也想转换成nltk格式。
有没有人能给我指个路,告诉我怎么做?或者有没有相关的指南页面?我试着看过手册,但还是不太明白。网址是www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf
这是不是意味着我需要创建一个数据目录和一个注册目录,然后运行cwb-encode命令,这样就能把所有文件转换成vrt文件?这个过程是一次转换一个文件吗?我该怎么写脚本,让它能处理一个目录里的多个文件呢?
1 个回答
2
从一个NLTK可以读取的语料库生成cwb的“垂直化”格式其实很简单:
from nltk.corpus import brown
out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
print >>out,'<s>'
for word in sentence:
print >>out,word
print >>out,'</s>'
out.close()
接下来,你可以按照CWB网站上的说明进行操作。