我试图将很多很多RTF文件转换成a)剥离它们的元数据,b)将它们读入NLTK语料库进行分析(频率分布、词性标记和LDA主题建模)。我有两套工作代码,但想合并,有困难这样做。在
此条带RTF:
from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter
doc = Rtf15Reader.read(open('sample.rtf'))
print PlaintextWriter.write(doc).getvalue()
这将创建一个语料库:
^{pr2}$我有太多的文件,无法实际地手工剥离它们,所以我想合并这两个命令,但不知道如何去做。(当然,我是一个Python新手)欢迎任何提示。在
目前没有回答
相关问题 更多 >
编程相关推荐