如何批量转换RTF文件以进行NLTK处理?

2024-05-23 18:02:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图将很多很多RTF文件转换成a)剥离它们的元数据,b)将它们读入NLTK语料库进行分析(频率分布、词性标记和LDA主题建模)。我有两套工作代码,但想合并,有困难这样做。在

此条带RTF:

from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter

doc = Rtf15Reader.read(open('sample.rtf'))

print PlaintextWriter.write(doc).getvalue()

这将创建一个语料库:

^{pr2}$

我有太多的文件,无法实际地手工剥离它们,所以我想合并这两个命令,但不知道如何去做。(当然,我是一个Python新手)欢迎任何提示。在


Tags: 文件数据from标记importdocplugins频率