如何批量转换RTF文件以进行NLTK处理？

2024-05-23 18:02:22 发布

您现在位置：Python中文网/ 问答频道 /正文

3595

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图将很多很多RTF文件转换成a）剥离它们的元数据，b）将它们读入NLTK语料库进行分析（频率分布、词性标记和LDA主题建模）。我有两套工作代码，但想合并，有困难这样做。在

此条带RTF：

from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter

doc = Rtf15Reader.read(open('sample.rtf'))

print PlaintextWriter.write(doc).getvalue()

这将创建一个语料库：

^{pr2}$

我有太多的文件，无法实际地手工剥离它们，所以我想合并这两个命令，但不知道如何去做。（当然，我是一个Python新手）欢迎任何提示。在

Tags：文件数据 from 标记 import doc plugins 频率

0条回答

目前没有回答

如何批量转换RTF文件以进行NLTK处理？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何批量转换RTF文件以进行NLTK处理？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >