如何在python中读取带有特殊字符的文件

2024-04-27 03:36:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我用apachetika抓取了pdf、html、doc文件,并将结构化文本存储到文本中文件。这些文本文件包含一些不寻常的特殊字符,由于这些特殊字符,我无法读取这些文本文件。我有下面的代码片段来读取这些文件

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

但是,我有以下错误

^{pr2}$

请告诉我如何阅读我的文本文件。 谢谢


Tags: 文件代码文本docpdfvarhtmlwww
1条回答
网友
1楼 · 发布于 2024-04-27 03:36:19

你需要设置参数strict之外的其他参数。您可以找到一个可能性列表(对于python3.3)here。列表在“编解码器.寄存器()“文件。在

我先从“替换”选项开始,这样你就可以看到你在处理什么。在

相关问题 更多 >