从字符串中删除每个非utf-8符号

网友

1楼 · 编辑于 2024-05-15 07:34:57

在代码行下面尝试，而不是最后两行。希望有帮助：

line=line.decode('utf-8','ignore').encode("utf-8")

网友

2楼 · 编辑于 2024-05-15 07:34:57

不处理utf-8字符的示例

import string

test=u"\n\n\n\n\n\n\n\n\n\n\n\n\n\nHi <<First Name>>\nthis is filler text \xa325 more filler.\nadditilnal filler.\n\nyet more\xa0still more\xa0filler.\n\n\xa0\n\n\n\n\nmore\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nfiller.\x03\n\t\t\t\t\t\t    almost there \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nthe end\n\n\n\n\n\n\n\n\n\n\n\n\n"

print ''.join(x for x in test if x in string.printable)

网友

3楼 · 编辑于 2024-05-15 07:34:57

对于python 3，如本线程中的注释所述，您可以执行以下操作：

line = bytes(line, 'utf-8').decode('utf-8', 'ignore')

“ignore”参数防止在无法解码任何字符时引发错误。

如果您的行已经是bytes对象（例如b'my string'），那么您只需要使用decode('utf-8', 'ignore')对其进行解码。

相关问题更多 >

编程相关推荐

热门问题

热门文章

从字符串中删除每个非utf-8符号

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >