删除尾随空格、unicode字符和特殊字符

2024-09-21 01:29:35 发布

您现在位置:Python中文网/ 问答频道 /正文

如何在python中清除空白字符串和特殊字符

我正在抓取一些数据,但是得到的文本有点乱七八糟。我想我可以使用join{}和enconding进行清理,但是我的输出是意外的

#cleaner function

def string_cleaner(rouge_text):
             return (" ".join(rouge_text.strip()).encode('ascii', 'ignore').decode("utf-8")).replace("\\","")

print(string_cleaner("\n\t\t\t\t\t\t\t\t\t Nokia 9 PureView- 5.99\ "))
print(string_cleaner("\n\t\t\t\t\t\t\t\t\tMi Electronic Scooter\uff08Black\uff09EU\t \t\t\t\t\t\t\t\t "))

输出

screenshot

How do i clean my string and get normal text?


Tags: 数据字符串text文本stringreturndeffunction
1条回答
网友
1楼 · 发布于 2024-09-21 01:29:35

我不确定我是否理解你所说的“清理我的字符串并获取正常文本”的意思,但可能尝试使用以下方法:

def string_cleaner(rouge_text):
    # "" instead of " " in .join() method
    return ("".join(rouge_text.strip()).encode('ascii', 'ignore').decode("utf-8")).replace("\\","")

print(string_cleaner("\n\t\t\t\t\t\t\t\t\t Nokia 9 PureView- 5.99\ "))
print(string_cleaner("\n\t\t\t\t\t\t\t\t\tMi Electronic Scooter\uff08Black\uff09EU\t \t\t\t\t\t\t\t\t "))

输出:

>>> print(string_cleaner("\n\t\t\t\t\t\t\t\t\t Nokia 9 PureView- 5.99\ "))
Nokia 9 PureView- 5.99
>>> print(string_cleaner("\n\t\t\t\t\t\t\t\t\tMi Electronic Scooter\uff08Black\uff09EU\t \t\t\t\t\t\t\t\t "))
Mi Electronic ScooterBlackEU

相关问题 更多 >

    热门问题