如何在Python中使用unicode

3条回答

网友

1楼 · 编辑于 2024-05-26 16:26:38

也许你应该这样做

s=unicodestring.replace(u'\xa0',u'')

网友

2楼 · 编辑于 2024-05-26 16:26:38

s=unicodestring.replace('\xa0','')

…正在尝试创建unicode字符\xa0，该字符在ASCII字符串中无效（Python中的默认字符串类型，直到版本3.x）

之所以r'\xa0'没有错误，是因为在原始字符串中，转义序列没有效果。它并没有试图将\xa0编码为unicode字符，而是将字符串视为“文字反斜杠”、“文字x”等。。

以下内容相同：

>>> r'\xa0'
'\\xa0'
>>> '\\xa0'
'\\xa0'

这是Python v3中解决的问题，因为默认的字符串类型是unicode，所以您只需执行。。

>>> '\xa0'
'\xa0'

I am trying to clean all of the HTML out of a string so the final output is a text file

对此我强烈建议BeautifulSoup。编写一个HTML清理工具是困难的（考虑到大多数HTML是多么糟糕），BeautifulSoup在解析HTML和处理Unicode方面都做得很好。。

>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<html><body><h1>Hi</h1></body></html>")
>>> print soup.prettify()
<html>
 <body>
  <h1>
   Hi
  </h1>
 </body>
</html>

网友

3楼 · 编辑于 2024-05-26 16:26:38

查看codecs标准库，特别是Codec基类中提供的encode和decode方法。

还有一篇很好的文章here把这一切放在一起。

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python中使用unicode

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >