Python、Unicode与lxml解析及如何处理35\xa0新的内容
我正在从一个网页上提取一个字段,网页的HTML标签文本内容看起来是这样的……
35 new
在Python中,提取的数据看起来是这样的……
35\xa0new
我该如何处理Python中的Unicode,以便转换成普通字符串呢?
"35 new"
我应该使用哪个库呢?
谢谢!
2 个回答
3
尽量避免使用普通字符串;unicode
字符串通常在处理文本时更有用,而且有很多大家都知道的解决方案可以帮助你操作和处理这些字符串。
0
你从解析器那里得到了unicode字符串。如果你想用其他字符替换某些字符,也是可以的。例如,你的\xa0
表示的是一个不换行的空格,你可以把它换成普通的空格:
text = text.replace(u"\xa0", u" ")
可能有很多这样的字符需要你去更改,所以找到所有出现在你数据中的字符可能会是一个比较长的过程。