擅长:python、mysql、java
<pre><code>s=unicodestring.replace('\xa0','')
</code></pre>
<p>…正在尝试创建unicode字符<code>\xa0</code>,该字符在ASCII字符串中无效(Python中的默认字符串类型,直到版本3.x)</p>
<p>之所以<code>r'\xa0'</code>没有错误,是因为在原始字符串中,转义序列没有效果。它并没有试图将<code>\xa0</code>编码为unicode字符,而是将字符串视为“文字反斜杠”、“文字x”等。。</p>
<p>以下内容相同:</p>
<pre><code>>>> r'\xa0'
'\\xa0'
>>> '\\xa0'
'\\xa0'
</code></pre>
<p>这是Python v3中解决的问题,因为默认的字符串类型是unicode,所以您只需执行。。</p>
<pre><code>>>> '\xa0'
'\xa0'
</code></pre>
<blockquote>
<p>I am trying to clean all of the HTML out of a string so the final output is a text file</p>
</blockquote>
<p>对此我强烈建议<a href="http://www.crummy.com/software/BeautifulSoup/" rel="noreferrer">BeautifulSoup</a>。编写一个HTML清理工具是困难的(考虑到大多数HTML是多么糟糕),BeautifulSoup在解析HTML和处理Unicode方面都做得很好。。</p>
<pre><code>>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<html><body><h1>Hi</h1></body></html>")
>>> print soup.prettify()
<html>
<body>
<h1>
Hi
</h1>
</body>
</html>
</code></pre>