如何在BeautifulSoup中去除空白字符
我正在用BeautifulSoup解析一些HTML,整体进展还不错,但遇到一个小问题。我想把输出保存成一行字符串,目前的输出是:
<li><span class="plaincharacterwrap break">
Zazzafooky but one two three!
</span></li>
<li><span class="plaincharacterwrap break">
Zazzafooky2
</span></li>
<li><span class="plaincharacterwrap break">
Zazzafooky3
</span></li>
理想情况下,我希望得到:
<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li>
输出中有很多多余的空白,我想去掉这些空白,但用strip()
方法并不能完全解决问题。而且我不能随便去掉所有空格,因为我需要保留文本内容。我该怎么做呢?这似乎是个常见的问题,使用正则表达式可能有点过于复杂,但这难道是唯一的解决办法吗?
我没有使用任何<pre>
标签,所以我可以稍微强硬一些。
再次感谢!
4 个回答
2
re.sub(r'[\ \n]{2,}', '', yourstring)
这个正则表达式 [\ \n]{2}
用来匹配两个或更多的空格和换行符(空格需要加上反斜杠来转义)。更全面的实现方式是这样的:
re.sub('\ {2,}', '', yourstring)
re.sub('\n*', '', yourstring)
我原以为第一个只会替换多个换行符,但对我来说,它似乎也能正常工作。
19
我知道这个问题已经很久了,但beautifulsoup4有一个叫做 stripped_strings 的助手。
试试这个:
description_el = about.find('p', { "class": "description" })
descriptions = list(description_el.stripped_strings)
description = "\n\n".join(descriptions) if descriptions else ""
20
这里是你可以不使用正则表达式来实现的方法:
>>> html = """ <li><span class="plaincharacterwrap break">
... Zazzafooky but one two three!
... </span></li>
... <li><span class="plaincharacterwrap break">
... Zazzafooky2
... </span></li>
... <li><span class="plaincharacterwrap break">
... Zazzafooky3
... </span></li>
... """
>>> html = "".join(line.strip() for line in html.split("\n"))
>>> html
'<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li><li><span class="plaincharacterwrap break">Zazzafooky3</span></li>'