如何在BeautifulSoup中去除空白字符

14 投票

4 回答

33360 浏览

提问于 2025-04-16 07:34

我正在用BeautifulSoup解析一些HTML，整体进展还不错，但遇到一个小问题。我想把输出保存成一行字符串，目前的输出是：

    <li><span class="plaincharacterwrap break">
                    Zazzafooky but one two three!
                </span></li>
<li><span class="plaincharacterwrap break">
                    Zazzafooky2
                </span></li>
<li><span class="plaincharacterwrap break">
                    Zazzafooky3
                </span></li>

理想情况下，我希望得到：

<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li>

输出中有很多多余的空白，我想去掉这些空白，但用strip()方法并不能完全解决问题。而且我不能随便去掉所有空格，因为我需要保留文本内容。我该怎么做呢？这似乎是个常见的问题，使用正则表达式可能有点过于复杂，但这难道是唯一的解决办法吗？

我没有使用任何<pre>标签，所以我可以稍微强硬一些。

再次感谢！

正则表达式字符串处理 html解析 beautifulsoup 数据格式化文本清理空白字符

4 个回答

re.sub(r'[\ \n]{2,}', '', yourstring)

这个正则表达式 [\ \n]{2} 用来匹配两个或更多的空格和换行符（空格需要加上反斜杠来转义）。更全面的实现方式是这样的：

re.sub('\ {2,}', '', yourstring)
re.sub('\n*', '', yourstring)

我原以为第一个只会替换多个换行符，但对我来说，它似乎也能正常工作。

回答于 2025-04-16 由 Python大师

分享举报

我知道这个问题已经很久了，但beautifulsoup4有一个叫做 stripped_strings 的助手。

试试这个：

description_el = about.find('p', { "class": "description" })
descriptions = list(description_el.stripped_strings)
description = "\n\n".join(descriptions) if descriptions else ""

回答于 2025-04-16 由 Python大师

分享举报

这里是你可以不使用正则表达式来实现的方法：

>>> html = """    <li><span class="plaincharacterwrap break">
...                     Zazzafooky but one two three!
...                 </span></li>
... <li><span class="plaincharacterwrap break">
...                     Zazzafooky2
...                 </span></li>
... <li><span class="plaincharacterwrap break">
...                     Zazzafooky3
...                 </span></li>
... """
>>> html = "".join(line.strip() for line in html.split("\n"))
>>> html
'<li><span class="plaincharacterwrap break">Zazzafooky but one two three!</span></li><li><span class="plaincharacterwrap break">Zazzafooky2</span></li><li><span class="plaincharacterwrap break">Zazzafooky3</span></li>'

回答于 2025-04-16 由 Python大师

分享举报

如何在BeautifulSoup中去除空白字符

4 个回答

撰写回答