使用Beautiful Soup模块将标签替换为纯文本

Question

我正在使用Beautiful Soup从网页中提取“内容”。我知道之前有些人问过这个问题，他们都被推荐使用Beautiful Soup，这也是我开始使用它的原因。

我成功提取了大部分内容，但在处理一些属于内容的标签时遇到了一些挑战。（我开始时的基本策略是：如果一个节点的字符数超过x，那么它就是内容。）我们来看下面的HTML代码作为例子：

<div id="abc">
    some long text goes <a href="/"> here </a> and hopefully it 
    will get picked up by the parser as content
</div>

results = soup.findAll(text=lambda(x): len(x) > 20)

当我使用上面的代码来获取长文本时，它在标签处断开（识别的文本从'and hopefully..'开始）。所以我尝试用纯文本替换这个标签，如下所示：

anchors = soup.findAll('a')

for a in anchors:
  a.replaceWith('plain text')

上面的做法不奏效，因为Beautiful Soup将字符串插入为NavigableString，这在我使用findAll时会造成同样的问题，条件是len(x) > 20。我可以先用正则表达式解析HTML为纯文本，清除所有不需要的标签，然后再调用Beautiful Soup。但我想避免对同一内容进行两次处理——我试图解析这些页面，以便为给定链接显示一小段内容（很像Facebook分享）——如果一切都用Beautiful Soup完成，我想这会更快。

所以我的问题是：有没有办法用Beautiful Soup“清除标签”并用“纯文本”替换它们？如果没有，最好的做法是什么呢？

谢谢你的建议！

更新：Alex的代码在示例中效果很好。我也尝试了各种边缘情况，它们都运行良好（根据下面的修改）。所以我在一个真实的网站上试了一下，遇到了一些让我困惑的问题。

import urllib
from BeautifulSoup import BeautifulSoup

page = urllib.urlopen('http://www.engadget.com/2010/01/12/kingston-ssdnow-v-dips-to-30gb-size-lower-price/')

anchors = soup.findAll('a')
i = 0
for a in anchors:
    print str(i) + ":" + str(a)
    for a in anchors:
        if (a.string is None): a.string = ''
        if (a.previousSibling is None and a.nextSibling is None):
            a.previousSibling = a.string
        elif (a.previousSibling is None and a.nextSibling is not None):
            a.nextSibling.replaceWith(a.string + a.nextSibling)
        elif (a.previousSibling is not None and a.nextSibling is None):
            a.previousSibling.replaceWith(a.previousSibling + a.string)
        else:
            a.previousSibling.replaceWith(a.previousSibling + a.string + a.nextSibling)
            a.nextSibling.extract()
    i = i+1

当我运行上面的代码时，出现了以下错误：

0:<a href="http://www.switched.com/category/ces-2010">Stay up to date with 
Switched's CES 2010 coverage</a>
Traceback (most recent call last):
  File "parselink.py", line 44, in <module>
  a.previousSibling.replaceWith(a.previousSibling + a.string + a.nextSibling)
 TypeError: unsupported operand type(s) for +: 'Tag' and 'NavigableString'

当我查看HTML代码时，'Stay up to date..'没有任何前一个兄弟节点（在看到Alex的代码之前，我不知道前一个兄弟节点是如何工作的，根据我的测试，它似乎是在寻找标签之前的'text'）。所以，如果没有前一个兄弟节点，我很惊讶它没有通过if逻辑，即a.previousSibling是None且a.nextSibling是None。

你能告诉我我哪里做错了吗？

-ecognium

正则表达式文本替换网页抓取数据清洗 beautiful soup 标签处理 html 解析内容提取

使用Beautiful Soup模块将标签替换为纯文本

2 个回答

撰写回答