美丽的汤: 如何从不一致的HTML标签中提取数据

2条回答

网友

1楼 · 编辑于 2024-04-25 00:24:02

尝试使用.text属性而不是.string

from bs4 import BeautifulSoup

html1 = '<td><div><font> Something else</font></div></td>'
html2 = '<td><div><font> Something <br/>else</font></div></td>'

if __name__ == '__main__':
    soup1 = BeautifulSoup(html1, 'html.parser')
    div1 = soup1.select_one('div')
    print(div1.text.strip())

    soup2 = BeautifulSoup(html2, 'html.parser')
    div2 = soup2.select_one('div')
    print(div2.text.strip())

输出：

Something else
Something else

网友

2楼 · 编辑于 2024-04-25 00:24:02

你可以用正则表达式来处理这些事情！你知道吗

import re
result = re.search('font>(.*?)</font',  str(scrapped_html))
print(result[1])

这对你的案子有帮助。为了避免捕获标记，您需要操纵字符串。你知道吗

通过print("<br/>" in result[1])检查，如果字符串包含
标记，那么它将返回True，在这种情况下，您需要删除标记。你知道吗

result = str(result[1]).split("<br/>")这会给你一个列表[' Something ', 'else']，加入他们得到你的答案。。result = (" ").join(result)

以下是完整的片段：

import re

result = re.search('font>(.*?)</font',  str(scrapped_html))

if "<br/>" in result[1]:
    result = str(result[1]).split("<br/>")
    result = (" ").join(result)
    print(result)
else:
    print(result[1])

我知道这是一个相当糟糕的解决方案，但它会为你工作！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

美丽的汤: 如何从不一致的HTML标签中提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >