在Python中从HTML项目符号列表中提取数据

2条回答

网友

1楼 · 编辑于 2024-06-16 11:30:10

一个很好的解析html-beautifulsoup的库。代码示例：

html = "<ul><li>Preconditions<ul><li>PC1</li><li>PC2</li></ul></li><li>Use Case Triggers<ul><li>T1</li><li>T2</li></ul></li><li>Postconditions<ul><li>PO1</li><li>PO2</li></ul></li></ul>"



from bs4 import BeautifulSoup

bs = BeautifulSoup(html, "html.parser")
uls = bs.findAll("ul")
for ul in uls:
    print(ul.findAll("li"))

网友

2楼 · 编辑于 2024-06-16 11:30:10

您可以编写一个函数，该函数接受原始html并删除所有html标记

def cleanhtml(raw_html):
    cleanr = re.compile("<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});")
    cleantext = re.sub(cleanr, " ", raw_html)
    return cleantext

其他一些清洁剂选项：

cleanr = re.compile("<[A-Za-z\/][^>]*>")
cleanr = re.compile("<[^>]*>")
cleanr = re.compile("<\/?\w+\s*[^>]*?\/?>")

但是有一个更好更简单的方法来使用Beautifulsoup

from bs4 import BeautifulSoup
def clean_with_soup(url: str) -> str:
    r = requests.get(url).text
    soup = BeautifulSoup(r, "html.parser")
    return soup.get_text()

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中从HTML项目符号列表中提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >