使用lxml获取div的HTML内容

1 投票

1 回答

1163 浏览

提问于 2025-04-17 18:42

我正在使用Python和lxml库，从一堆链接中获取

的内容。我想要的是这个

的实际HTML代码。但是到目前为止，我只能获取链接的文本内容，这样就把HTML标签去掉了。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

有没有人能帮我获取article[0]的HTML代码呢？

谢谢！

lxml 网页抓取 html解析内容提取 div元素

1 个回答

你可以直接利用节点的循环功能，这样就能构建你的字符串了。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString

回答于 2025-04-17 由 Python大师

分享举报

使用lxml获取div的HTML内容

1 个回答

撰写回答