使用lxml获取div的HTML内容

1 投票
1 回答
1163 浏览
提问于 2025-04-17 18:42

我正在使用Python和lxml库,从一堆链接中获取

的内容。我想要的是这个
的实际HTML代码。但是到目前为止,我只能获取链接的文本内容,这样就把HTML标签去掉了。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

有没有人能帮我获取article[0]的HTML代码呢?

谢谢!

1 个回答

4

你可以直接利用节点的循环功能,这样就能构建你的字符串了。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString

撰写回答