使用lxml获取div的HTML内容
我正在使用Python和lxml库,从一堆链接中获取
的内容。我想要的是这个
的实际HTML代码。但是到目前为止,我只能获取链接的文本内容,这样就把HTML标签去掉了。
doc = html.fromstring(doc_text)
article = doc.cssselect("div.article")
if len(article) > 0:
text = article[0].text_content()
data = {
'product':product,
'content': text,
}
有没有人能帮我获取article[0]的HTML代码呢?
谢谢!
1 个回答
4
你可以直接利用节点的循环功能,这样就能构建你的字符串了。
def innerHTML(node):
buildString = ''
for child in node:
buildString += html.tostring(child)
return buildString