lxml未按预期检测到空div

from lxml import etree html_string = """ <html> <head> <title></title> </head> <body> <p align="center"> <div></div> This line should be centered. </p> <table> <tbody> <tr> <td> <div></div> </td> </tr> </tbody> </table> </body> </html> """ html_element = etree.fromstring(html_string) page_break_elements = html_element.xpath("//div") (Pdb) etree.tostring(html_element[1][0][0]) b'<div/>\n This line should be centered.\n '

from lxml import etree html_string = """ <html> <head> <title></title> </head> <body> <div></div> <p align="center"> This line should be centered. </p> <div></div> <table> <tbody> <tr> <td> </td> </tr> </tbody> </table> </body> </html> """

2条回答

网友

1楼 · 编辑于 2024-04-26 12:04:26

您可以使用lxml中的soupparser，仍然使用xpath等处理数据：

from lxml.html.soupparser import fromstring

html_element = fromstring(html_string)

它将维持p内的<div></div>

网友

2楼 · 编辑于 2024-04-26 12:04:26

您需要传递一些附加参数来更改tostring（）的行为：

etree.tostring(d, method="html", with_tail=False)
'<div></div>'

相关问题更多 >

编程相关推荐

热门问题

热门文章