使用lxml/python解析论坛帖子

2024-05-29 10:15:59 发布

男 | 程序猿一只，喜欢编程写python代码。

当我使用下面的代码时，它将一个div拆分为数组中的15个项。问题是我想要这个post作为数组中的一个项目。这可能是由于<br>标记引起的，但我不确定如何解决它。在

from lxml import html
import requests

page = requests.get('http://www.city-data.com/forum/economics/2056372-minimum-wage-vs-liveable-wage.html')

tree = html.fromstring(page.text)

details = tree.xpath('//div[contains(@id, "post_message_33583236")]/text()')

print len(details) #prints 15

Tags：项目代码 text 标记 br import div tree

1条回答

网友

1楼 · 发布于 2024-05-29 10:15:59

使用xpath（而不是文本）查找元素，并使用^{}方法：

details = tree.xpath('.//div[contains(@id, "post_message_33583236")]')[0]
print(details.text_content())

印刷品：

^{pr2}$

使用lxml/python解析论坛帖子

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用lxml/python解析论坛帖子

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >