使用lxml/python解析论坛帖子

2024-05-29 10:15:59 发布

您现在位置:Python中文网/ 问答频道 /正文

当我使用下面的代码时,它将一个div拆分为数组中的15个项。问题是我想要这个post作为数组中的一个项目。这可能是由于<br>标记引起的,但我不确定如何解决它。在

from lxml import html
import requests

page = requests.get('http://www.city-data.com/forum/economics/2056372-minimum-wage-vs-liveable-wage.html')

tree = html.fromstring(page.text)

details = tree.xpath('//div[contains(@id, "post_message_33583236")]/text()')

print len(details) #prints 15

Tags: 项目代码text标记brimportdivtree
1条回答
网友
1楼 · 发布于 2024-05-29 10:15:59

使用xpath(而不是文本)查找元素,并使用^{}方法:

details = tree.xpath('.//div[contains(@id, "post_message_33583236")]')[0]
print(details.text_content())

印刷品:

^{pr2}$

相关问题 更多 >

    热门问题