如何使用HtmlXPathSelector（Scrapy）将结果返回为HTML

<html> <head> <title></title> </head> <body> <div id="leexample"> justtext <p class="ihatelookingforfeatures"> sometext </p> <p class="yahc"> sometext </p> </div> <div id="lenot"> blabla </div> an awfuly long example for this. </body> </html>

3条回答

网友

1楼 · 编辑于 2024-05-15 21:30:04

虽然很晚了，我还是把这个留了下来。

我做的是：

html = ''.join(hxs.select('//span[@class="title"]/node()').extract())

或者如果我们想匹配不同的节点：

elements = hxs.select('//span[@class="title"]')
html = [''.join(e) for e in elements.select('./node()')]

网友

2楼 · 编辑于 2024-05-15 21:30:04

在XpathSelectorList上调用.extract()。它将返回包含所需HTML内容的unicode字符串列表。

hxs.select('//div[@id="leexample"]/*').extract()

更新

# This is wrong
hxs.select('//div[@id="leexample"]/html()').extract()

/html()不是有效的scrapy选择器。要提取所有子项，请使用'//div[@id="leexample"]/*'或'//div[@id="leexample"]/node()'。注意，node()将返回textNode，结果类似于：

[u'\n   ',
 u'&lta href="image1.html">Name: My image 1 
'
]

网友

3楼 · 编辑于 2024-05-15 21:30:04

使用：

//span[@class="title"]/node()

这将选择所有节点（元素、文本节点、处理指令和注释），这些节点是XML文档中任何span元素的子节点，其class属性的值为"title"。

如果只想获取文档中第一个此类span的子节点，请使用：

(//span[@class="title"])[1]/node()

更新

相关问题更多 >

编程相关推荐

热门问题

热门文章