我正在尝试获取this page上存在的用户名称和评论内容:
当我用chrome插件Xpath helper测试提取时,我得到的用户名是:
//*[@id="livefyre"]/div/div/div/div/article/div/header/a/span
我得到的评论是:
//*[@id="livefyre"]/div/div/div/div/article/div/section/div/p
在scrapy控制台中执行测试时,使用以下查询:
response.xpath(//*[@id="livefyre"]/div/div/div/div/article/div/section/div/p).extract()
我得到一个[]
我也尝试过:
response.xpath (//*[@id="livefyre"]/div/div/div/div/article/div/section/div/p.text()).extract()
我的代码也会发生同样的事情。你知道吗
通过验证页面的代码,我发现所有这些注释都不存在于html代码中。你知道吗
我哪里出错了?你知道吗
谢谢你的帮助。你知道吗
正如你所说的,页面代码中没有任何注释,这意味着网站是通过javascript呈现的,有两种方法可以废弃这类网站
首先
使用
scrapy-splash
呈现javascript其次
找到带注释的
api/network call
,用scrapy模拟该请求以获取数据。你知道吗相关问题 更多 >
编程相关推荐