我想抓取这个新闻网站上的数据。http://www.inquirer.net/
我想在瓷砖上找到新闻标题。在
这是被检查代码的屏幕截图
正如您所看到的,我要抓取的一个标题已经在那里了。当我从浏览器复制xpath时,它返回//*[@id=“tgs3_info”]/h2
我试着运行python代码。在
import lxml.html
import lxml.etree
import requests
link = 'http://www.inquirer.net/'
res = requests.get(link)
r = res.content
html_content = lxml.html.fromstring(r)
root = html_content.xpath('//*[@id="tgs3_info"]/h2')
print(root)
但它返回一个空列表。在
我试图在stackoverflow和互联网上寻找答案。我不太明白。当您查看站点的页面源时。我想要的数据不在javascript函数中。它在div里,所以我不明白为什么我不能抓到数据。我希望我能在这里找到答案。在
输入来自Xurasky的解决方案以避免403错误
输出
^{pr2}$我相信你会得到urllib.error.HTTPError:HTTP错误403:禁止错误。在
您可以使用
相关问题 更多 >
编程相关推荐