正在分析带标头的XML

2024-06-17 10:02:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在解析一些sitemap的xml,我偶然发现了一个实现cloudflare ddos保护的站点。我最初有这样的东西:

from xml.dom import minidom
import urllib, urllib2

url='http://rsvpgallery.com/sitemap_products_1.xml?from=1&to=9999999999'
xml = urllib.urlopen(url).read()

通过检查xml变量,我们可以看到它产生了cloudflare保护页面,并且该站点根据我的浏览器签名禁止了我的访问。在

为了解决这个问题,我想实现一个用户代理头的添加。 我在想这样的事情:

^{pr2}$

但是当我用这个新的url变量声明xml时,我得到了一个错误:

^{3}$

任何关于如何解决这个问题的想法或想法都将不胜感激。在


Tags: fromimportcomhttpurl站点xmlcloudflare
1条回答
网友
1楼 · 发布于 2024-06-17 10:02:26

它应该对你有用:

from xml.dom import minidom
import urllib2 as net

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:43.0) Gecko/20100101 Firefox/43.0',
}

url='http://rsvpgallery.com/sitemap_products_1.xml?from=1&to=9999999999'
req = net.Request(url, headers=headers)
xml = net.urlopen(req).read()

print xml

你的剧本应该可以用了。。。似乎您已经将url变量替换为xml变量,只是有点混乱。在

相关问题 更多 >