我被指派从一个大量使用Javascript编码的站点自动下载几个csv文件(https://www.quantcast.com/download/plannerscsv?&;d0Id=01&sc=1&mr=10000&rs2=-1)。有一个方便的“下载”按钮提示下载,我使用Firebug找到了它的网址:
https://www.quantcast.com/download/plannerCSV?&d0Id=10&sc=1&mr=10000
然而,据我所知,URL必须以.csv结尾,这样python中的urllib2模块才能将其读/写到我的磁盘上。有没有办法获得这个文件的URL,以.csv结尾,这样我就可以使用python自动下载了?在
我更喜欢使用python编写脚本,但是如果有另一种方法可以实现这个任务,那么我很乐意了解它。欢迎任何指导!谢谢=)
(编辑)澄清:我试图下载的数据包括一个巨大的(定期更新的)列表,可以根据选中的复选框以多种不同的方式进行过滤。URL会根据复选框而变化,所以我相信URL每次都会调用Javascript调用来生成一个新的csv文件。在
附加一个虚拟对象能起到可变的作用吗?对我来说,最明显的就是googlecodewiki关于图像文件,它们需要一个文件扩展名,并通过传递服务器不使用的GET变量来实现。比如:
https://www.quantcast.com/download/plannerCSV?&d0Id=10&sc=1&mr=10000&foo=.csv
我想查一下,但我没有定额帐户。在
这些网址是重定向你吗?如果是,您应该使用url重定向(read header ~ use verbose) 或者尝试使用urllib将页面保存在当前url,然后重命名为*.csv。你应该试试。在
相关问题 更多 >
编程相关推荐