更改URL的脚本

网友

1楼 · 编辑于 2024-06-01 02:51:35

我将尝试在http://nomads.ncep.noaa.gov/dods/gfs_hd处将索引提升一级；特定表单的最后一个链接应该会将您带到每日下载页面，在那里您可以执行类似的操作。在

以下是对每日下载页面的截图：

import BeautifulSoup
import urllib
grdd = urllib.urlopen('http://nomads.ncep.noaa.gov/dods/gfs_hd/gfs_hd20140522')
soup = BeautifulSoup.BeautifulSoup(grdd)
datalinks = 'http://nomads.ncep.noaa.gov:80/dods/gfs_hd/gfs_hd'
for link in soup.findAll('a'):
    if link.get('href').startswith(datalinks):
        print('Suitable link: ' + link.get('href')[len(datalinks):])
        # Figure out if you already have it, choose if you want info, das, dds, etc etc.

当然，用最后30个字母刮掉这一页也很相似。在

网友

2楼 · 编辑于 2024-06-01 02:51:35

最简单的解决方案是镜像父目录：

wget -np -m -r http://nomads.ncep.noaa.gov:9090/dods/gfs_hd

但是，如果您只需要最新的日期，可以使用^{}，如^{}所示

^{pr2}$

2014年5月23日，产出：

http://nomads.ncep.noaa.gov:9090/dods/gfs_hd/gfs_hd20140523

网友

3楼 · 编辑于 2024-06-01 02:51:35

在Python中，requests库可用于获取URL。在

您可以使用基本URL字符串的组合来生成URL，并使用datetime类及其timedelta方法及其strftime方法生成所需格式的日期。在

也就是说，首先用datetime.datetime.now()获取当前时间，然后在一个循环中通过timedelta减去一小时（或者你认为他们正在使用的任何时间梯度），然后继续用requests库检查URL。你看到的第一个是最新的一个，然后你可以对它做任何进一步的处理。在

如果您需要刮取页面的内容，scrapy非常适合。在

相关问题更多 >

编程相关推荐

热门问题

热门文章