有一个网址,一位同事在那里设置了大量文件供我下载
url = "http://www.some.url.edu/some/dirname/"
在这个目录中,有大量文件具有不同的文件名模式,我事先就知道这些文件,例如“subvol1\u file1”。焦油.gz“,”子卷1\u文件2。焦油.gz“等。我将使用fnmatch根据文件名模式有选择地下载这些文件。你知道吗
我需要的是目录名中所有文件名的简单列表或生成器。有没有一种简单的方法可以使用,例如,BeautifulSoup或urllib2来检索这样的列表?你知道吗
一旦我有了list/iterable,我们称之为filename\u sequence,我计划用以下伪代码下载带有模式filepat的文件:
filename_sequence = code_needed
filepat = "*my.pattern*"
import os, fnmatch
for basename in fnmatch.filter(filename_sequence, filepat):
os.system("wget "+os.path.join(url, basename))
不确定这是否适用于您的情况,但您可以对
href
属性值应用正则表达式模式:相关问题 更多 >
编程相关推荐