通过Python遍历网站目录并显示其内容(文件和子目录)

0 投票
2 回答
1185 浏览
提问于 2025-04-15 23:09

在Python中处理从源目录到目标目录的一组文件类似,我在想是否可以创建一个函数,当给定一个网页目录时,它能够列出该目录中的文件。就像这样……

files[]

for file in urllib.listdir(dir):
    if file.isdir:
        # handle this as directory
    else:
        # handle as file

我想我需要使用urllib这个库,但我至少没有看到有什么简单的方法可以做到这一点。

2 个回答

1

你可能对这两个概念搞混了。目录是文件系统中的一个概念,而URL并没有目录的概念。虽然URL看起来像是文件系统中的路径名,并且通常会对应一个目录,但它并不一定要和文件系统有关系。

举个例子,在Python中处理一组从源目录到目标目录的文件,这个URL可能对应一个目录

/htdocs/questions/2593399/

但更有可能的是,它是从数据库查询生成的,并不对应文件系统中的任何东西。

2

什么是网页目录?

网页上有链接。这个包含链接的页面可能是由网络服务器根据目录的内容生成的,也可能不是。

一个自动生成链接的例子可以在这里找到,这可能是因为像mod_dir这样的配置在Apache这个网络服务器中起作用。

像wget和curl这样的工具,可以获取一个页面并下载该页面上的所有链接,可能还会递归下载。我觉得这就是你能做到的最好效果。而且我感觉在StackOverflow上,关于python和curl的问题非常多。

撰写回答