通过HTTP遍历目录

2 投票

1 回答

1650 浏览

提问于 2025-04-17 17:50

假设我有一个网址 http://example.com/result，打开这个网址后，会出现一个页面，上面有一些目录（这些目录的数量可以是一个、两个、三个……任何数量）。我想要遍历每个目录，找到里面的 new.txt 文件，这个文件可能在目录的任何位置，甚至是子目录里。

在 http://example.com/result 这个网址下，有以下目录：

security
major
minor
fails
logs
..

我需要在每个目录里找到 new.txt 文件，并想要读取它的内容。所有的目录（比如 security、major 等等）可能还有子目录。我需要在目录或子目录中找到 new.txt 文件。

文件读取网络安全 http请求数据提取目录遍历子目录文件查找 web爬虫

1 个回答

如果你想用Python来做这件事，那么你需要使用 urllib 这个库。

检查每个页面的头部信息。对于目录和文件，会有一个链接标签。找到这个链接标签，然后查看它的头部信息。文件和目录的头部信息可能会有所不同。

如果是目录的话，就要递归调用同一个函数，检查这个目录里的每个文件。

回答于 2025-04-17 由 Python大师

分享举报