使用BeautifulSoup获取匹配扩展名的文件名

2 投票

1 回答

3195 浏览

提问于 2025-04-16 18:36

我正在尝试用 BeautifulSoup 解析一个包含文本文件的 HTML 页面，这些文本文件的后缀是 .txt。我想从 HTML 中提取出以 .txt 结尾的字符串。

所有这样的字符串都在 <a href> 标签内，这里有一些例子：

<a href = "foo.txt">

<a href = "bar.txt">

我该如何获取 foo.txt 和 bar.txt 呢？

我这样做了：

>>> links = soup.findAll('a')

但是我找不到如何提取完整字符串的方法……有什么建议吗？

正则表达式文本处理 html解析 beautifulsoup 文件名提取标签内容提取

1 个回答

BeautifulSoup可以在find()和findAll()这两个方法中使用正则表达式作为参数。

这样写应该没问题：

links = soup.findAll(href=re.compile("\.txt$"))

回答于 2025-04-16 由 Python大师

分享举报