使用BeautifulSoup获取匹配扩展名的文件名
我正在尝试用 BeautifulSoup
解析一个包含文本文件的 HTML 页面,这些文本文件的后缀是 .txt
。我想从 HTML 中提取出以 .txt
结尾的字符串。
所有这样的字符串都在 <a href>
标签内,这里有一些例子:
<a href = "foo.txt">
<a href = "bar.txt">
我该如何获取 foo.txt
和 bar.txt
呢?
我这样做了:
>>> links = soup.findAll('a')
但是我找不到如何提取完整字符串的方法……有什么建议吗?
1 个回答
8
BeautifulSoup可以在find()
和findAll()
这两个方法中使用正则表达式作为参数。
这样写应该没问题:
links = soup.findAll(href=re.compile("\.txt$"))