当我访问这个URL(https://www.example.com/blog/author/)时,它会显示作者写的文章。我需要创建一个脚本,以找到该作者的文章页面上的所有链接。现在,这些文章位于不同的文件夹中,即服务器(https://www.example.com/blog/some-folder/article)中的两个文件夹中。 文件夹有以下两种类型:
https://www.example.com/some-numerical/this-is-a-post/
即https://www.example.com/123/sample-article
https://www.example.com/some-word/this-is-a-post/
即https://www.example.com/data/sample-post/
如何使用regex和python实现这一点?你知道吗
我已经尝试了以下代码,但无法得到正则表达式的权利。你知道吗
import re
import requests
r = requests.get("https://www.example.com/blog/author/abc")
data = r.content # Content of response
links = re.findall('https://www.example.com/blog/*+/', data)
print(links)
这只是打印出一个URL:https://www.example.com/blog/
如果我们希望传递具有
example.com
和sample-article
的url,那么我们可以从以下表达式开始:Demo
测试
正则表达式电路
jex.im可视化正则表达式:
编辑:
如果我们想在这里解析HTML,最好使用HTML解析器。否则,对表达式的修改将变得乏味和不必要。你知道吗
如果不是这样的话,我们可以从一个左右边界的表达式开始,类似于:
Demo
测试
输出
相关问题 更多 >
编程相关推荐