正则表达式来提取以相同u开头的页面

2024-05-16 13:52:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我想写一个正则表达式,使我能够提取网页开始与相同的网址。你知道吗

例如:我有以下网址


https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64

并且只想创建以下url:

https://www.afp.com/fr/infos/334/

这样我就可以:

https://www.afp.com/fr/infos/334/le barça-est-gagnant
https://www.afp.com/fr/infos/334/mort au Zimbabwe
https://www.afp.com/fr/infos/334/le président français


所以我试过了

https://www.afp.com/fr/infos/334/*
https://www.afp.com/fr/infos/334/[^abc]*

它不工作,我必须把正则表达式在一个软件做爬行,该软件是用python编写的


Tags: httpslecom网页wwwfrenles
2条回答

我只想用这样的方法:

import re

list = []

myStr = "https://www.afp.com/fr/infos/334/soudan-le-president-dechu-en-prison-les-manifestants-toujours-mobilises-doc-1fp9z64"
if "https://www.afp.com/fr/infos/334/" in myStr:
    list.append(myStr)

或使用url.startswith文件()就像其他评论者推荐的那样。你知道吗

你应该像这样使用^{}

if url.startswith('https://www.afp.com/fr/infos/334/'):
    # do stuff with url

相关问题 更多 >