如何在python中从文本文件中获取基本url?

2024-06-16 14:40:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个文本文件名weburl,其中有许多url,我只想使用regex获取基本url 网址

 wikimapia.org/1649944/Bahawalpur-Railway-Station
 panoramio.com/photo/84118355
 wikimapia.org/1649944/Bahawalpur-Railway-Station
 nativepakistan.com/photos-of-bahawalpur
 defence.pk/threads/pictures-of-pakistan-railways.303027
 nativepakistan.com/photos-of-bahawalpur
 panoramio.com/photo/51311162
 https://hiveminer.com/User/Pakistan Rail Buff

需要这个吗

 wikimapia.org
 panoramio.com
 wikimapia.org
 nativepakistan.com
 defence.pk
 nativepakistan.com
 panoramio.com
 https://hiveminer.com

如何使用regex?你知道吗


Tags: oforgcomurlregexstationphotophotos
1条回答
网友
1楼 · 发布于 2024-06-16 14:40:00

一种解决方案是:

^(?:\w+://)?.*?(?::\d+)?(?=/|$)

它匹配行的开头(^),后跟可选协议规范,例如https://(?:\w+://)?)。然后它匹配任意数量的任何.*?)直到一个可选的端口规范,比如:80(?::\d+)?)。最后,它检查匹配后是否有一个/行的结尾$(psitive look ahead (?=/|$))。你知道吗

Check it out here at regex101。你知道吗

请注意,如果不想匹配端口部分,可以将其移到正面展望中。即^(?:\w+://)?.*?(?=(?::\d+)?(?:/|$))

相关问题 更多 >