在python中从URL提取片段

http://www.parool.nl/parool/nl/4024/AMSTERDAM-CENTRUM/article/detail/3751723/2014/09/21 http://www.parool.nl/parool/nl/5/POLITIEK/article/detail/3751624/2014/09/20/VVD-wil- boete-van-250-euro-voor-het-naroepen-van-vrouwen.dhtml

3条回答

网友

1楼 · 编辑于 2024-04-27 03:30:20

您可以使用^{}将URL拆分为其组件并可靠地提取路径组件，然后使用regular expression提取您感兴趣的路径的类别部分：

from urlparse import urlparse
import re


URLS = ["http://www.parool.nl/parool/nl/4024/AMSTERDAM-CENTRUM/article/detail/3751723/2014/09/21",
        "http://www.parool.nl/parool/nl/5/POLITIEK/article/detail/3751624/2014/09/20/VVD-wil-boete-van-250-euro-voor-het-naroepen-van-vrouwen.dhtml"]

pattern = re.compile("/parool/nl/\d*/(.*?)/article/detail/.*$")


for url in URLS:
    parsed = urlparse(url)
    match = pattern.match(parsed.path)
    if match:
        category = match.group(1)
        print category

输出：

AMSTERDAM-CENTRUM
POLITIEK

正则表达式注释：

\d*匹配任何数字（0-9）0到多次
/(.*?)/在两个斜杠之间匹配任意零到多次字符，非贪婪，并为斜杠之间的部分创建一个组

网友

2楼 · 编辑于 2024-04-27 03:30:20

这里不需要正则表达式。你知道吗

>>> a=[]
>>> with open('in','r') as f:
...     r=csv.reader(f,delimiter='/')
...     for row in r:
...             a.append(row[6])
... 
>>> a
['AMSTERDAM-CENTRUM', 'POLITIEK']



>>> a=[]
>>> with open('in','r') as f:
...     r=csv.reader(f)
...     for row in r:
...             a.append(row[0].split('/')[6])
... 
>>> a
['AMSTERDAM-CENTRUM', 'POLITIEK']

网友

3楼 · 编辑于 2024-04-27 03:30:20

如果所有的URL都有相似的结构，那么您可以简单地使用

url.rsplit('/')[6]

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中从URL提取片段

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >