用Python切分URL

8 投票

10 回答

8041 浏览

提问于 2025-04-11 09:36

我正在处理一个很长的URL列表。这里有个简单的问题，我想从URL中切割出一部分，见下文：

http://www.domainname.com/page?CONTENT_ITEM_ID=1234&param2&param3

我该如何切割出：

http://www.domainname.com/page?CONTENT_ITEM_ID=1234

有时候在CONTENT_ITEM_ID后面会有超过两个参数，而且每次的ID都不一样。我在想可以通过找到第一个&符号，然后切掉这个&符号之前的字符来实现，但我不太确定该怎么做。

谢谢！

正则表达式字符串处理数据清洗参数提取 url切割

10 个回答

另一个选择是使用分割函数，把 & 作为参数。这样，你就可以提取出基本网址和两个参数。

   url.split("&")

这会返回一个列表，里面包含

  ['http://www.domainname.com/page?CONTENT_ITEM_ID=1234', 'param2', 'param3']

回答于 2025-04-11 由 Python大师

分享举报

快速简单的解决办法就是这个：

>>> "http://something.com/page?CONTENT_ITEM_ID=1234&param3".split("&")[0]
'http://something.com/page?CONTENT_ITEM_ID=1234'

回答于 2025-04-11 由 Python大师

分享举报

使用 urlparse 模块。看看这个函数：

import urlparse

def process_url(url, keep_params=('CONTENT_ITEM_ID=',)):
    parsed= urlparse.urlsplit(url)
    filtered_query= '&'.join(
        qry_item
        for qry_item in parsed.query.split('&')
        if qry_item.startswith(keep_params))
    return urlparse.urlunsplit(parsed[:3] + (filtered_query,) + parsed[4:])

在你的例子中：

>>> process_url(a)
'http://www.domainname.com/page?CONTENT_ITEM_ID=1234'

这个函数还有一个额外的好处，就是如果你想添加更多的查询参数，或者参数的顺序不固定，它会更容易使用，比如：

>>> url='http://www.domainname.com/page?other_value=xx&param3&CONTENT_ITEM_ID=1234&param1'
>>> process_url(url, ('CONTENT_ITEM_ID', 'other_value'))
'http://www.domainname.com/page?other_value=xx&CONTENT_ITEM_ID=1234'

回答于 2025-04-11 由 Python大师

分享举报

用Python切分URL

10 个回答

撰写回答