用Python切分URL
我正在处理一个很长的URL列表。这里有个简单的问题,我想从URL中切割出一部分,见下文:
http://www.domainname.com/page?CONTENT_ITEM_ID=1234¶m2¶m3
我该如何切割出:
http://www.domainname.com/page?CONTENT_ITEM_ID=1234
有时候在CONTENT_ITEM_ID后面会有超过两个参数,而且每次的ID都不一样。我在想可以通过找到第一个&符号,然后切掉这个&符号之前的字符来实现,但我不太确定该怎么做。
谢谢!
10 个回答
3
另一个选择是使用分割函数,把 & 作为参数。这样,你就可以提取出基本网址和两个参数。
url.split("&")
这会返回一个列表,里面包含
['http://www.domainname.com/page?CONTENT_ITEM_ID=1234', 'param2', 'param3']
4
快速简单的解决办法就是这个:
>>> "http://something.com/page?CONTENT_ITEM_ID=1234¶m3".split("&")[0]
'http://something.com/page?CONTENT_ITEM_ID=1234'
14
使用 urlparse 模块。看看这个函数:
import urlparse
def process_url(url, keep_params=('CONTENT_ITEM_ID=',)):
parsed= urlparse.urlsplit(url)
filtered_query= '&'.join(
qry_item
for qry_item in parsed.query.split('&')
if qry_item.startswith(keep_params))
return urlparse.urlunsplit(parsed[:3] + (filtered_query,) + parsed[4:])
在你的例子中:
>>> process_url(a)
'http://www.domainname.com/page?CONTENT_ITEM_ID=1234'
这个函数还有一个额外的好处,就是如果你想添加更多的查询参数,或者参数的顺序不固定,它会更容易使用,比如:
>>> url='http://www.domainname.com/page?other_value=xx¶m3&CONTENT_ITEM_ID=1234¶m1'
>>> process_url(url, ('CONTENT_ITEM_ID', 'other_value'))
'http://www.domainname.com/page?other_value=xx&CONTENT_ITEM_ID=1234'