如何规范化URL并忽略斜杠后的任何内容？

from w3lib.url import url_query_cleaner from url_normalize import url_normalize urls = ['foo.com','www.foo.com/','foo.com/us','foo.com/ca/example-test/'] def canonical_url(u): u = url_normalize(u) u = url_query_cleaner(u,parameterlist = ['utm_source','utm_medium','utm_campaign','utm_term','utm_content'],remove=True) if u.startswith("http://"): u = u[7:] if u.startswith("https://"): u = u[8:] if u.startswith("www."): u = u[4:] if u.endswith("/"): u = u[:-1] return u list(map(canonical_url,urls))

2条回答

网友

1楼 · 编辑于 2024-05-13 20:40:28

如果您不想使用urllib，而urllib可以为您这样做，那么可以使用split

def canonical_url(u):
    u = url_normalize(u)
    u = url_query_cleaner(u,parameterlist = ['utm_source','utm_medium','utm_campaign','utm_term','utm_content'],remove=True)
    u = u.lstrip("http://")
    u = u.lstrip("https://")
    u = u.lstrip("www.")
    u = u.split('/')[0]  # get before first slash
    return u

网友

2楼 · 编辑于 2024-05-13 20:40:28

您可以在python中使用URLlib模块

from urllib3.util import parse_url

urls = ['foo.com','www.foo.com/','foo.com/us','foo.com/ca/example-test/']
for url in urls:
   parsed_url = parse_url(url)
   host = parsed_url.host if not parsed_url.host.startswith('www.') else parsed_url.host.lstrip('www.')

输出将如您预期的那样

相关问题更多 >

编程相关推荐

热门问题

热门文章