python中的URL解析器无效

2024-05-13 18:52:10 发布

您现在位置:Python中文网/ 问答频道 /正文

[是的,标题不是错别字!]在

在python中,我需要解析URL的东西。我不敢相信标准还不存在。由于URL是在配置中设置的,所以我想确保它不是垃圾。在

有urlparse.urlparse,但它只解析“valid url”(一些无效的url有时会引发未记录的ValueError)

例如

>>> import urlparse
>>> urlparse.urlparse('http://aa :: aa ! aa:11.com:aa').netloc
'aa :: aa ! aa:11.com:aa'

显示urlparse如何解析我认为无效的URL。在


Tags: importcomhttpurl标题标准垃圾aa
1条回答
网友
1楼 · 发布于 2024-05-13 18:52:10

URL解析和URL验证实际上是不同的任务。在

urlparse.urlparse进行解析,验证通常使用正则表达式机器(Python中内置的re模块)进行。在

以下是Django框架的URL验证示例:

regex = re.compile(
    r'^(?:http|ftp)s?://' # http:// or https://
    r'(?:(?:[A-Z0-9](?:[A-Z0-9-]{0,61}[A-Z0-9])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' #domain...
    r'localhost|' #localhost...
    r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # ...or ip
    r'(?::\d+)?' # optional port
    r'(?:/?|[/?]\S+)$', re.IGNORECASE)

相关问题 更多 >