从纯文本解析URL
我该如何从任何普通文本中提取网址(不仅限于标签中的href属性)呢?
如果能提供一些Python的代码示例,那就太好了。
2 个回答
2
你可以使用正则表达式来解析这个字符串。
可以看看之前有人问过的问题:用Python从字符串中提取网址的最简单方法是什么?
1
可以查看 Jan Goyvaerts 的博客。
下面是一个 Python 代码的例子:
result = re.findall(r"\b(?:(?:https?|ftp|file)://|www\.|ftp\.)[-A-Z0-9+&@#/%=~_|$?!:,.]*[A-Z0-9+&@#/%=~_|$]", subject)