正则表达式去除文本中的URL
我想在Python中把文本里所有的URL(包括完整路径和查询字符串)都去掉。有没有什么建议?我对正则表达式还不太熟悉!
http://example.com/url/?x=data
这个完整的URL都应该被删除!谢谢
3 个回答
-1
<?php
preg_match_all('/<a.*?href=".*?">(.*?)<[\/]a>/', $content,$arr);
$new_content = str_replace($arr[0], $arr[1], $content);
echo $new_content;
?>
1
这个之前的问题可以帮助你开始匹配网址,比如在RegExLib.com上,接下来只需要处理去掉不需要的部分就可以了。
1
这绝对不是一件简单的事情,特别是如果你想要删除任何有效的网址的话。我建议你去看看这个关于正则表达式的库,里面有很多关于网址的内容,链接在这里:正则表达式库的相关页面。