Python检测字符串中的url(垃圾邮件)

2024-05-26 07:45:05 发布

您现在位置:Python中文网/ 问答频道 /正文

所以,我已经做了一段时间的研究,我找不到任何关于在字符串中检测URL的信息。问题是,大多数结果都是关于检测字符串是否是URL,而不是它是否包含URL。在我看来最棒的两个结果是

Regex to find urls in string in PythonDetecting a (naughty or nice) URL or link in a text string

但是第一个需要http://,这不是垃圾邮件发送者会使用的(:p),第二个不在regex中-我有限的知识不知道如何翻译这些。我曾经考虑过用一些无聊的东西

spamlist = [".com",".co.uk","etc"]
for word in string:
    if word in spamlist:  
        Do().stuff()

但老实说,这样做弊大于利,我100%肯定有更好的方法使用regex或任何东西!在

所以,如果有人知道什么可以帮助我,我会非常感激!我只学了1-2个月的python,在这段时间里,我并不是很专注,但我觉得我取得了很大的进步,这一点就是阻碍我前进的唯一因素。在

编辑:抱歉没有在前面指定,我希望在本地使用这个,而不是基于网站(apache)或任何类似的东西。更多的人试图清除我周围的文件链接。在


Tags: orto字符串in信息urlstringfind
1条回答
网友
1楼 · 发布于 2024-05-26 07:45:05

正如我在评论中所说

  • Detecting a (naughty or nice) URL or link in a text string的解决方案是一个正则表达式,在Python中使用它时,您可能应该将其设为原始字符串或转义反斜杠

  • 你真的不应该在这里改头换面,尤其是垃圾邮件过滤是一个军备竞赛领域(不记得确切的英语短语)

相关问题 更多 >