从批量文本中提取电子邮件

2024-04-25 00:27:48 发布

男 | 程序猿一只，喜欢编程写python代码。

我想提取所有的电子邮件地址包括在一个HTML代码。我写了这个非常简单的代码（我是一个非常基础的python作者，我只是在努力学习）：

#coding=utf-8
import urllib
import re

html = urllib.urlopen('http://giacomobonvini.com').read()

r = re.compile(r'(\b[\w.]+@+[\w.]+.+[\w.]\b)')
results = r.findall(html)

emails = ""
for x in results:
   emails += str(x) + "\n"

print emails

问题是，即使代码有效，电子邮件的打印方式也是这样的：

“贾科莫。bonvini@gmail.com <；/“跨度”

“贾科莫。bonvini@gmail.com <；“比尔”

我不希望有“<；/span“和”<；“br”

你知道吗？谢谢贾科莫

Tags：代码 import lt re com 电子邮件地址 html

1条回答

网友

1楼 · 发布于 2024-04-25 00:27:48

r'(\b[\w.]+@+[\w.]+.+[\w.]\b)'

问题很可能是.+组合，它匹配任何东西。也许你想匹配一个点？如果是这样，请使用[.]

从批量文本中提取电子邮件

相关问题更多 >

编程相关推荐

热门问题

热门文章

从批量文本中提取电子邮件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >