从批量文本中提取电子邮件

2024-04-25 00:27:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我想提取所有的电子邮件地址包括在一个HTML代码。我写了这个非常简单的代码(我是一个非常基础的python作者,我只是在努力学习):

#coding=utf-8
import urllib
import re

html = urllib.urlopen('http://giacomobonvini.com').read()

r = re.compile(r'(\b[\w.]+@+[\w.]+.+[\w.]\b)')
results = r.findall(html)

emails = ""
for x in results:
   emails += str(x) + "\n"

print emails    

问题是,即使代码有效,电子邮件的打印方式也是这样的:

“贾科莫。bonvini@gmail.com <;/“跨度”

“贾科莫。bonvini@gmail.com <;“比尔”

我不希望有“<;/span“和”<;“br”

你知道吗? 谢谢 贾科莫


Tags: 代码importltrecom电子邮件地址html