我想提取所有的电子邮件地址包括在一个HTML代码。我写了这个非常简单的代码(我是一个非常基础的python作者,我只是在努力学习):
#coding=utf-8
import urllib
import re
html = urllib.urlopen('http://giacomobonvini.com').read()
r = re.compile(r'(\b[\w.]+@+[\w.]+.+[\w.]\b)')
results = r.findall(html)
emails = ""
for x in results:
emails += str(x) + "\n"
print emails
问题是,即使代码有效,电子邮件的打印方式也是这样的:
“贾科莫。bonvini@gmail.com <;/“跨度”
“贾科莫。bonvini@gmail.com <;“比尔”
我不希望有“<;/span“和”<;“br”
你知道吗? 谢谢 贾科莫
问题很可能是
.+
组合,它匹配任何东西。也许你想匹配一个点?如果是这样,请使用[.]
相关问题 更多 >
编程相关推荐