从emai主体中提取域

<tr><td colspan="5">Resource Links - <a href="http://clk.about.com/?zi=4/RZ">Get Listed Here</a></td><td class="snv" valign="bottom" align="right"><a href="http://sprinks.about.com/faq/index.htm">What Is This?</a></td></tr><tr><td colspan="6" bgcolor="#999999"><img height="1" width="1"></td></tr><tr><td colspan="6"><map name="sgmap"><area href="http://x.about.com/sg/r/3412.htm?p=0&ref=fooddrinksl_sg" shape="rect" coords="0, 0, 600, 20"><area href="http://x.about.com/sg/r/3412.htm?p=1&ref=fooddrinksl_sg" shape="rect" coords="0, 55, 600, 75"><area href="http://x.about.com/sg/r/3412.htm?p=2&ref=fooddrinksl_sg" shape="rect" coords="0, 110, 600, 130"></map><img border="0" src="http://z.about.com/sg/sg.gif?cuni=3412" usemap="#sgmap" width="600" height="160"></td></tr><tr><td colspan="6"> </td></tr> <tr><td colspan="6"><a name="d">Top Picks - </a><a href="http://slclk.about.com/?zi=1/BAO" class="srvb">Fun Gift Ideas</a> from your <a href="http://chinesefood.about.com">Chinese Cuisine</a> Guide</td></tr><tr><td colspan="6" bgcolor="cc0000"><img height="1" width="1"></td></tr><tr><td colspan="6" class="snv">

3条回答

网友

1楼 · 编辑于 2024-05-16 02:03:09

最干净的方法是使用来自lxml.html和urlparse的cssselect。方法如下：

from lxml import html
from urlparse import urlparse
doc = html.fromstring(html_data)
links = doc.cssselect("a")
domains = set([])
for link in links:
    try: href=link.attrib['href']
    except KeyError: continue
    parsed=urlparse(href)
    domains.add(parsed.netloc)
print domains

首先使用fromstring将html数据加载到a document对象中。您可以使用带有cssselect的标准css选择器查询文档中的链接。您可以遍历这些链接，使用.attrib['href']获取它们的url，如果它们没有任何链接（except - continue），则跳过它们。用urlparse将url解析为一个命名元组，并将域（netloc）放入一个集合中。喂！在

当你有好的在线库时，尽量避免使用正则表达式。它们很难维修。同时也不能进行html解析。在

更新：注释中的href过滤器建议非常有用，代码如下所示：

^{pr2}$

您不需要try-catch块，因为href过滤器确保只捕获其中具有href属性的锚。在

网友

2楼 · 编辑于 2024-05-16 02:03:09

您可以使用Python标准库中的^{}来访问文档的某些部分。在

网友

3楼 · 编辑于 2024-05-16 02:03:09

HTMLParser是一种干净的方法。如果你想要快速而肮脏的东西，或者只是想看看一个中等复杂的正则表达式是什么样子的，这里有一个正则表达式示例可以找到href's（从我头顶上下来，没有经过测试）：

r'<a\s+href="\w+://[^/"]+[^"]*">'

相关问题更多 >

编程相关推荐

热门问题

热门文章