用于提取商业名称的Python网络爬虫逻辑

1 投票
1 回答
2009 浏览
提问于 2025-04-20 12:13

我刚接触Python,想知道有没有办法通过Python脚本获取一个网站的商家名称。

我有成千上万的商家需要验证他们的名称,想知道是否可以通过查看他们的网站或地址,找到注册在该地址下的商家名称。

我想在这里先问一下这个问题,以免浪费时间去研究这是否可行。

谢谢大家的帮助!

1 个回答

1

在某些情况下,网站首页的标题可能只是公司全名的一个大致版本。

下面是一个非常简单的例子,展示了如何访问一个网站的首页,并获取到 <title> 标签,这个标签通常包含了公司的名称。你需要先安装 requests 和 lxml 这两个库。

import requests
from lxml import etree
from StringIO import StringIO

parser = etree.HTMLParser()

urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
    r = requests.get(url)
    html = r.text
    tree  = etree.parse(StringIO(html), parser) 
    title = tree.xpath('//title/text()')
    print url, title

>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']

在其他情况下,如果你想找到公司的完整法律名称,可能需要去“法律”或“联系我们”的页面。这就比较复杂了,因为这个名称不一定和任何 HTML 标签有关;它可能只是页面上某个地方的自由文本。

撰写回答