用于提取商业名称的Python网络爬虫逻辑

1 投票

1 回答

2009 浏览

数据工程师

提问于 2025-04-20 12:13

我刚接触Python，想知道有没有办法通过Python脚本获取一个网站的商家名称。

我有成千上万的商家需要验证他们的名称，想知道是否可以通过查看他们的网站或地址，找到注册在该地址下的商家名称。

我想在这里先问一下这个问题，以免浪费时间去研究这是否可行。

谢谢大家的帮助！

数据验证网络爬虫信息检索网站抓取商家名称提取

1 个回答

在某些情况下，网站首页的标题可能只是公司全名的一个大致版本。

下面是一个非常简单的例子，展示了如何访问一个网站的首页，并获取到 <title> 标签，这个标签通常包含了公司的名称。你需要先安装 requests 和 lxml 这两个库。

import requests
from lxml import etree
from StringIO import StringIO

parser = etree.HTMLParser()

urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
    r = requests.get(url)
    html = r.text
    tree  = etree.parse(StringIO(html), parser) 
    title = tree.xpath('//title/text()')
    print url, title

>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']

在其他情况下，如果你想找到公司的完整法律名称，可能需要去“法律”或“联系我们”的页面。这就比较复杂了，因为这个名称不一定和任何 HTML 标签有关；它可能只是页面上某个地方的自由文本。

回答于 2025-04-20 由 Python大师

分享举报

用于提取商业名称的Python网络爬虫逻辑

1 个回答

撰写回答