用于提取商业名称的Python网络爬虫逻辑
我刚接触Python,想知道有没有办法通过Python脚本获取一个网站的商家名称。
我有成千上万的商家需要验证他们的名称,想知道是否可以通过查看他们的网站或地址,找到注册在该地址下的商家名称。
我想在这里先问一下这个问题,以免浪费时间去研究这是否可行。
谢谢大家的帮助!
1 个回答
1
在某些情况下,网站首页的标题可能只是公司全名的一个大致版本。
下面是一个非常简单的例子,展示了如何访问一个网站的首页,并获取到 <title>
标签,这个标签通常包含了公司的名称。你需要先安装 requests 和 lxml 这两个库。
import requests
from lxml import etree
from StringIO import StringIO
parser = etree.HTMLParser()
urls = ['http://google.com', 'http://facebook.com', 'http://stackoverflow.com']
for url in urls:
r = requests.get(url)
html = r.text
tree = etree.parse(StringIO(html), parser)
title = tree.xpath('//title/text()')
print url, title
>>>
http://google.com ['Google']
http://facebook.com ['Welcome to Facebook - Log In, Sign Up or Learn More']
http://stackoverflow.com ['Stack Overflow']
在其他情况下,如果你想找到公司的完整法律名称,可能需要去“法律”或“联系我们”的页面。这就比较复杂了,因为这个名称不一定和任何 HTML 标签有关;它可能只是页面上某个地方的自由文本。