简单、快速、现代化的网络抓取库
gazpacho的Python项目详细描述
关于
gazpacho是一个简单、快速和现代化的web抓取库。该库是稳定的、主动维护的,并且安装了zero依赖项。在
安装
在命令行使用pip
安装:
pip install -U gazpacho
快速启动
试试看:
^{pr2}$教程
导入
按照公约进口gazpacho:
fromgazpachoimportget,Soup
获取
使用get
函数下载原始HTML:
url='https://scrape.world/soup'html=get(url)print(html[:50])# '<!DOCTYPE html>\n<html lang="en">\n <head>\n <met'
使用可选参数和标题调整get
请求:
get(url='https://httpbin.org/anything',params={'foo':'bar','bar':'baz'},headers={'User-Agent':'gazpacho'})
汤
在原始html上使用Soup
包装器来启用解析:
soup=Soup(html)
Soup对象也可以使用.get
类方法初始化:
soup=Soup.get(url)
。查找
使用.find
方法定位并提取HTML标记:
h1=soup.find('h1')print(h1)# <h1 id="firstHeading" class="firstHeading" lang="en">Soup</h1>
属性=
使用attrs
参数隔离包含特定HTML元素属性的标记:
soup.find('div',attrs={'class':'section-'})
部分=
默认情况下,元素属性部分匹配。通过将partial
设置为False
来关闭此功能:
soup.find('div',{'class':'soup'},partial=False)
模式=
重写模式参数{'auto', 'first', 'all'
}以保证返回行为:
print(soup.find('span',mode='first'))# <span class="navbar-toggler-icon"></span>len(soup.find('span',mode='all'))# 8
dir()
Soup
对象具有html
、tag
、attrs
和{
dir(h1)# ['attrs', 'find', 'get', 'html', 'strip', 'tag', 'text']
相应地使用它们:
print(h1.html)# '<h1 id="firstHeading" class="firstHeading" lang="en">Soup</h1>'print(h1.tag)# h1print(h1.attrs)# {'id': 'firstHeading', 'class': 'firstHeading', 'lang': 'en'}print(h1.text)# Soup
支持
如果您使用gazpacho,请考虑将徽章添加到您的项目中自述文件.md公司名称:
[![scraper: gazpacho](https://img.shields.io/badge/scraper-gazpacho-C6422C)](https://github.com/maxhumber/gazpacho)
贡献
对于功能请求或错误报告,请使用Github Issues
对于PRs,请阅读CONTRIBUTING.md文档
- 项目
标签: