Python gazpacho包_程序模块 - PyPI

简单、快速、现代化的网络抓取库

gazpacho的Python项目详细描述

在

关于

gazpacho是一个简单、快速和现代化的web抓取库。该库是稳定的、主动维护的，并且安装了zero依赖项。在

安装

在命令行使用pip安装：

pip install -U gazpacho

快速启动

试试看：

^{pr2}$

教程

导入

按照公约进口gazpacho：

fromgazpachoimportget,Soup

获取

使用get函数下载原始HTML：

url='https://scrape.world/soup'html=get(url)print(html[:50])# '<!DOCTYPE html>\n<html lang="en">\n  <head>\n    <met'

使用可选参数和标题调整get请求：

get(url='https://httpbin.org/anything',params={'foo':'bar','bar':'baz'},headers={'User-Agent':'gazpacho'})

汤

在原始html上使用Soup包装器来启用解析：

soup=Soup(html)

Soup对象也可以使用.get类方法初始化：

soup=Soup.get(url)

。查找

使用.find方法定位并提取HTML标记：

h1=soup.find('h1')print(h1)# <h1 id="firstHeading" class="firstHeading" lang="en">Soup</h1>

属性=

使用attrs参数隔离包含特定HTML元素属性的标记：

soup.find('div',attrs={'class':'section-'})

部分=

默认情况下，元素属性部分匹配。通过将partial设置为False来关闭此功能：

soup.find('div',{'class':'soup'},partial=False)

模式=

重写模式参数{'auto', 'first', 'all'}以保证返回行为：

print(soup.find('span',mode='first'))# <span class="navbar-toggler-icon"></span>len(soup.find('span',mode='all'))# 8

dir（）

Soup对象具有html、tag、attrs和{}属性：

dir(h1)# ['attrs', 'find', 'get', 'html', 'strip', 'tag', 'text']

相应地使用它们：

print(h1.html)# '<h1 id="firstHeading" class="firstHeading" lang="en">Soup</h1>'print(h1.tag)# h1print(h1.attrs)# {'id': 'firstHeading', 'class': 'firstHeading', 'lang': 'en'}print(h1.text)# Soup

支持

如果您使用gazpacho，请考虑将徽章添加到您的项目中自述文件.md公司名称：

[![scraper: gazpacho](https://img.shields.io/badge/scraper-gazpacho-C6422C)](https://github.com/maxhumber/gazpacho)

贡献

对于功能请求或错误报告，请使用Github Issues

对于PRs，请阅读CONTRIBUTING.md文档

欢迎加入QQ群-->： 979659372

gazpacho 1.1

gazpacho的Python项目详细描述

关于

安装

快速启动

教程

导入

获取

汤
在原始html上使用`Soup`包装器来启用解析：
soup=Soup(html)
Soup对象也可以使用`.get`类方法初始化：
soup=Soup.get(url)

。查找

属性=

部分=

模式=

dir（）

支持

贡献

推荐PyPI第三方库

cs.timeutils

omimgr

jaynes

ng.skin.greenps

inotify_httpd

lightbulb

python-transparencydata

xenvman

bambu-mail

collective.recipe.isapiwsgi

trestus

bunnyq

DonkeySimple

rlp

django-janyson

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

gazpacho 1.1

gazpacho的Python项目详细描述

关于

安装

快速启动

教程

导入

获取

汤 在原始html上使用Soup包装器来启用解析：soup=Soup(html)Soup对象也可以使用.get类方法初始化：soup=Soup.get(url)

。查找

属性=

部分=

模式=

dir（）

支持

贡献

推荐PyPI第三方库

cs.timeutils

omimgr

jaynes

ng.skin.greenps

inotify_httpd

lightbulb

python-transparencydata

xenvman

bambu-mail

collective.recipe.isapiwsgi

trestus

bunnyq

DonkeySimple

rlp

django-janyson

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

汤
在原始html上使用`Soup`包装器来启用解析：
soup=Soup(html)
Soup对象也可以使用`.get`类方法初始化：
soup=Soup.get(url)

导航栏

项目链接

标签