Python alcazar包_程序模块 - PyPI

刮网器框架

alcazar的Python项目详细描述

alcazar是一个python库，它简化了编写web scraper的任务。

它的一些核心功能是：

简洁的语法用于在html页面、json文档、文本字符串中查找相关数据
http缓存到磁盘以便在不重新提交http请求的情况下准确重播擦痕
限制对同一主机的请求
当http请求失败或页面无法按预期解析时，自动重试。
crawler用于维护要访问的url队列的工具
fail fast：默认情况下，我们宁愿崩溃，也不愿保存不正确或不完整的数据

Alcazar汇集了以下库：

Requests
lxml（包括cssselect）
JMESPath

入门

alcazar是available on PyPi，因此可以使用pip：

pip install alcazar

使用库的最简单方法是实例化一个Scraper，并调用它的fetch方法：

>>>importalcazar>>>scraper=alcazar.Scraper()>>>page=scraper.fetch('https://en.wikipedia.org/wiki/Gorgie')>>>print(page.one('div[@id="toc"]/preceding-sibling::p[./b]').text.normalized)Gorgie(/ˈɡɔːrɡiː/GOR-gee)isadenselypopulatedareaofEdinburgh,Scotland.ItislocatedinthewestofthecityandbordersMurrayfield,ArdmillanandDalry.

在这段代码中：

我们已获取该页的HTML
如果发生任何网络错误或http错误，我们将重试几次，每次尝试之间的睡眠时间都会增加
我们已将HTML解析为树
使用lxml的出色处理和从“坏”html中恢复，如在wild中所见
我们已经找到了我们感兴趣的元素
这里使用的是xpath表达式，但我们也可以使用css选择器
我们检查了是否只有一个元素与我们的查询匹配
否则就会抛出一个异常，确保我们只捕获所需的内容
我们提取了它的文本，删除了它的所有标记，并规范化了它的空白

查看samples目录了解alcazar的工作原理。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
saintamh
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
上传图片使用Django Ckeditor获取服务器错误（500）
上传图片到 Google App Engine，来自非网页客户端
上传图片到Djang的cloudinary
上传图片到Flask
上传图片到googleappengine并与用户分享图片
上传图片到googlecolab，并使用Keras预测分类
上传图片到s3python
上传图片到s3后，上传附带的拇指
上传图片在Django，希望是一个循序渐进的指南？
上传图片并显示在Django 2.0模板上
上传图片时创建动态路径
上传多个图像会破坏除第一个Flas之外的所有内容
上传多个文件上传文件FastAPI
上传多个文件到Django
上传多张图片

alcazar 0.5.1

alcazar的Python项目详细描述

入门

推荐PyPI第三方库

tiktok-scraper

django-sms-cn

typewrap

EveDiscordBot

finbert-embedding

italian-csv-type-prediction

AirzoneCloudDaikin

DirectFolderBrowser

sentry-kavenegar

synapse-downloader

moleculer-client

actionspytoolkit

open_excel

model-tracker

asmd

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

alcazar 0.5.1

alcazar的Python项目详细描述

入门

推荐PyPI第三方库

tiktok-scraper

django-sms-cn

typewrap

EveDiscordBot

finbert-embedding

italian-csv-type-prediction

AirzoneCloudDaikin

DirectFolderBrowser

sentry-kavenegar

synapse-downloader

moleculer-client

actionspytoolkit

open_excel

model-tracker

asmd

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签