我正在编写webspider,以便使用python中的scrapy框架从网站上废弃一些产品。
我想知道计算书面蜘蛛的覆盖率和缺失项的最佳实践是什么。你知道吗
我现在使用的是记录无法解析或引发异常的案例。
举个例子:当我期望一个产品的价格或一个地方的地址有一个特定的格式时,我发现我写的正则表达式与废弃的字符串不匹配。或者当特定数据的xpath
选择器不返回任何内容时。你知道吗
有时当产品在一页或多页中列出时,我使用curl
和grep
粗略计算产品的数量。但我想知道是否有更好的方法来处理这个问题。你知道吗
Tags:
常见的方法是,使用^{} 记录错误并通过不返回任何内容退出回调。你知道吗
示例(需要产品价格):
您还可以使用signals捕获并记录爬网时发生的所有类型的异常,请参阅:
这基本上遵循了Easier to ask for forgiveness than permission原则,当您让spider失败并在一个特定的地方(信号处理程序)捕获和处理错误时。你知道吗
其他想法:
MissingRequiredFieldError
,InvalidFieldFormatError
,您可以在爬网字段未通过验证的情况下引发这些异常。你知道吗相关问题 更多 >
编程相关推荐