MindFactory.de的爬虫

mindfactory-crawling的Python项目详细描述


MindFactory.de爬虫程序

这个存储库包含一个用于Mindfactory的爬虫程序,这是一个德国电子商务商店(用于计算机硬件)。爬虫程序提取包含在每个产品页面上的数据,并将擦掉的产品和评论存储在由两个表组成的sqlite数据库中。

每个产品都有以下特性:

  • id(sqlite标识符)
  • 网址
  • 产品名称
  • 品牌名称
  • 类别(即CPU)
  • EAN
  • 库存单位
  • 售出物品(计数)
  • 观看人数(计数)
  • RMA报价(百分比)
  • 平均评分(从1.0到5.0)
  • 运输(可用性信息)
  • 价格(欧元)

此外,对于每个产品,所有的评论都被收集并存储在一个单独的sqlite表中。此表中的条目具有以下属性:

  • 产品ID(参考产品表中相应的ID)
  • 星级(等级,从1到5)
  • 文本
  • 作者
  • 日期(年-月-日)
  • 已验证(实际上是在MindFactory购买的产品)

先决条件

  • Python3
  • 稀薄的
  • sqlite3

运行刮刀

scrapy crawl mindfactory_products

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java开始为Android开发应用程序   在哪种情况下,c++/c#namespace方法比Java方法更好?   java重构帮助。。。基于属性的对象还是大量成员字段?   java如何使用jackon json将嵌套对象作为字符串的对象转换为Pojo?   java是流式传输远程日志文件的有效方法   javajackson数据绑定:读入现有对象   java NullPointerException这是如何发生的?   java需要伪代码来进行文本压缩/解压缩   java JMS Websphere消息在发送时丢失   JUnit测试的Java SVNKit模拟单元测试   java Apache Crunch错误   java如何修复Android Studio/SQLite中的“空对象引用”错误?   java文件“navigation.json”在Android Studio项目中找不到   java如何在同一实体类上建立单向的一对一关系?   java调用web服务:javax。网ssl。SSLException:收到致命警报:协议\u版本   java与sql的连接   java Android:通过编程为透明背景图标(png)生成阴影,并在ImageButton中使用