我有一个关于Python的粗糙项目。我从网站上提取了我想要的所有数据。但我想从网站中提取新数据到现有表中,而不是在每次更新时从一开始就提取数据。比如说,
+---------------------------+
| ID | Name | Job |
+---------------------------+
| 01 | Maria | Doctor |
+---------------------------+
| 02 | Silvia | Teacher |
+---------------------------+
| 03 | Lora | Soldier |
+---------------------------+
随着新的更新,新的数据被添加到网站上。这些数据是:
+-------------------------+
| ID | Name | Job |
+-------------------------+
| 04 | Blanca | Engineer |
+-------------------------+
所以,当我运行代码时,我只想将新数据从网站拉到现有表中。再也没有了
我怎么做
有一种方法可以做到这一点,即使用管道并将数据映射到上一个管道,如果数据库中还没有记录,则插入该记录。就刮痧而言,它完全依赖于选择器。如果上一个和站点上的数据的选择器相同,则在对数据进行爬网时无法区分数据。管道将帮助您根据需要筛选记录
https://docs.scrapy.org/en/latest/topics/item-pipeline.html
相关问题 更多 >
编程相关推荐