如何使用scrapy进行三级刮平?

2024-06-16 08:32:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经建立了一个蜘蛛做第二级刮削使用刮。首先,它从搜索结果中刮取配置文件URL。然后,它从配置文件url中抓取一些信息,如web url、电话、联系人姓名。 现在,我想把它扩展到第三个层次,从profileurl中提取weburl并获取电子邮件id

这里的一个挑战是电子邮件id不在网站上可预测的位置。它可以在任何页面或部分。所以爬行器应该自己找出email id所在的页面并获取数据

怎么做呢


Tags: web信息idurl网站电子邮件配置文件联系人