使用Python抓取页面

0 投票
1 回答
594 浏览
提问于 2025-04-18 09:46

我正在制作一个可以用于所有电商网站的爬虫。目前,我在以下几个网站上测试我的爬虫。

链接 1

链接 2

链接 3

链接 4

我可以单独成功地爬取这四个网站,但在制作一个通用爬虫时,我不知道怎么才能显示更多的产品。例如:

链接 1中,我需要点击“显示更多结果”才能看到更多产品。

链接 2中,我需要按“加载更多”才能显示更多产品。

链接 3中,我只需要向下滚动就能看到更多产品。

链接 4中,我需要按“下一页”按钮才能获取更多产品。

每个网站的按钮都有不同的类或标签,那么我该如何判断是要按按钮还是向下滚动呢?

我最开始是用Selenium来做这个,但如果有其他更好的模块,我也很乐意尝试。

1 个回答

0

Scrapy其实不太适合你,因为你想要和JavaScript互动。你应该使用selenium。Firefox有一个selenium的插件,可以让你在浏览器上记录你的操作,然后把这些操作导出成Python代码。所以点击、加载和滚动这些操作都没问题。

要获取这个插件,可以按照这些步骤... http://www.wikihow.com/Download-Selenium-IDE-Addon

撰写回答