如何构建一个可以从任何网站提取特定信息的网络爬虫?

2024-04-28 18:06:31 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我试图建立一个网络爬虫,我可以打开任何评论网站,让它相当可靠地刮除用户评论的文本。也就是说,我不想为亚马逊(Amazon)和库存过剩(Overstocked)这样的公司制造一个刮刀,我只想要一个刮刀,可以刮掉他们两个公司产品的评论,即使是为了牺牲准确性。我和我的一位教授进行了简短的交谈,他提到我基本上可以实现一些试探法,并从中收集数据(作为一个基本的例子,只要把p标记中的所有文本都取出来)。目前,我真的只是想找一些建议,看看该往哪个方向走。

(如果重要的话,目前我正在使用mechanize和lxml(Python)来抓取各个站点。)

谢谢!


Tags: 用户文本网络amazon产品网站库存评论