如何构建一个可以从任何网站提取特定信息的网络爬虫？

2024-04-28 18:06:31 发布

男 | 程序猿一只，喜欢编程写python代码。

所以我试图建立一个网络爬虫，我可以打开任何评论网站，让它相当可靠地刮除用户评论的文本。也就是说，我不想为亚马逊（Amazon）和库存过剩（Overstocked）这样的公司制造一个刮刀，我只想要一个刮刀，可以刮掉他们两个公司产品的评论，即使是为了牺牲准确性。我和我的一位教授进行了简短的交谈，他提到我基本上可以实现一些试探法，并从中收集数据（作为一个基本的例子，只要把p标记中的所有文本都取出来）。目前，我真的只是想找一些建议，看看该往哪个方向走。

（如果重要的话，目前我正在使用mechanize和lxml（Python）来抓取各个站点。）

谢谢！

Tags：用户文本网络 amazon 产品网站库存评论

0条回答

目前没有回答

如何构建一个可以从任何网站提取特定信息的网络爬虫？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何构建一个可以从任何网站提取特定信息的网络爬虫？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >