所以我试图建立一个网络爬虫,我可以打开任何评论网站,让它相当可靠地刮除用户评论的文本。也就是说,我不想为亚马逊(Amazon)和库存过剩(Overstocked)这样的公司制造一个刮刀,我只想要一个刮刀,可以刮掉他们两个公司产品的评论,即使是为了牺牲准确性。我和我的一位教授进行了简短的交谈,他提到我基本上可以实现一些试探法,并从中收集数据(作为一个基本的例子,只要把p标记中的所有文本都取出来)。目前,我真的只是想找一些建议,看看该往哪个方向走。
(如果重要的话,目前我正在使用mechanize和lxml(Python)来抓取各个站点。)
谢谢!
目前没有回答
相关问题 更多 >
编程相关推荐