Apache Nutch有何替代方案?
我在寻找一个类似下面的解决方案:
1- 在搜索引擎(比如谷歌、雅虎等)中搜索一个给定的关键词
2- 接收搜索结果(链接)
3- 访问这些链接并提取内容等等……
经过简单的研究,我发现了“Apache Nutch”,我只是想知道你们的建议。
你们对这个解决方案有什么推荐吗?
有没有比我说的更好的解决方案?
我是一名Python开发者,对“Scrapy”等工具比较熟悉。
谢谢。
1 个回答
1
如果你想一步一步地学习如何搭建一个搜索引擎,可以访问这个链接:http://blog.building-blocks.com/technical-tips/building-a-search-engine-with-nutch-and-solr-in-10-minutes