有没有现成的批量日志文件聚合解决方案?
我想从多个节点导出日志文件(比如apache的访问日志和错误日志),然后把这些数据批量汇总,作为一个定时任务来执行。我看到过很多处理流数据的解决方案(比如说scribe)。我希望能找到一个工具,让我可以灵活地定义数据的去向。这个需求是因为我想把数据存到HDFS里。
我还没找到一个支持批量处理的工具。在我自己重新开发一个之前,我想先问问StackOverflow的朋友们有没有好的建议。
如果已经有现成的Python解决方案,那就更好了。
4 个回答
0
Scribe可以满足你的需求,它有一个版本(链接),可以从多个来源收集日志,达到一定数量后会把所有内容存储到HDFS里。我用过这个,效果很好。不过编译起来有点复杂,如果你遇到什么问题,可以问我。
0
看看Zomhg吧,它是一个用来处理日志文件的系统,主要是通过Hbase和Hdfs来进行数据汇总和报告的。你可以在这里找到它:http://github.com/zohmg/zohmg
1
我们使用 http://mergelog.sourceforge.net/ 来合并我们所有的Apache日志。