如何将HBase作为Hadoop流式作业的数据源

1 投票
1 回答
1246 浏览
提问于 2025-04-18 00:16

有没有办法把Hbase表当作Hadoop流处理工作的数据源?具体来说,我想运行一个用Python写的Hadoop流处理工作。当输入指定为HDFS上的一个文件夹时,这个方法效果很好。但我找不到关于如何从Hbase表读取数据的任何文档。

这个功能被支持吗?还是说我必须先写一段Java代码,把数据从Hbase转到HDFS,然后再运行流处理工作?

我使用的是Cloudera的Hbase 0.94。

(这里已经有一个类似的问题 在这里。不过它指向的是一个第三方的解决方案,并没有得到积极的维护。我希望这个功能能在Hbase中得到支持。)

1 个回答

0

我会用Pig来加载数据,然后把这些数据输入到一个流式的Python应用程序中。

你可以在这里查看: http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream

撰写回答