我认为没有必要转储数据,可以使用MongoDB connector for Haddop。另外,这样的连接器允许您仅在处理数据时获取数据,从Hadoop的map进程需要的数据中获取记录。我的意思是,您不用使用默认的FileInputFormat,而是使用MongoInputFormat,它实现了InputFormat接口,从而提供了一种获取拆分列表的方法(这将是MongoDB中数据大小不变的分区,e、 例如,一个集合的chunck)和一个在拆分中获取记录的方法(例如,一个集合的chunck中的JSON文档)。你知道吗
我认为没有必要转储数据,可以使用MongoDB connector for Haddop。另外,这样的连接器允许您仅在处理数据时获取数据,从Hadoop的map进程需要的数据中获取记录。我的意思是,您不用使用默认的
FileInputFormat
,而是使用MongoInputFormat
,它实现了InputFormat
接口,从而提供了一种获取拆分列表的方法(这将是MongoDB中数据大小不变的分区,e、 例如,一个集合的chunck)和一个在拆分中获取记录的方法(例如,一个集合的chunck中的JSON文档)。你知道吗这种连接器必须安装在集群的所有节点中;在我们的路线图中,以及我们自己的connector对CKAN的工作方式类似。九月底到期。你知道吗
也就是说,如果出于任何原因,您仍然希望将数据转储到HDFS,那么最好的办法是创建一个脚本,负责读取MongoDB数据并将其转换为类似NGSI的通知,这些通知可以被Cygnus理解;然后Cygnus将完成其余的工作。你知道吗
相关问题 更多 >
编程相关推荐