将MongoDB的Twitter推文转储到COSM

2024-04-23 08:44:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我想知道,为了运行一个非常简单的MR作业,将从Twitter流式API获得的大量tweet转储到COSMOS中的最佳方法应该是什么。你知道吗

我在考虑把收藏文档转换成CSV,可能每行一个,然后把它们转换成COSMOS。但我不确定是否需要配置单元在那里运行MR作业,或者我可以以更手动的方式运行作业。我在考虑用Python来实现这个目的,我更喜欢不用Java。你知道吗

谢谢


Tags: csv方法文档目的api作业方式流式
1条回答
网友
1楼 · 发布于 2024-04-23 08:44:39

我认为没有必要转储数据,可以使用MongoDB connector for Haddop。另外,这样的连接器允许您仅在处理数据时获取数据,从Hadoop的map进程需要的数据中获取记录。我的意思是,您不用使用默认的FileInputFormat,而是使用MongoInputFormat,它实现了InputFormat接口,从而提供了一种获取拆分列表的方法(这将是MongoDB中数据大小不变的分区,e、 例如,一个集合的chunck)和一个在拆分中获取记录的方法(例如,一个集合的chunck中的JSON文档)。你知道吗

这种连接器必须安装在集群的所有节点中;在我们的路线图中,以及我们自己的connector对CKAN的工作方式类似。九月底到期。你知道吗

也就是说,如果出于任何原因,您仍然希望将数据转储到HDFS,那么最好的办法是创建一个脚本,负责读取MongoDB数据并将其转换为类似NGSI的通知,这些通知可以被Cygnus理解;然后Cygnus将完成其余的工作。你知道吗

相关问题 更多 >