MongoDB接收ETLdevise选项
当谈到MongoDB时,我是一个全新的开发者 ,但是我有过像Hbase和Accumulo这样的nosql商店的经验。 当我使用这些其他的nosql平台时,我最终编写了自己的数据摄取框架(通常是java),执行类似ETL的函数,以及内联富集。
我还没有find一个具有类似Mongofunction的工具,但也许我错过了它。
到目前为止,我有一个Logstash实例,并从多个来源收集日志,并将其作为JSON
保存到磁盘。 我知道有一个用于Logstash的mongodb输出插件 ,但是它没有任何configurationlogging应该如何索引的选项(即聚合文档等)。
为了我的需要,我想为每个通过Logstash到达的事件创build多个汇总文档 – 这需要对Mongo进行一些预处理和特定的插入。
底线 – 在我build立接收工具之前(可能在Python或节点) – 是否有东西已经存在?
尝试node-datapumps ,nodejs的一个etl工具。 只需从JSON对象中填充input缓冲区,在.process()中添加数据,然后使用mongo mixin写入mongodb。
Pentaho ETL对Mongodbfunction有很好的支持。
你可以看看http://community.pentaho.com/projects/data-integration/ http://wiki.pentaho.com/display/EAI/MongoDB+Output
我刚刚发现了一个ETL工具Talend Open Studio,它支持很多文件格式。 我只是用Talend在MongoDB上传了多个xml文件。 它也有一个Talend论坛的支持,可以find许多问答。