Tag: hadoop

node.js集成(使用npm包kerberos)与kerberized Hadoop集群

我们有一个启用了Kerberos的Hadoop hortonworks集群,我在其中一个数据节点上安装了node.js。我必须使node.js kerberized,开始我已经在node.js上安装了npm包kerberos。 为了连接node.js和kerberized Hadoop工具(如Kafka,Hive等),还需要执行其他哪些步骤。如果有人有这个示例,请分享或者如果您有其他select,请分享。

高内存/性能关键计算 – 架构方法观点

我需要一个架构观点和方法来解决以下问题: 介绍: 我们有一个~4M行的表称为Purchases 。 我们也有一个~5k行的表,称为Categories 。 另外,我们有一个~4k SubCategories的表。 我们正在使用T-SQL来存储数据。 在用户请求(在运行期间),服务器接收到大约10-15个可能参数的请求。 根据参数,我们采购,按类别和子类别进行分类,并进行一些计算。 “计算”的一些过程包括过滤,分类,重新安排采购领域,相互减less采购,增加一些其他采购,find储蓄等等。 这个过程是用户特定的,因此每个用户将根据他们的angular色获得不同的数据。 问题: 这个过程大约需要3-5分钟,我们希望把它裁掉。 以前,这个过程是通过webworkers(JS)在浏览器中完成的。 随着内存开始变大,大多数浏览器开始加载失败,我们已经离开了它。 然后,我们将服务移动到服务器(NodeJS),通过subprocess即时处理请求。 subprocess的原因:计算进程经过for循环大约5000倍(对于每个类别)并执行上述“计算”。 通过subprocess,我们能够将工作分配到#ofsubprocess中,如果我们运行了至less16个内核(16个subprocess),则可以获得更好的结果。 目前的处理时间下降到大约1.5-2分钟,但我们想看看我们是否有更好的select。 我明白它很难完全理解我们的目标,而没有看到任何代码,而是专门提出问题。 在运行时对半大数据进行计算的方法有哪些? 我们有一些想法: 使用SQL内存表,并在SQL中进行计算 使用azure色批处理服务 使用更大的机器(〜32-64内核,如果我们不能得到任何其他的想法,这可能是我们最好的select,但是当然,成本增加了很多,但是我们接受成本会增加的事实) 步入hadoop生态系统(或其他大数据生态系统) 其他一些有用的事实: 我们的购买量约为1GB (对于内存计算来说有点过大) 我们正在考虑在redis上进行预计算和caching,以便为客户端准备好一些数据(我们将使用他们的帐户中的参数设置每天预先计算,但客户端往往会频繁更改这些参数,因此我们有有一些有效的方式来处理未caching和预先计算的数据) 如果我们可以提供更多的信息来更好地理解我们的困境,请发表评论,我将尽可能提供更多的信息。 如果可能的话,将会有太多的代码粘贴到这里来完全理解algorithm,因此我想尝试用单词来提供我们的问题。

ElasticSearch重新启动花费很长时间

我有一个四节点的ElasticSearch集群。当我将大约100G的数据插入集群后,我重新启动集群。我发现恢复碎片需要花费大量的时间。我注意到: 所有的主分片都通过网关从本地节点恢复,恢复非常快。 所有副本分片从主分片中恢复,我发现副本分片似乎从主分片中的节点复制到集群中的另一个节点。 在完成第一次长时间重新启动后,然后closures群集并再次重新启动群集,只需花费几分钟的时间 我很困惑,为什么我的分片再次复制时,我重新启动我的集群,我的节点中的原始副本数据在哪里? 我已经阅读了一些相关的问题,例如: 在elasticsearch中重新启动节点后快速恢复 https://www.elastic.co/guide/en/elasticsearch/reference/1.7/indices-synced-flush.html 但它不起作用,当我第一次重新启动群集时,是否可以在节点上停止碎片迁移?

Node.js,Hbase:无法连接到zookeeper

使用hbase-rpc-client并尝试连接到Zookeper,出现以下错误: 无法连接到zookeeper。 zkHosts:[my_host_name:2181] zkRoot:'/ hbase' 我知道主机和端口是正确的,因为我可以在Software Attributes部分的/ master-status中看到它: Zookeeper Quorum:my_host_name:2181 Zookeeper基本path:/ hbase 此外,我使用完全相同的configurationZooKeeper主机名:端口连接到我的Hbase与HareDBClient,它的工作原理。 nmap myhostname -p 2181结果nmap myhostname -p 2181 : PORT:2181 / tcp 状态:打开 服务:未知 版本: Hadoop:2.7.3 Hbase:1.3 Node.js:6.9.1 hbase-rpc-client:0.1.10 我意识到, hbase-rpc-client的最后支持版本的hbase是1.2.x. 任何人都可以确认无法使用hbase 1.3的软件包,如果是的话,推荐一些最新的工具来连接node.js到hbase? 因为在研究过程中没有出现比1.2.x更接近1.3的情况。 或者我只是缺less我的configuration中的东西?

我应该使用哪个nodejs库来写入HDFS?

我有一个nodejs应用程序,我想将数据写入hadoop HDFS文件系统。 我看到两个主要的nodejs库可以做到这一点:node-hdfs和node-webhdfs。 有人试过了吗? 任何提示? 我应该在生产中使用哪一个? 我倾向于使用node-webhdfs,因为它使用WebHDFS REST API。 node-hdfs似乎是一个c ++绑定。 任何帮助将不胜感激。

HBase:节俭vsrestperformance

我知道在HBO上有一些关于REST和Thrift的StackOverflow的文章,但是我想关注一下性能问题。 我一直在使用Node.js中的以下库来连接到一个HBase实例: node-hbase: https : //github.com/wdavidw/node-hbase 节点 – 节俭: https : //github.com/apache/thrift/tree/trunk/lib/nodejs 在弄清楚为什么我不能得到Thrift网关的响应后,我终于得到了两个脚本运行,结果如下(每个输出相当于1000个操作完成): ┌─[mt@Marcs-MacBook-Pro]─[~/Sources/node-hbase] └──╼ node hbase.js hbase-write: 99ms hbase-write: 3412ms hbase-write: 3854ms hbase-write: 3924ms hbase-write: 3808ms hbase-write: 9035ms hbase-read: 216ms hbase-read: 4676ms hbase-read: 3908ms hbase-read: 3498ms hbase-read: 4139ms hbase-read: 3781ms completed ┌─[mt@Marcs-MacBook-Pro]─[~/Sources/node-hbase] └──╼ node thrift.js hbase-write: 4ms hbase-write: 931ms hbase-write: 1061ms hbase-write: 988ms hbase-write: […]