Tag: hadoop

node.js集成（使用npm包kerberos）与kerberized Hadoop集群: 我们有一个启用了Kerberos的Hadoop hortonworks集群，我在其中一个数据节点上安装了node.js。我必须使node.js kerberized，开始我已经在node.js上安装了npm包kerberos。为了连接node.js和kerberized Hadoop工具（如Kafka，Hive等），还需要执行其他哪些步骤。如果有人有这个示例，请分享或者如果您有其他select，请分享。

高内存/性能关键计算 – 架构方法观点: 我需要一个架构观点和方法来解决以下问题：介绍：我们有一个~4M行的表称为Purchases 。我们也有一个~5k行的表，称为Categories 。另外，我们有一个~4k SubCategories的表。我们正在使用T-SQL来存储数据。在用户请求（在运行期间），服务器接收到大约10-15个可能参数的请求。根据参数，我们采购，按类别和子类别进行分类，并进行一些计算。 “计算”的一些过程包括过滤，分类，重新安排采购领域，相互减less采购，增加一些其他采购，find储蓄等等。这个过程是用户特定的，因此每个用户将根据他们的angular色获得不同的数据。问题：这个过程大约需要3-5分钟，我们希望把它裁掉。以前，这个过程是通过webworkers（JS）在浏览器中完成的。随着内存开始变大，大多数浏览器开始加载失败，我们已经离开了它。然后，我们将服务移动到服务器（NodeJS），通过subprocess即时处理请求。 subprocess的原因：计算进程经过for循环大约5000倍（对于每个类别）并执行上述“计算”。通过subprocess，我们能够将工作分配到#ofsubprocess中，如果我们运行了至less16个内核（16个subprocess），则可以获得更好的结果。目前的处理时间下降到大约1.5-2分钟，但我们想看看我们是否有更好的select。我明白它很难完全理解我们的目标，而没有看到任何代码，而是专门提出问题。在运行时对半大数据进行计算的方法有哪些？我们有一些想法：使用SQL内存表，并在SQL中进行计算使用azure色批处理服务使用更大的机器（〜32-64内核，如果我们不能得到任何其他的想法，这可能是我们最好的select，但是当然，成本增加了很多，但是我们接受成本会增加的事实）步入hadoop生态系统（或其他大数据生态系统）其他一些有用的事实：我们的购买量约为1GB （对于内存计算来说有点过大）我们正在考虑在redis上进行预计算和caching，以便为客户端准备好一些数据（我们将使用他们的帐户中的参数设置每天预先计算，但客户端往往会频繁更改这些参数，因此我们有有一些有效的方式来处理未caching和预先计算的数据）如果我们可以提供更多的信息来更好地理解我们的困境，请发表评论，我将尽可能提供更多的信息。如果可能的话，将会有太多的代码粘贴到这里来完全理解algorithm，因此我想尝试用单词来提供我们的问题。

ElasticSearch重新启动花费很长时间: 我有一个四节点的ElasticSearch集群。当我将大约100G的数据插入集群后，我重新启动集群。我发现恢复碎片需要花费大量的时间。我注意到：所有的主分片都通过网关从本地节点恢复，恢复非常快。所有副本分片从主分片中恢复，我发现副本分片似乎从主分片中的节点复制到集群中的另一个节点。在完成第一次长时间重新启动后，然后closures群集并再次重新启动群集，只需花费几分钟的时间我很困惑，为什么我的分片再次复制时，我重新启动我的集群，我的节点中的原始副本数据在哪里？我已经阅读了一些相关的问题，例如：在elasticsearch中重新启动节点后快速恢复 https://www.elastic.co/guide/en/elasticsearch/reference/1.7/indices-synced-flush.html 但它不起作用，当我第一次重新启动群集时，是否可以在节点上停止碎片迁移？

Node.js，Hbase：无法连接到zookeeper: 使用hbase-rpc-client并尝试连接到Zookeper，出现以下错误：无法连接到zookeeper。 zkHosts：[my_host_name：2181] zkRoot：'/ hbase' 我知道主机和端口是正确的，因为我可以在Software Attributes部分的/ master-status中看到它： Zookeeper Quorum：my_host_name：2181 Zookeeper基本path：/ hbase 此外，我使用完全相同的configurationZooKeeper主机名：端口连接到我的Hbase与HareDBClient，它的工作原理。 nmap myhostname -p 2181结果nmap myhostname -p 2181 ： PORT：2181 / tcp 状态：打开服务：未知版本： Hadoop：2.7.3 Hbase：1.3 Node.js：6.9.1 hbase-rpc-client：0.1.10 我意识到， hbase-rpc-client的最后支持版本的hbase是1.2.x. 任何人都可以确认无法使用hbase 1.3的软件包，如果是的话，推荐一些最新的工具来连接node.js到hbase？因为在研究过程中没有出现比1.2.x更接近1.3的情况。或者我只是缺less我的configuration中的东西？

我应该使用哪个nodejs库来写入HDFS？: 我有一个nodejs应用程序，我想将数据写入hadoop HDFS文件系统。我看到两个主要的nodejs库可以做到这一点：node-hdfs和node-webhdfs。有人试过了吗？任何提示？我应该在生产中使用哪一个？我倾向于使用node-webhdfs，因为它使用WebHDFS REST API。 node-hdfs似乎是一个c ++绑定。任何帮助将不胜感激。

HBase：节俭vsrestperformance: 我知道在HBO上有一些关于REST和Thrift的StackOverflow的文章，但是我想关注一下性能问题。我一直在使用Node.js中的以下库来连接到一个HBase实例： node-hbase： https ： //github.com/wdavidw/node-hbase 节点 – 节俭： https ： //github.com/apache/thrift/tree/trunk/lib/nodejs 在弄清楚为什么我不能得到Thrift网关的响应后，我终于得到了两个脚本运行，结果如下（每个输出相当于1000个操作完成）： ┌─[mt@Marcs-MacBook-Pro]─[~/Sources/node-hbase] └──╼ node hbase.js hbase-write: 99ms hbase-write: 3412ms hbase-write: 3854ms hbase-write: 3924ms hbase-write: 3808ms hbase-write: 9035ms hbase-read: 216ms hbase-read: 4676ms hbase-read: 3908ms hbase-read: 3498ms hbase-read: 4139ms hbase-read: 3781ms completed ┌─[mt@Marcs-MacBook-Pro]─[~/Sources/node-hbase] └──╼ node thrift.js hbase-write: 4ms hbase-write: 931ms hbase-write: 1061ms hbase-write: 988ms hbase-write: […]

Tag: hadoop

node.js集成（使用npm包kerberos）与kerberized Hadoop集群

高内存/性能关键计算 – 架构方法观点

ElasticSearch重新启动花费很长时间

Node.js，Hbase：无法连接到zookeeper

我应该使用哪个nodejs库来写入HDFS？

HBase：节俭vsrestperformance

谷歌分析通过Node.js代理

在select-mongoDB中计数子查询

JSZip提取文件对象

麻烦本地安装凉亭

工作区设置权限被拒绝

如何获取所有请求的状态到nodejs中的一个API

当航行升降时，orm无法载入

文件循环function

如何不使用sendHandle丢失数据？

PHP的base64_encode结果不类似于JavaScript的编码结果

人类如何阅读json winston日志文件？

从javascript Node.js调用mongoexport

错误：找不到模块“连接”

使用jQuery与node.js的错误

根据子文档值searchmongodb文档