Tag: nlp

用nlp从句子中挑出主语+形容词对: python或node.js中是否有可以提取主题和形容词的包？例如，使用这句话： “不像橘子，苹果不多汁，但确实有紧缩感。” 我希望能够按照以下方式提取一些内容： { orange: 'juicy', apple: 'crunchy' } 这个function是否已经在任何nlp库中可用，或者我可以以某种方式训练分类器？ thx为build议栈向导。

在Meteor项目中使用自然的nodejs库: 我需要使用自然（ https://github.com/NaturalNode/natural ），一个Meteor项目中的nodejs库。如果我在我的Meteor项目中使用npm自然安装，它会抛出一堆错误，因为某些方面是不兼容的（HTML格式的html文件头中的doctype HTML，例如meteor不怎么样）。任何人都可以教我如何在meteor包中变成自然，或者告诉我如何解决这个问题？谢谢，

在node.js上训练分类器（自然 – NLP），用于意外的句子: 一些上下文：Node.js，Bot，自然模块。我想build立一个Bot，我正在使用自然模块来parsing和整体分类用户input。 var classifier = new natural.BayesClassifier(); classifier.addDocument('Hi', 'welcome'); classifier.addDocument('Hello', 'welcome'); classifier.addDocument('Hey', 'welcome'); classifier.addDocument('Good', 'welcome'); … //back to home classifier.addDocument('go back to home', 'back2home'); classifier.addDocument('go back home', 'back2home'); classifier.addDocument('return', 'back2home'); classifier.addDocument('return to home', 'back2home'); … classifier.train(); … classifier.classify(text); 那些testing工作正常： "I would like to go back home" => back2home "Hi" => welcome 一切都很好，但如果用户文本包含诸如“bla bla […]

如何在node.js中获取html页面语言？: 如何获得哪个语言的html页面是用nodejs写入的？我不在乎100％的准确性，只是简单的说出它是英文，俄文，德文等

有没有一个中文全文search引擎在nodejs: 我打算在我的Web应用程序中添加一个中文全文search引擎function。但是，我没有find任何现有的解决scheme。 nodejs中有search引擎的解决scheme，但不支持中文。所以我的问题是：如果在nodejs中有现成的解决scheme，那就太棒了。同时，我也很开放，知道如何从头开始build设。我也开放知道在其他编程语言是否有这样的解决scheme。作为search引擎的新手，我想从基础结构，关键组件和其他资源上听到更多的build议。谢谢，肖恩

构build您自己的NLP API: 我正在build造一个聊天机器人，我是NLP的新手。（api.ai＆AlchemyAPI对于我的用例来说太贵了，而wit.ai似乎是越野车，并且在此刻不断变化。）对于NLP专家，我可以轻松地在本地复制他们的服务吗？到目前为止，我的愿景（使用节点，但对Python开放）：通过StanfordNER提取实体意图通过NodeNatural的LogisticRegressionClassifier 用文本训练用户界面和validation/无效的button（任何预build的工具呢？）实体和意图，我只需要一个chatbot？ NodeNatural / StanfordNER与NLP-as-a-service相比有多好？我没有看到什么令人头疼的事情？

使用节点从句子中提取重要的单词: 我承认我没有在SO数据库中进行大量的search。我尝试阅读自然的NPM包，但似乎并没有提供的function。我想知道下面的要求是否有可能？我有一个数据库，有一个国家的所有城市的名单。我也有这些城市的评级（最好的地方住，最差的地方，最好的评级城市，更恶劣的城市等）。现在从用户界面，我想让用户input自由文本，从那里我应该能够search我的数据库。例如，住在加利福尼亚州或加利福尼亚州或加利福尼亚州的地方的最佳地点从上面的句子，我只想提取名词（可能），因为这将是我可以search的城市或国家的名称。然后提取'最好'意味着我可以sorting是一个特定的顺序等… 任何build议或指示寻找？我冒险有机会将这个问题标记为“有争议的”。但是我发布的原因是为了得到一些方向。

如何有效地计算文档stream中文档之间的相似度: 我收集文本文档（在Node.js中），其中一个文档i被表示为单词列表。考虑到新文件正在成为一种文件stream，计算这些文件之间的相似性的一种有效方法是什么？我目前在每个文档中的单词的归一化频率上使用了cos-相似性。由于可扩展性的问题，我不使用TF-IDF（词频，逆文档频率），因为我得到越来越多的文档。原来我的第一个版本是从当前可用的文档开始，计算一个大的Term-DocumentmatrixA ，然后计算S = A^T x A ，使得S(i, j) norm(doc(i))和norm(doc(j)) ）文档i和j之间的词频分别为doc(i)和doc(j)之间的相似度。对于新文件当我得到一个新的文档doc(k)时，我该怎么办？那么，我必须计算这个文件与以前所有文件的相似性，而不需要build立一个完整的matrix。我可以把doc(k) dot doc(j)的内积代入前面的所有j ，并且得到S(k, j) ，这很好。麻烦在Node.js中计算S非常长。实际上太长了！所以我决定创build一个C ++模块，它可以更快地完成整个任务。它确实！但我不能等待它，我应该能够使用中间结果。而我的意思是“不等它”是两个一个。等待计算完成，而且湾等待matrixAbuild立（这是一个很大的）。计算新的S(k, j)可以利用这样的事实：文档比所有给定单词（我用来构build整个matrixA ）的集合具有更less的单词。因此，在Node.js中看起来更快，避免了大量的额外资源来访问数据。但有没有更好的方法来做到这一点？注意：我开始计算S的原因是，我可以在Node.js中轻松地构buildA在那里我可以访问所有的数据，然后在C ++中进行matrix乘法，并将其返回到Node.js中，从而加快整个过程很多。但是现在计算机不可行，看起来没用。注2 ：是的，我不必计算整个S ，我可以计算右上angular的元素（或左下angular的元素），但这不是问题。时间计算问题不是那个顺序。

使用node.js和自然语言处理来处理多个单词短语: 我为node.js使用了非常酷的自然库。我正在试图训练我的分类器来匹配短语user experience 。我的问题是，如果我做这样的事情： classifier.addDocument(['user experience'], 'ux'); 它不匹配2个单词短语，我相信，因为它标记的话。如果我做这样的事情： classifier.addDocument(['user', 'experience'], 'ux'); 它的工作方式就像我想要的那样，但是我的问题是，我不想仅仅匹配user这个词，因为一篇文章可能会提及user多次包含这个词，它可能与用户体验无关，导致分类不准确。所以，我的问题是如何匹配使用NLP的2个或更多的单词短语？感谢您提前帮助。

Node.js或PHP中的模式识别algorithm？: 我想开始试验识别数据中的模式的algorithm。我处理许多types的序列（图像像素，文本input，用户移动），使用模式识别来试图从不同的数据集中提取有意义的数据是很有趣的。像大多数的networking一样，我的数据大部分是基于文本或基于整数键的。他们的任何类是否提供了检查/创buildPHP或Nodejs模式的基本框架？