node.js无法识别unfluff模块中的url

任何帮助将不胜感激。

我需要从网站提取数据,并发现节点不整合做这个工作(见https://github.com/ageitgey/node-unfluff )。 有两种方法可以调用这个模块。

首先从命令行工作! 其次,从不工作的节点js。

extractor = require('unfluff'); data = extractor('test.html'); console.log(data); 

输出: {"title":"","lang":null,"tags":[],"image":null,"videos":[],"text":""}

数据返回一个空的json对象。 看起来好像不能读取test.html。

它似乎不承认test.html。 该示例说,“我的HTML数据”,有没有办法获得HTML数据? 谢谢。

unfluff的文件:

提取器(html,language)

html:你想parsing的html

语言(可选):文档的双字母语言代码。 这将尽可能自动检测,但可能会出现您想覆盖它的情况。

你正在传递一个文件名,它期望文件的实际HTML被传入。

如果你正在脚本的情况下这样做,我build议做

 data = extractor(fs.readFileSync('test.html')); 

然而,如果你是在服务器上下文中执行此操作,或者某个时候阻止操作会成为问题,则应该执行以下操作:

 fs.readFile('test.html', function(err, html){ var data = extractor(html); console.log(data); ));