node.js无法识别unfluff模块中的url

任何帮助将不胜感激。

我需要从网站提取数据，并发现节点不整合做这个工作（见https://github.com/ageitgey/node-unfluff ）。有两种方法可以调用这个模块。

首先从命令行工作！其次，从不工作的节点js。

extractor = require('unfluff'); data = extractor('test.html'); console.log(data);

输出： {"title":"","lang":null,"tags":[],"image":null,"videos":[],"text":""}

数据返回一个空的json对象。看起来好像不能读取test.html。

它似乎不承认test.html。该示例说，“我的HTML数据”，有没有办法获得HTML数据？谢谢。

unfluff的文件：

提取器（html，language）

html：你想parsing的html

语言（可选）：文档的双字母语言代码。这将尽可能自动检测，但可能会出现您想覆盖它的情况。

你正在传递一个文件名，它期望文件的实际HTML被传入。

如果你正在脚本的情况下这样做，我build议做

 data = extractor(fs.readFileSync('test.html'));

然而，如果你是在服务器上下文中执行此操作，或者某个时候阻止操作会成为问题，则应该执行以下操作：

 fs.readFile('test.html', function(err, html){ var data = extractor(html); console.log(data); ));