node.js无法识别unfluff模块中的url
任何帮助将不胜感激。
我需要从网站提取数据,并发现节点不整合做这个工作(见https://github.com/ageitgey/node-unfluff )。 有两种方法可以调用这个模块。
首先从命令行工作! 其次,从不工作的节点js。
extractor = require('unfluff'); data = extractor('test.html'); console.log(data);
输出: {"title":"","lang":null,"tags":[],"image":null,"videos":[],"text":""}
数据返回一个空的json对象。 看起来好像不能读取test.html。
它似乎不承认test.html。 该示例说,“我的HTML数据”,有没有办法获得HTML数据? 谢谢。
unfluff
的文件:
提取器(html,language)
html:你想parsing的html
语言(可选):文档的双字母语言代码。 这将尽可能自动检测,但可能会出现您想覆盖它的情况。
你正在传递一个文件名,它期望文件的实际HTML被传入。
如果你正在脚本的情况下这样做,我build议做
data = extractor(fs.readFileSync('test.html'));
然而,如果你是在服务器上下文中执行此操作,或者某个时候阻止操作会成为问题,则应该执行以下操作:
fs.readFile('test.html', function(err, html){ var data = extractor(html); console.log(data); ));