Tag: 文本

用于提取网页内容的Node.Js模块?

有人可以推荐一个Node.Js模块或Javascript库(不基于可读性),它可以用来从网页和RSS提要中提取内容吗? 我find了一个很好的PHP库,可以完成这个工作 – 但是寻找一个Node.Js模块,可以做同样的事情。 谢谢!

将存储在内存中的string传递给pdftotext,antiword,catdoc等

是否有可能调用CLI工具,如pdftotext,antiword,catdoc(文本提取脚本)传递string而不是文件? 目前,我阅读PDF文件与child_process.spawn调用pdftotext。 我产生一个新的进程,并将结果存储在一个新的variables。 一切工作正常。 我想从fs.readFile而不是文件本身传递binary文件: fs.readFile('./my.pdf', (error, binary) => { // Call pdftotext with child_process.spawn passing the binary. let event = child_process.spawn('pdftotext', [ // Args here! ]); }); 我怎样才能做到这一点?