用于提取网页内容的Node.Js模块?
有人可以推荐一个Node.Js模块或Javascript库(不基于可读性),它可以用来从网页和RSS提要中提取内容吗?
我find了一个很好的PHP库,可以完成这个工作 – 但是寻找一个Node.Js模块,可以做同样的事情。
谢谢!
我为此写了一个Node.js模块,叫做'unfluff':
https://github.com/ageitgey/node-unfluff
希望这将解决您的问题。
Unfluff基于stream行的“python-goose”和“goose”(Scala)页面提取库,以防您熟悉这些库。
我会推荐cheerio 。 有几个很好的教程,包括这一个:
提取主文本也可以很好地从HTML中提取内容。 在我的情况下,日语(也许是CJK)的内容对node-unfluff
不稳定。