用于提取网页内容的Node.Js模块?

有人可以推荐一个Node.Js模块或Javascript库(不基于可读性),它可以用来从网页和RSS提要中提取内容吗?

我find了一个很好的PHP库,可以完成这个工作 – 但是寻找一个Node.Js模块,可以做同样的事情。

谢谢!

我为此写了一个Node.js模块,叫做'unfluff':

https://github.com/ageitgey/node-unfluff

希望这将解决您的问题。

Unfluff基于stream行的“python-goose”和“goose”(Scala)页面提取库,以防您熟悉这些库。

我会推荐cheerio 。 有几个很好的教程,包括这一个:

http://maxogden.com/scraping-with-node.html

提取主文本也可以很好地从HTML中提取内容。 在我的情况下,日语(也许是CJK)的内容对node-unfluff不稳定。