Scrapy就像Nodejs的工具?

我想知道是否有像Scrapy这样的nodejs? 如果不是,你觉得使用简单的网页下载和parsing它使用cheerio? 有没有更好的办法。

我还没有见过如此强大的解决scheme来抓取/索引整个网站,如Python中的Scrapy,所以我个人使用Python Scrapy来抓取网站。

但是为了从页面中抓取数据,在nodejs中有casperjs。 这是一个非常酷的解决scheme。 它也适用于Ajax网站,例如angular-js页面。 Python Scrapy无法parsingajax页面。 因此,为了抓取一个或几个页面的数据,我宁愿使用CasperJs。

Cheerio比casperjs真的快,但是它不能和ajax页面一起工作,也没有像casperjs这样的代码结构。 所以我更喜欢casperjs,即使你可以使用cheerio包。

咖啡脚本示例:

casper.start 'https://reports.something.com/login', -> this.fill 'form', username: params.username password: params.password , true casper.thenOpen queryUrl, {method:'POST', data:queryData}, -> this.click 'input' casper.then -> get = (number) => value = this.fetchText("tr[bgcolor= '#AFC5E4'] > td:nth-of-type(#{number})").trim()