什么是在node.js屏幕抓取最优雅的方式?

我正在一起使用在node.js中使用大量屏幕抓取的networking应用程序。 我觉得自己在每一个angular落都要面对潮stream。 必须有一个更简单的方法来做到这一点。 最值得注意的是,两件事情是令人恼火的:

  1. Cookie传播。 我可以将“set-cookie”数组从响应头中取出,但是执行string操作来将数组parsing出数组感觉非常恶心。

  2. redirect以下。 我希望每个请求都能在302状态码返回时通过redirect。

我遇到了两件看起来很有用的东西,但最后还是无法使用:

  • http://zombie.labnotes.org/ ,但它没有HTTPS支持,所以我不能使用它。

  • http://www.phantomjs.org/ ,但不能使用它,因为它不(看起来)与node.js集成。 这也是我所做的很重的。

有没有JavaScript的screenscraping-esque图书馆传播cookies,遵循redirect,并支持HTTPS? 任何关于如何使这更容易的指针?

原来有人为node.js制作了一个phantomjs模块:

https://github.com/sgentle/phantomjs-node

虽然幻像相当重要,但它也支持SSL,cookies以及一般浏览器支持的所有其他function(毕竟它是一个webkit浏览器)。

给它一个镜头,它可能正是你在找什么。