我如何使用node.js来刮取需要validation的网站？

我遇到过很多教程，解释如何使用node.js来刮取不需要authentication/login的公共网站。

有人可以解释如何刮掉需要使用node.jslogin的网站吗？

使用Mikeal的请求库，你需要启用这样的cookies支持：

var request = request.defaults({jar: true})

所以你首先应该在该站点上创build一个用户名（手动），并在向该站点发出POST请求时将用户名和密码作为parameter passing。之后，服务器将响应一个请求会记住的cookie，这样你就可以访问需要你login到该网站的页面。

注意：如果在login页面使用类似reCaptcha的方法，则此方法不起作用。

或者使用superagent ：

 var superagent = require('superagent') var agent = superagent.agent();

agent是一个持久的浏览器，它将处理获取和设置cookie，引用者等。正常情况下，只需要agent.get ， agent.post() 。