我如何使用node.js来刮取需要validation的网站?

我遇到过很多教程,解释如何使用node.js来刮取不需要authentication/login的公共网站 。

有人可以解释如何刮掉需要使用node.jslogin的网站吗?

使用Mikeal的请求库,你需要启用这样的cookies支持:

var request = request.defaults({jar: true}) 

所以你首先应该在该站点上创build一个用户名(手动),并在向该站点发出POST请求时将用户名和密码作为parameter passing。 之后,服务器将响应一个请求会记住的cookie,这样你就可以访问需要你login到该网站的页面。

注意:如果在login页面使用类似reCaptcha的方法,则此方法不起作用。

或者使用superagent :

 var superagent = require('superagent') var agent = superagent.agent(); 

agent是一个持久的浏览器,它将处理获取和设置cookie,引用者等。正常情况下,只需要agent.getagent.post()