我如何使用node.js来刮取需要validation的网站?
我遇到过很多教程,解释如何使用node.js来刮取不需要authentication/login的公共网站 。
有人可以解释如何刮掉需要使用node.jslogin的网站吗?
使用Mikeal的请求库,你需要启用这样的cookies支持:
var request = request.defaults({jar: true})
所以你首先应该在该站点上创build一个用户名(手动),并在向该站点发出POST请求时将用户名和密码作为parameter passing。 之后,服务器将响应一个请求会记住的cookie,这样你就可以访问需要你login到该网站的页面。
注意:如果在login页面使用类似reCaptcha的方法,则此方法不起作用。
或者使用superagent :
var superagent = require('superagent') var agent = superagent.agent();
agent
是一个持久的浏览器,它将处理获取和设置cookie,引用者等。正常情况下,只需要agent.get
, agent.post()
。
- 新用户注册后立即进行Passport身份validation
- expression3.0和护照authentication
- 用户login页面刷新不适用于Passport js
- 我使用auth0进行用户身份validation,并且我有一个针对CRUDpost(title,img,desc)的API。 如何进行CRUD API的authentication调用?
- 使用node.js和mongoose以及expressjs和passportjs进行身份validation
- 使用passport.js在node.js中进行身份validation后,redirect到上一页
- 未请求的Socket.IO连接
- Node.js SSLauthentication
- Express res.render不能使用Angular路由