Tag: 刮板

脚本浏览器Scapper

我可以用什么来实现以下,脚本浏览器或以其他方式向服务器请求,login,浏览网站,例如。 find链接并导航到这些链接。 现在,因为我进入NodeJS,所以我正在查看node.io。 它可以让你很容易地刮网站,但问题是当我试图张贴(login)我什么也没有回来! nodeio = require "node.io" nodeio.scrape -> @post "http://localhost/auth/login", { username: "username" password: "password" }, -> console.log "=====After Login=====" 但我只是得到 OK: Job complete 即使login失败,我应该login后console.log ? 那么我想也许最好是通过编写一个浏览器脚本来实现它,它会模拟更真实的请求?

为http请求延迟一个for循环

我刚刚开始使用JS和Node.js。 我试图build立一个简单的刮板作为第一个项目,使用Node.js和一些模块,如request和cheerio 。 我想在每个包含到数组中的域的每个http请求之间添加一个5秒的延迟。 你能解释一下怎么做吗? 这是我的代码: var request = require('request'); var arr = [ "http://allrecipes.com/", "http://www.gossip.fr/" ]; for(var i=0; i < arr.length; i++) { request(arr[i], function (error, response, body){ console.log('error:', error); console.log('statusCode:', response && response.statusCode); console.log('body:', body); }); }

如何刮成千上万的PDF文件的表格?

我有大约1,500个PDF文件,每个文件只有1页,并且具有相同的结构(例如http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf )。 我正在寻找的是一种迭代所有这些文件(如果可能,本地)的方法,并提取表的实际内容(如CSV,存储到SQLite数据库,无论)。 我很想在Node.js中这样做,但找不到合适的库来parsing这些东西。 你知道吗? 如果在Node.js中不可行,我也可以用Python编写,如果有更好的方法可用的话。