Tag: 刮板

脚本浏览器Scapper: 我可以用什么来实现以下，脚本浏览器或以其他方式向服务器请求，login，浏览网站，例如。 find链接并导航到这些链接。现在，因为我进入NodeJS，所以我正在查看node.io。它可以让你很容易地刮网站，但问题是当我试图张贴（login）我什么也没有回来！ nodeio = require "node.io" nodeio.scrape -> @post "http://localhost/auth/login", { username: "username" password: "password" }, -> console.log "=====After Login=====" 但我只是得到 OK: Job complete 即使login失败，我应该login后console.log ？那么我想也许最好是通过编写一个浏览器脚本来实现它，它会模拟更真实的请求？

为http请求延迟一个for循环: 我刚刚开始使用JS和Node.js。我试图build立一个简单的刮板作为第一个项目，使用Node.js和一些模块，如request和cheerio 。我想在每个包含到数组中的域的每个http请求之间添加一个5秒的延迟。你能解释一下怎么做吗？这是我的代码： var request = require('request'); var arr = [ "http://allrecipes.com/", "http://www.gossip.fr/" ]; for(var i=0; i < arr.length; i++) { request(arr[i], function (error, response, body){ console.log('error:', error); console.log('statusCode:', response && response.statusCode); console.log('body:', body); }); }

如何刮成千上万的PDF文件的表格？: 我有大约1,500个PDF文件，每个文件只有1页，并且具有相同的结构（例如http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf ）。我正在寻找的是一种迭代所有这些文件（如果可能，本地）的方法，并提取表的实际内容（如CSV，存储到SQLite数据库，无论）。我很想在Node.js中这样做，但找不到合适的库来parsing这些东西。你知道吗？如果在Node.js中不可行，我也可以用Python编写，如果有更好的方法可用的话。