迭代node.js请求函数

这个问题是关于node.js中的一个爬虫。给他一个start_url ，他抓取的URL，并“推”到一个。 json文件（ output.json ）。目前，他仅使用start_url运行请求函数，并将收集的URL保存在output.json 。我希望他通过用第一个收集的URLreplacestart_url并重新收集链接来使用保存的URL …等等…

 var fs = require('fs'); var request = require('request'); var cheerio = require('cheerio'); var start_url = ["http://stackoverflow.com/"] var req = function(url){ request(url, function(error, response, html){ var $ = cheerio.load(html); var data = []; $("a").each(function() { var link = $(this); var exurls = {exurl: new Array(link.attr("href"))} data.push(exurls); // Queue "exurls" for "start_url" and call the same function with the new URL (endless loop) // save to "output.json" from time to time, so you can stop it anytime }); fs.writeFile("output.json", JSON.stringify(data, null, 4), function(err){ if(err){ console.log(err); } else { console.log("File successfully written!"); } }); }); } for (var i = 0; i < start_url.length; i++){ req(start_url[i]); }

所以你可以做的是recursion地进行函数调用。下面的例子应该工作：

 var fs = require('fs'); var request = require('request'); var cheerio = require('cheerio'); var start_url = ["http://stackoverflow.com/"] var req = function(url){ var count = 0; request(url, function(error, response, html){ var $ = cheerio.load(html); $("a").each(function() { var link = $(this); var exurls = {exurl: new Array(link.attr("href"))} start_url.push(exurls); // Queue "exurls" for "start_url" and call the same function with the new URL (endless loop) // save to "output.json" from time to time, so you can stop it anytime }); try { fs.writeFileSync("output.json"); console.log("File successfully written!"); }catch(err){ console.log(err); } ++count; if(start_url.length > count) { req(start_url[count]); } }); } return req(start_url[0]);

迭代node.js请求函数

Node.JS将可能有连字符的大写string拆分成数组

从数组中find国家坐标

与nodejs，mongoose和JSON对象数组进行连接

数组元素是未定义的，即使在推入元素后

$ in在环回中不起作用

按浮点值sorting数组

在MongoDB中更新一个数组

如果数组包含id mongoose，则获取数组

原型中的数组和对象 – 不作为参考处理

创build.json文件的代码片段不起作用