使用NodeJS查找域中的所有页面

我试图find一个域上的所有页面与节点。 我正在寻找Stackoverflow,但是我发现这是Ruby的这个线程: find一个域及其子域中的所有网页 – 我有同样的问题,但对于节点。 我也search了这个问题,但是我发现所有的东西都是找不到链接的刮板。 我也在寻找像“网站地图生成器”,“网页机器人”,“自动刮板”,“获取所有页面的域名与节点”,但没有带来任何结果。

我有一个需要处理的链接arrays的刮板,例如我有一个www.example.com/products/页面,在这里我想find所有现有的子页面,例如www.example.com/products/product1 .html,www.example.com/products/product2.html等。

你能给我一个提示,我怎么能在Node中实现它?

看一下Crawler( https://www.npmjs.org/package/crawler )。 您可以使用它来抓取网站并保存链接。

爬虫是一个用Nodejs编写的networking蜘蛛。 它为您提供了jQuery在服务器上的全部function,可以asynchronous地parsing下载的大量页面。 刮刮应该是简单而有趣的!