Tag: robots.txt

使用NodeJS查找域中的所有页面

我试图find一个域上的所有页面与节点。 我正在寻找Stackoverflow,但是我发现这是Ruby的这个线程: find一个域及其子域中的所有网页 – 我有同样的问题,但对于节点。 我也search了这个问题,但是我发现所有的东西都是找不到链接的刮板。 我也在寻找像“网站地图生成器”,“网页机器人”,“自动刮板”,“获取所有页面的域名与节点”,但没有带来任何结果。 我有一个需要处理的链接arrays的刮板,例如我有一个www.example.com/products/页面,在这里我想find所有现有的子页面,例如www.example.com/products/product1 .html,www.example.com/products/product2.html等。 你能给我一个提示,我怎么能在Node中实现它?

在Express中处理robots.txt的最明智的方法是什么?

我目前正在使用Express(Node.js)构build应用程序,我想知道什么是处理不同环境(开发,生产)的不同robots.txt最聪明的方法。 这就是我现在所拥有的,但我并不相信这个解决scheme,我认为它很肮脏: app.get '/robots.txt', (req, res) -> res.set 'Content-Type', 'text/plain' if app.settings.env == 'production' res.send 'User-agent: *\nDisallow: /signin\nDisallow: /signup\nDisallow: /signout\nSitemap: /sitemap.xml' else res.send 'User-agent: *\nDisallow: /' (注意:它是CoffeeScript) 应该有更好的办法。 你会怎么做? 谢谢。