如何使用Node.js创buildnetworking爬虫?

我最近对search引擎的工作方式感兴趣,并且发现他们使用“bots”或“webcrawlers”。 我立即开始想知道这些事情是如何工作的,我想创造一个! 所以,首先:你如何制作一个从服务器请求页面的程序? 如果你给了我一个JavaScript的简单例子(我正在使用Node作为一个正常的脚本语言运行),这将是非常棒的。 接下来,是否有一个Node模块让我来解释HTML? 为我创build一个DOM所以我可以循环所有的链接等? 纠正我,如果我错了,但我想这是这样做的…在C + +,C或Python的任何例子也受到热烈欢迎,虽然我更喜欢JS或Python,因为我更熟悉高级脚本语言。

  • 获取HTTP页面: 节点http.get (例如那里)
  • DOM文档: jsdom (也包括例子)