我怎样才能抓取网页find一个主题的链接/网站?

我真的不知道从哪个项目开始,所以请原谅这个模糊的标题。

当我谷歌“如何编程”,我想在一些可行的forms,search的结果。 我不知道是否可以用Google或其他方式search这个,但是如果不能,我怎样才能build立自己的软件来获取这些数据呢? 谷歌如何运行它的search?

我知道JavaScript和NodeJS – 我还需要学习什么? (我肯定可以想象某种数据库)。

用于存储数据的MongoDB ( mongoose )和用于刮取的PhantomJS (用于服务器端的无头浏览器)将是您最好的select。 我目前正在研究一个networking抓取工具来抓取两个网站的组合。 它工作得很好。

您将要使用PhantomJ加载谷歌,键入您的search,并从页面中获取HTML。 然后你可以使用像cheerio这样的库来处理HTML。 它是一个服务器端的jQuery库,用于DOMparsing。

然后点击结果的下一页,然后按照您的要求重复上述步骤。 从每个页面收集您需要的信息并将其存储在mongo中。

还有很多其他的事情,你将不得不担心,如如何处理validation码,IP阻塞等,但上述应该让你开始。