Node.io,JSDOM或PhantomJs? 或者,YQL-data.html.cssselect?

我需要抓取一个特定的网站挖掘出一些相关的信息。 看起来像首先我必须search该网站,以获得相应的url,抓取时会给我的详细信息。

我们假设,searchurl是

example.com/city1/search.html?cat=category1&locality=location1&page=1 

这意味着,可以有city2,city3等类别可以是category2,category3等等,用于位置和页面。

我收集了所有的城市,类别,地点和页面可以增加,直到结果不为空。

得到所有的url后,我必须从每个url挖掘出详细的信息。 我已经看到,某些必要的信息可作为JavaScript的一部分。

现在,我已经看到了node.io,jsdom和phantomjs。 我也看到了yql。 由于我是新手,请根据您的经验向我build议,在这种情况下哪一个是最理想的。

如果你可以举一些例子,那就太棒了。

PhantomJS可以运行在你给它的URL的JavaScript,如果URL包含javascript / ajax内容非常有用。 YQL不会在网站上运行javascript / ajax,但它很快就能获得一些东西