Node.js或ruby刮

我试图做一个应用程序，需要从多个网站抓取大量的数据。我尝试使用Ruby来抓取网站，但是像Mechanize这样的gem似乎只能抓取静态页面而不是dynamic内容。我有几个问题关于哪些这些语言，或任何其他语言，我应该使用这个项目（我正在考虑使用节点，因为应用程序中的相当一些元素必须实时）。

提前致谢！

你可以利用capybaragem来使用ruby来抓取javascript网站。

这样做的好处是可以通过selenium驱动使用实际的浏览器，如Firefox，Chrome和IE。或者你可以使用无头浏览器，如webkit（通过capybara-webkit）或phantomjs（通过poltergeist）。

当你使用水豚，只要确保使用一个JavaScript启用驱动程序，如selenium或水豚-webkit。我当时的司机是个极端主义者。

有一些关于如何在自述文件中使用远程站点的水豚的说明。

Node和Ruby是一个非常开放的问题。我的答案是build议Ruby，因为这是我的经验和偏好。 “结合”可能意味着很多东西，它们可以用于音乐会，各自发挥自己的优势。

当你说机械化不能删除dynamic内容的时候，你的确意味着要弄清楚哪些Ajax请求需要制作并做出来，这是一个更多的工作。另一方面，一旦你通常得到一个很好的JSON响应，很容易处理。机械化也比完整的浏览器解决scheme快得多，所以我认为通常值得额外的工作。

就Node而言，有潜力，也许曾经有一段时间，一些伟大的图书馆将会出现，但是我还没有看到任何可以弥补我想错过的ruby的东西。