刮一个网页,并通过点击button导航

我想在服务器端执行以下操作:

1)刮网页
2)模拟该页面上的点击,然后导航到新页面。
3)刮新页面
4)模拟新页面上的一些button点击
5)通过json或其他方式将数据发送回客户端

我正在考虑与Node.js一起使用它。

但我很困惑,我应该使用哪个模块
a)僵尸
b)Node.io
c)Phantomjs
d)JSDOM
e)还有其他的东西

我已经安装了节点io,但无法通过命令提示符运行它。

PS:我在Windows 2008服务器上工作

Zombie.js和Node.io在JSDOM上运行,因此你的select要么与JSDOM(或任何等效包装),无头浏览器(PhantomJS,SlimerJS)或Cheerio。

  • JSDOM相当慢,因为它必须在Node.js中重新创buildDOM和CSSOM。
  • PhantomJS / SlimerJS是正确的无头浏览器,因此性能是好的,那些也是非常可靠的。
  • Cheerio是JSDOM的轻量级替代品。 它不会在Node.js中重新创build整个页面(它只是下载和parsingDOM – 不执行JavaScript)。 因此,你不能真正点击button/链接,但它是非常快的刮网页。

根据你的要求,我可能会像一个无头的浏览器。 特别是,我会selectCasperJS,因为它有一个很好的和富有performance力的API,它是快速和可靠的(它不需要重新分析和渲染像JSDOM那样的dom或css的轮子),而且很容易与button和链接等元素进行交互。

您在CasperJS中的工作stream程应该看起来像这样:

casper.start(); casper .then(function(){ console.log("Start:"); }) .thenOpen("https://www.domain.com/page1") .then(function(){ // scrape something this.echo(this.getHTML('h1#foobar')); }) .thenClick("#button1") .then(function(){ // scrape something else this.echo(this.getHTML('h2#foobar')); }) .thenClick("#button2") thenOpen("http://myserver.com", { method: "post", data: { my: 'data', } }, function() { this.echo("data sent back to the server") }); casper.run(); 

您列出的模块执行以下操作:

  • Phantomjs /僵尸 – 模拟浏览器(无头 – 实际上没有显示)。 可以用于刮动静态或dynamic。 或者testing你的html页面。
  • Node.io/jsdom – webscraping:从页面提取数据(静态)。

看着你的要求,你可以使用幻影或僵尸。

Interesting Posts