抓取url \如何获取node.js中的dynamic链接

我正在使用js-crawler来抓取网站，现在遇到了CNN，它的着陆页链接的一部分在里面（由于某种原因dynamic生成的url）。事情是爬行者不真的碰脚本 – 我应该如何解决？我应该写我自己的代码除了我的node.js履带？有知道如何处理这种dynamic行为的高级爬虫吗？

让我的评论成为一个答案：

抓取客户端Javascript生成的内容是一个复杂的问题，甚至连Google都没有完全解决。

要真正做到这一点，唯一的方法就是使用某种无头浏览器，将其安全地放置在服务器上，将页面加载到类似浏览器的环境中，在该环境下它可以运行自己的脚本并生成自己的内容，然后可以检查产生的DOM。

即使这样，它也不一定会产生需要用户交互的内容（如点击标签显示一些内容）。

Interesting Posts

“后续的variables声明必须具有相同的types”

Javascript – 只需确定浏览器连接到哪个networking

在JavaScript中可能的networking协议

networking抓取：当使用Mikeal的node.js请求模块时，接近15％的结果是部分下载

如何解决，如果EAI_AGAIN错误发生在Facebook Messenger平台上？

服务工作人员不能以脱机模式与节点js服务器一起工作

路由器（代理）与NodeJS？

无法从stream浪主机访问节点快递应用程序

我如何使用node.jsdynamic内容页面？

Javascript：REGEX将所有相关url更改为Absolute