使用scrapy python抓取NodeJs和AngularJs网站

我正在尝试使用scrapy python抓取网站，大部分网站已经成功完成，但是大多数网站都给出了难度，因为它们运行在Nodejs和angularjs框架或其他java框架上，scrapy抓取工具无法从网页中获取详细信息。请在这里我需要你的关注。期待你的最早的帮助。

在这里你可以find最初我用于testing基地的代码。

import scrapy from selenium import webdriver from scrapy.http import TextResponse class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation'] def parse(self, response): self.log('i have just visited the ' + response.url) yield{ 'product_name' : response.css('p.description.ng-binding > span::text').extract_first(), }

提前致谢。

看看飞溅：这将允许您抓取基于JavaScript的网站。

您也可以创build自己的下载中间件，并使用selenium：如何编写自定义下载中间件的selenium和Scrapy？

希望这可以帮助。

Interesting Posts

从客户端传递给nodeJS时，string转换为Object

如何使用量angular器在canvas上的特定位置执行单击事件

为什么会用`execvp`全新安装node.js和量angular器错误没有这样的文件或目录？

为什么量angular器立即运行每一行代码？

发表angularjsforms到nodejs Express（Bad request）

Angularjs控制器显示未定义？

在MEAN堆栈应用程序中上传逻辑的适当位置是什么？

找不到模块的声明文件

在AngularJS本地保存会话有多安全？

没有导出成员Angular