使用scrapy python抓取NodeJs和AngularJs网站
我正在尝试使用scrapy python抓取网站,大部分网站已经成功完成,但是大多数网站都给出了难度,因为它们运行在Nodejs和angularjs框架或其他java框架上,scrapy抓取工具无法从网页中获取详细信息。 请在这里我需要你的关注。 期待你的最早的帮助。
在这里你可以find最初我用于testing基地的代码。
import scrapy from selenium import webdriver from scrapy.http import TextResponse class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation'] def parse(self, response): self.log('i have just visited the ' + response.url) yield{ 'product_name' : response.css('p.description.ng-binding > span::text').extract_first(), }
提前致谢。
看看飞溅 :这将允许您抓取基于JavaScript的网站。
您也可以创build自己的下载中间件,并使用selenium: 如何编写自定义下载中间件的selenium和Scrapy?
希望这可以帮助。
- AngularJS:http链调用和NodeJS的问题:在多个http调用中使用variables的问题
- 如何使用angular-file-upload在Node.js Express应用程序中获取上传的文件
- 在运行gulp app:serve rails时找不到模块'require-dir'错误
- Node Express – 存储和检索authentication令牌
- 从angular度$ locationProvider中的URL中删除#后的问题
- 从咕噜哟angular度的完整的项目select不同的环境?
- 在Node js上运行量angular器时出错
- 如何使用auth0和node.js在服务器中获取user.email?
- 如何使用socket.io与MEAN栈中的AngularJS进行通信