Tag: scrapy

使用scrapy python抓取NodeJs和AngularJs网站

我正在尝试使用scrapy python抓取网站,大部分网站已经成功完成,但是大多数网站都给出了难度,因为它们运行在Nodejs和angularjs框架或其他java框架上,scrapy抓取工具无法从网页中获取详细信息。 请在这里我需要你的关注。 期待你的最早的帮助。 在这里你可以find最初我用于testing基地的代码。 import scrapy from selenium import webdriver from scrapy.http import TextResponse class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation'] def parse(self, response): self.log('i have just visited the ' + response.url) yield{ 'product_name' : response.css('p.description.ng-binding > span::text').extract_first(), } 提前致谢。

使用Scrapy,得到“Error:ImportError:No module named testspiders.spiders.followall”

我正在尝试从脚本运行Scrapy,并一直在这里按照教程。 我遇到一个错误消息,指出Error: ImportError: No module named testspiders.spiders.followall 。 我一直在寻找解决scheme,但还没有find一个匹配。 我实际上是通过node.js来运行这个python脚本的,它有一个名为python-shell的模块,它只是允许你使用下面的简单代码运行一个python脚本: var PythonShell = require('python-shell'); PythonShell.run('my_script.py', function (err) { if (err) throw err; console.log('finished'); }); 逐字,我的代码是从scrapy网站复制的: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider from scrapy.utils.project import get_project_settings spider = FollowAllSpider(domain='scrapinghub.com') settings = get_project_settings() crawler = Crawler(settings) […]

Scrapy就像Nodejs的工具?

我想知道是否有像Scrapy这样的nodejs? 如果不是,你觉得使用简单的网页下载和parsing它使用cheerio? 有没有更好的办法。