Tag: X射线

使用相同的classNameselect多个标签？: 使用这个语法： x('http://www.viadeo.com/fr/company/unicef', '.page-content', [{ img:'img@src', bio:'.pan-desc-description', org:'.pan-desc-footer-element @element-value', link: '.element-value a@href', **twitter:'.element-value a@href'** // I get the previous link not the twitter one }]).write('result.json') 网站内有多个具有该特定类名的项目，但只返回第一个。有没有办法抓住他们所有人，也许我可以做一个限制与回报？我很抱歉，如果它在文档中，我已经读了两遍，它看起来像没有明确说的任何地方。

通过X射线/节点刮黑客新闻: 我怎么能通过X射线/ nodejs刮黑客新闻（ https://news.ycombinator.com/ ）？我想从中得到这样的东西： [ {title1, comment1}, {title2, comment2}, … {"'Minimal' cell raises stakes in race to harness synthetic life", 48} … {title 30, comment 30} ] 有一个新闻表，但我不知道如何刮…每个网站上的故事由三列组成。这些没有一个是他们独一无二的父母。所以结构看起来像这样 <tbody> <tr class="spacer"> //Markup 1 <tr class="athing"> //Headline 1 ('.deadmark+ a' contains title) <tr class> //Meta Information 1 (.age+ a contains comments) <tr class="spacer"> […]

使用X射线和X射线幻像来抓取dynamic页面内容时发生致命错误: 我在节点上运行app.js时，在命令行中出现此错误： FATAL ERROR: v8::HandleScope::CreateHandle() Cannot create a handle without a HandleScope Abort trap: 6 这就是app.js的样子： var phantom = require('x-ray-phantom'); var Xray = require('x-ray'); var fs = require('fs'); x = new Xray().driver(phantom());; x('http://www.bbc.co.uk/news', '.most-popular__list panel-read li', [{ content: '' }])(function (err, results) { fs.writeFile('results.json', JSON.stringify(results, null, '\t')); }) 我的package.json { … "dependencies": { "phantomjs": "^1.9.19", "x-ray": […]

如何解决在X射线（NodeJS刮库）响应的编码？: 下面的脚本在我的NodeJS服务器上工作的很好，但是当我试图抓取一些西里尔语的网站时，很less返回这样的响应。脚本 x(url, { name: 'title', ogDescription: 'meta[property="og:description"]@content', metaDescription: 'meta[name="description"]@content', ogImage: 'meta[property="og:image"]@content', twitterImage: 'meta[name="name="twitter:image:src""]@content', metaImage: 'meta[name="image"]@content', headImage: 'head img@src', contentImage_1: '.content img@src', contentImage_2: '.image img@src' }) (function (err, obj) { var firstData = { name: [ obj.name ], description: [ obj.metaDescription, obj.ogDescription, ], image: [ obj.ogImage, obj.twitterImage, obj.metaImage, obj.headImage, obj.contentImage_1, obj.contentImage_2 ] } 不正确编码的响应示例 firstData […]

NodeJS x-ray web-scraper：如何关注链接并从子页面获取内容: 所以我试图用node.js x-ray抓取框架来刮取一些内容。虽然我可以从单个页面获取内容，但我无法理解如何关注链接并从一个子页面获取内容。 X射线githubconfiguration文件中有一个示例，但如果将代码更改为其他某个网站，则会返回空数据。我简化了我的代码，并抓住了这个例子的SO问题。以下工作正常： var Xray = require('x-ray'); var x = Xray(); x('http://stackoverflow.com/questions/9202531/minimizing-nexpectation-for-a-custom-distribution-in-mathematica', '#content', [{ title: '#question-header h1', question: '.question .post-text' }]) (function(err, obj) { console.log(err); console.log(obj); }) 这也适用： var Xray = require('x-ray'); var x = Xray(); x('http://stackoverflow.com/questions', '#questions .question-summary .summary', [{ title: 'h3', question: x('h3 a@href', '#content .question .post-text'), }]) (function(err, obj) […]