Tag: X射线

NodeJS X射线隐藏IP地址

使用NodeJS / X-Ray向外部站点发送请求时,是否可以更改IP地址和用户代理?

使用相同的classNameselect多个标签?

使用这个语法: x('http://www.viadeo.com/fr/company/unicef', '.page-content', [{ img:'img@src', bio:'.pan-desc-description', org:'.pan-desc-footer-element @element-value', link: '.element-value a@href', **twitter:'.element-value a@href'** // I get the previous link not the twitter one }]).write('result.json') 网站内有多个具有该特定类名的项目,但只返回第一个。 有没有办法抓住他们所有人,也许我可以做一个限制与回报? 我很抱歉,如果它在文档中,我已经读了两遍,它看起来像没有明确说的任何地方。

通过X射线/节点刮黑客新闻

我怎么能通过X射线/ nodejs刮黑客新闻( https://news.ycombinator.com/ )? 我想从中得到这样的东西: [ {title1, comment1}, {title2, comment2}, … {"'Minimal' cell raises stakes in race to harness synthetic life", 48} … {title 30, comment 30} ] 有一个新闻表,但我不知道如何刮…每个网站上的故事由三列组成。 这些没有一个是他们独一无二的父母。 所以结构看起来像这样 <tbody> <tr class="spacer"> //Markup 1 <tr class="athing"> //Headline 1 ('.deadmark+ a' contains title) <tr class> //Meta Information 1 (.age+ a contains comments) <tr class="spacer"> […]

使用X射线和X射线幻像来抓取dynamic页面内容时发生致命错误

我在节点上运行app.js时,在命令行中出现此错误: FATAL ERROR: v8::HandleScope::CreateHandle() Cannot create a handle without a HandleScope Abort trap: 6 这就是app.js的样子: var phantom = require('x-ray-phantom'); var Xray = require('x-ray'); var fs = require('fs'); x = new Xray().driver(phantom());; x('http://www.bbc.co.uk/news', '.most-popular__list panel-read li', [{ content: '' }])(function (err, results) { fs.writeFile('results.json', JSON.stringify(results, null, '\t')); }) 我的package.json { … "dependencies": { "phantomjs": "^1.9.19", "x-ray": […]

如何解决在X射线(NodeJS刮库)响应的编码?

下面的脚本在我的NodeJS服务器上工作的很好,但是当我试图抓取一些西里尔语的网站时,很less返回这样的响应。 脚本 x(url, { name: 'title', ogDescription: 'meta[property="og:description"]@content', metaDescription: 'meta[name="description"]@content', ogImage: 'meta[property="og:image"]@content', twitterImage: 'meta[name="name="twitter:image:src""]@content', metaImage: 'meta[name="image"]@content', headImage: 'head img@src', contentImage_1: '.content img@src', contentImage_2: '.image img@src' }) (function (err, obj) { var firstData = { name: [ obj.name ], description: [ obj.metaDescription, obj.ogDescription, ], image: [ obj.ogImage, obj.twitterImage, obj.metaImage, obj.headImage, obj.contentImage_1, obj.contentImage_2 ] } 不正确编码的响应示例 firstData […]

NodeJS x-ray web-scraper:如何关注链接并从子页面获取内容

所以我试图用node.js x-ray抓取框架来刮取一些内容。 虽然我可以从单个页面获取内容,但我无法理解如何关注链接并从一个子页面获取内容。 X射线githubconfiguration文件中有一个示例,但如果将代码更改为其他某个网站,则会返回空数据。 我简化了我的代码,并抓住了这个例子的SO问题。 以下工作正常: var Xray = require('x-ray'); var x = Xray(); x('http://stackoverflow.com/questions/9202531/minimizing-nexpectation-for-a-custom-distribution-in-mathematica', '#content', [{ title: '#question-header h1', question: '.question .post-text' }]) (function(err, obj) { console.log(err); console.log(obj); }) 这也适用: var Xray = require('x-ray'); var x = Xray(); x('http://stackoverflow.com/questions', '#questions .question-summary .summary', [{ title: 'h3', question: x('h3 a@href', '#content .question .post-text'), }]) (function(err, obj) […]