Jsoup像Node.js库
是否有任何API的Node.js从URL和静态HTML获取和查询HTML?
我喜欢做这样的事情来使用webscrap:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn ba");
我看了一下这个问题 ,看了大部分API,但是我还没有发现(也许我无法识别)任何如此相似的东西。
Jsdom
可能是你想要的https://github.com/tmpvar/jsdom你可以结合jquery使用它来查询dom。 这里有一个关于如何在我的项目中使用它的例子https://github.com/gabesoft/seryth/blob/master/lib/sanitizer.js您可能还需要request
从url获取html https://github.com/request/request