从刮网页获取页面标题

var http = require('http'); var urlOpts = {host: 'www.nodejs.org', path: '/', port: '80'}; http.get(urlOpts, function (response) { response.on('data', function (chunk) { var str=chunk.toString(); var re = new RegExp("(<\s*title[^>]*>(.+?)<\s*/\s*title)\>", "g") console.log(str.match(re)); }); });

产量

user @ dev〜$ node app.js ['node.js'] null null

我只需要获得标题。

我会build议使用RegEx.exec而不是String.match 。您还可以使用文字语法定义正则expression式，并且只能使用一次：

 var http = require('http'); var urlOpts = {host: 'www.nodejs.org', path: '/', port: '80'}; var re = /(<\s*title[^>]*>(.+?)<\s*\/\s*title)>/gi; http.get(urlOpts, function (response) { response.on('data', function (chunk) { var str=chunk.toString(); var match = re.exec(str); if (match && match[2]) { console.log(match[2]); } }); });

该代码还假定title将完全在一个块中，而不是在两个块之间分割。如果title在组块之间分割，那么最好保持组块的聚合。一旦findtitle您可能还想停止查找title 。

尝试这个：

 var re = new RegExp("<title>(.*?)</title>", "i"); console.log(str.match(re)[1]);

从刮网页获取页面标题

什么是一些有效的策略来追踪node.js进程中的本地内存泄漏？

直接从Rails应用程序发送消息到Node.js和Socket.io推送服务器

如何从对象输出中删除函数？

应用程序启动时nodejs pm2错误

socket.IO-为什么我的客户端html页面不能加载socket.io.js？

NodeJS推送队列，由Laravel工作人员使用

使用ntwitter在Node.js中多次调用Twitterstream媒体API

使用dynamicurl封装标题

使用Caolan的asynchronous模块返回一个值

在Phonegap（Windows）中找不到脚本文件“C：\ res \ windows \ zip.js”