基于node.js实现爬虫的讲解

1. cheerio 与 request

request：模拟客户端行为，对页面进行请求
cheerio：对服务器端返回的页面进行解析；


var cheerio = require('cheerio');
var request = require('request');
var startUrl = 'http://www.baidu.com'
request(startUrl, function(err, response) {
  if (err) {
    console.log(err);
  }
  var $ = cheerio.load(response.body);
  var title = $('title').text();
  console.log(title);
}

2. 认识 cheerio

获取 element 位置

通过 class 属性进行匹配：


var $=cheerio.load('<div class="container"></div>');
$('.container')

取其链接：

<a class="downbtn" href="http://mov.bn.netease.com/mobilev/2013/1/F/G/S8KTEF7FG.mp4" id="M8KTEKR84" target="_blank"></a>


$('a.downbtn').attr('href')

某一页面下的全部可链接：


var url =
var $ = cheerio.load(data);
  $("a.downbtn").each(function(i, e) {
    console.log($(e).attr("href"));
  });
  console.log("done");
 } else {
   console.log("error");
 }

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对软件开发网的支持。如果你想了解更多相关内容请查看下面相关链接

基于node.js实现爬虫的讲解

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

基于node.js实现爬虫的讲解

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载 吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载 吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

吉吉影音怎么卸载吉吉影音卸载教程

吉吉影音怎么卸载吉吉影音卸载教程