node+express制作爬虫教程

2020-06-17 07:22:05易采站长站整理

安装:

npm install request

3、cherrio 是为服务器特别定制的,快速、灵活、实施的jQuery核心实现。

通过cherrio,我们就可以将抓取到的内容,像使用jquery的方式来使用了。可以点击这里查看:https://cnodejs.org/topic/5203a71844e76d216a727d2e


var cheerio = require('cheerio'),
$ = cheerio.load('<h2 class="title">Hello world</h2>');
$('h2.title').text('Hello there!');

安装:

npm install cherrio

爬虫实战

假设你的电脑里已经安装好了node和express。那么我们现在开始进行我们的爬虫小程序:

1、首先随便进入一个硬盘,假如是F盘,cmd环境下执行:

express mySpider

然后你发觉你的F盘上多了一个 mySpider的文件夹和一些文件,进入文件,cmd下执行

npm install

2、然后安装我们的

require ==》npm installrequire --save
、再安装我们的
cherrio==》npm install cherrio --save

3、安装好后,执行npm start,如果想监听窗口的变化,可以执行:supervisor start app.js,然后在浏览器输入:localhost:3000,这样我们就可以在浏览器看到express的一些欢迎语啊什么的

4、打开app.js文件,你会发觉里面有一大堆东西,因为是爬虫小程序嘛,所以都是不需要滴,删,在express的API里有这段代码,粘贴在app.js里面

app.js


var express = require('express');
var app = express();

app.get('/', function(req, res){
res.send('hello world');
});

app.listen(3000);

5、我们的require登场了。继续修改一下app.js改为:


var express = require('express');
var app = express();
var request = require('request');

app.get('/', function(req, res){
request('http://www.cnblogs.com', function (error, response, body) {
if (!error && response.statusCode == 200) {
res.send('hello world');
}
})
});
app.listen(3000);

其中request的链接就是我们要爬的网址,加入我们要爬的是博客园的网站,所以输入的是博客园的网址

6、引入cherrio,来让我们可以操做爬到的网站的内容,继续修改一下app.js


var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');

app.get('/', function(req, res){
request('http://www.cnblogs.com', function (error, response, body) {
if (!error && response.statusCode == 200) {