NodeJS爬虫实例之糗事百科

2020-06-17 07:01:46易采站长站整理

Splider.js
文件入口是
splider
方法,首先根据传入该方法的 index 索引,构造糗事百科的 url,接着获取该 url 的网页源码,最后将获取的源码传入
getQBJok
方法,进行解析,本文只解析每条文本笑话的作者、内容以及喜欢个数。

直接运行

Splider.js
文件,即可爬取第一页的笑话信息。然后可以更改
splider
方法的参数,实现抓取不同页面的信息。

在上面已有代码的基础上,使用

koa
vue2.0
搭建一个浏览文本的页面,效果如下:

源码已上传到 github 上。下载地址:https://github.com/StartAction/SpliderQB ;

项目运行依赖

node v7.6.0
以上, 首先从 Github 上面克隆整个项目。


git clone https://github.com/StartAction/SpliderQB.git

克隆之后,进入项目目录,运行下面命令即可。


node app.js

5. 总结

通过实现一个完整的爬虫功能,加深自己对

Node
的理解,且实现的部分语言都是使用
es6
的语法,让自己加快对
es6
语法的学习进度。另外,在这次实现中,遇到了
Node
的异步控制的知识,本文是采用的是
async
await
关键字,也是我最喜欢的一种,然而在
Node
中,实现异步控制有好几种方式。关于具体的方式以及原理,有时间再进行总结。