Splider.js 文件入口是
splider 方法,首先根据传入该方法的 index 索引,构造糗事百科的 url,接着获取该 url 的网页源码,最后将获取的源码传入
getQBJok 方法,进行解析,本文只解析每条文本笑话的作者、内容以及喜欢个数。直接运行
Splider.js 文件,即可爬取第一页的笑话信息。然后可以更改
splider 方法的参数,实现抓取不同页面的信息。在上面已有代码的基础上,使用
koa 和
vue2.0 搭建一个浏览文本的页面,效果如下:
源码已上传到 github 上。下载地址:https://github.com/StartAction/SpliderQB ;
项目运行依赖
node v7.6.0 以上, 首先从 Github 上面克隆整个项目。
git clone https://github.com/StartAction/SpliderQB.git克隆之后,进入项目目录,运行下面命令即可。
node app.js5. 总结
通过实现一个完整的爬虫功能,加深自己对
Node 的理解,且实现的部分语言都是使用
es6 的语法,让自己加快对
es6 语法的学习进度。另外,在这次实现中,遇到了
Node 的异步控制的知识,本文是采用的是
async 和
await 关键字,也是我最喜欢的一种,然而在
Node 中,实现异步控制有好几种方式。关于具体的方式以及原理,有时间再进行总结。









