基于Node.js的强大爬虫能直接发布抓取的文章哦


z_c0="LA8kJIJFdDSOA883wkUGJIRE8jVNKSOQfB9430=|1420113988|a6ea18bc1b23ea469e3b5fb2e33c2828439cb";

在mysql数据库的cookies表中插入一行记录，其中各字段值分别为：

email：爬虫用户的登录邮箱
password：爬虫用户的密码
name：爬虫用户名
hash：爬虫用户的hash（每个用户不可修改的唯一标识，其实这里用不到，可以暂时留空）
cookie：刚才你复制的cookie

然后就可以正式开始运行了。如果cookie失效或用户被封，直接修改这行记录的cookie字段即可。

三、运行

推荐用forever来执行，这样不仅方便后台运行和记录日志，还能在崩溃后自动重启。示例：


forever -l /var/www/log.txt index.js

其中-l后的地址就是记录日志的地方，如果放在web服务器目录下，就能在浏览器里通过http://www.xxx.com/log.txt 来直接查看日志了。在index.js后面加参数（用空格分隔）可以执行不同的爬虫指令：
1、-i 立即执行，如果不加此参数则默认在下一个指定时间执行，如每天凌晨0:05分；
2、-ng 跳过抓取新用户阶段，即getnewuser；
3、-ns 跳过快照阶段，即usersnapshot；
4、-nf 跳过生成数据文件阶段，即saveviewfile；
5、-db 显示调试日志。
各阶段的功能在下一节介绍。为了方便运行，可以将这行命令写成sh脚本，例如：


#!/bin/bash
cd /usr/zhihuspider
rm -f /var/www/log.txt
forever -l /var/www/log.txt start index.js $*

具体路径请替换成自己的。这样就能通过./zhihuspider.sh 加参数来开启爬虫了：比如./zhihuspider.sh -i -ng -nf就是立即开始任务、跳过新用户和保存文件阶段。停止爬虫的方法是forever stopall（或stop序号）。

四、原理概述

看知乎爬虫的入口文件是index.js。它通过循环方式在每天指定时间执行爬虫任务。每天顺序执行的任务有三个，分别是：

1）getnewuser.js：通过当前库内用户关注者列表的对比，抓取新用户信息，依靠此机制可以自动将知乎上值得关注的新人纳入库中；

2）usersnapshot.js：循环抓取当前库内用户资料和答案列表，并以每日快照形式保存下来。

3）saveviewfile.js：根据最近一次快照内容，生成用户分析列表，并筛选出昨日、近日和历史精华答案发布到「看知乎」网站。

在以上三个任务执行完毕后，主线程会每隔几分钟刷新一次知乎首页，验证当前cookie是否仍然有效，如果失效（跳到未登录页），则会给指定邮箱发送通知邮件，提醒及时更换cookie。更换cookie的方法和初始化时一致，只需手工登录一次然后取出cookie值就行了。如果对具体代码实现感兴趣可以仔细看里面的注释，调整一些配置，甚至尝试自己重构整个爬虫。

2/3 首页上一页 1 2 3 下一页尾页

基于Node.js的强大爬虫能直接发布抓取的文章哦

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

基于Node.js的强大爬虫 能直接发布抓取的文章哦

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载 吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载 吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

基于Node.js的强大爬虫能直接发布抓取的文章哦

吉吉影音怎么卸载吉吉影音卸载教程

吉吉影音怎么卸载吉吉影音卸载教程