写在前面:
新型冠状病毒有多么可怕,我想大家都已经知道了。湖北爆发了新型冠状病毒,湖南前几天爆发了禽流感,四川发生地震,中国加油!昨天晚上我突发奇想地打算把疫情实时动态展示在自建站上,于是说干就干(先附上昨晚用puppeteer截的图片)。

安装node_modules:
所需的node_modules:①puppeteer;②cheerio;③fs;④cron。
需要注意的是安装puppeteer的时候很容易安装失败,这里有俩个解决方法,都是用淘宝源(马云爸爸不是白叫的😄)。
一、先将npm换成淘宝源再安装:
npm config set registry http://registry.npm.taobao.org/
npm install -g cheerio
npm i -g puppeteer
npm i -g fs
npm i -g cron二、用cnpm进行安装:
npm install cnpm -g --registry=https://registry.npm.taobao.org/
cnpm install -g cheerio
cnpm i -g puppeteer
cnpm i -g fs
cnpm i -g cron具体操作:
用puppeteer爬取:
puppeteer本质上是一个chrome浏览器,网页很难分清这是人类用户还是爬虫,我们可以用它来加载动态网页。
先来一个简单的例子,用puppeteer截图:
const puppeteer = require('puppeteer');(async () => {
const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']}); //启动浏览器实例
/* puppeteer.launch()的可选参数如下:
headless: 是否打开浏览器,默认为true
ignoreHTTPSErrors: 是否忽略https错误,默认为true
executablePath: 配置要调用浏览器的可执行路径,默认是同Puppeteer一起安装的Chromeium
slowMo:指定的毫秒延缓Puppeteer的操作
args:设置浏览器的相关参数,比如是否启动沙箱模式“--no-sandbox”,是否更换代理“--proxy-server”,
*/
const page = await browser.newPage(); //新建页面
await page.goto('https://ncov.dxy.cn/'); //访问目标网页:丁香医生
await page.screenshot({ //进行截图
path: 'p1.png',
type: 'png',
// quality: 100, 只对jpg有效
// 指定区域截图,clip和fullPage两者只能设置一个
// fullPage: true,
clip: {
x: 0,
y: 0,
width: 1000,
height: 1000
}
});
browser.close(); //关闭浏览器
})();
用puppeteer获取网页源代码:
const puppeteer = require('puppeteer');(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('https://ncov.dxy.cn/');
//page.frames() 获取当前页面所有的 iframe,然后根据 iframe 的名字精确获取某个想要的 iframe









