Puppeteer 爬取动态生成的网页实战

2020-06-17 07:01:08易采站长站整理

node.click() // 点击事件
}
node = node.firstElementChild
while (node) {
walkDOM(node)
node = node.nextElementSibling
}
}
})

当Net Chart 目录下所有

a.drop
元素点击过后,
Net Chart
目录下所有后代子目录都会加载生成,接下来操作就简单了

获取Net Chart 目录下所有 a 元素

通过

document.querySelectorAll()
查找到所有
a
元素,保存到数组
遍历数组,对数组每一项进行处理成
{href: '',text: ''}
对象
返回对象数组

遍历对象数组, 访问每一个链接,下载其HTML文件

跳转每一个链接,下载需要的html到指定文件夹
当 HTML 中存在 img 时,下载所有图片

4. 总结

第一次使用Puppeteer也是磕磕绊绊,花费不少时间,期间也参考了不少文章,还需多多练习

代码仓库

代码仓库