工作中经常会遇到一些pdf文件处理的问题,一千种pdf有一千种处理方式,每次都是绞尽脑汁和这些pdf战斗到底。
本人又是一个gopher,所以这篇文章会以一个goper的视角,列举一下我所经历过的每一种pdf处理场景,比如:
pdf渲染
pdf校验
pdf加水印
pdf获取页数
pdf合并
pdf拆分
修复受损pdf
pdf转png
识别pdf中的字体
pdf解密
...
本文大多是场景问题的罗列,可以根据标题摘取自己有兴趣的部分查看
很多pdf的问题我也不是特别专业,如果问题或者疑问欢迎与我交流
一、HTML页面渲染PDF
根据html页面渲染pdf,我使用过以下两种方案:
wkhtmltopdf chromedp1. 使用wkhtmltopdf渲染pdf
wkhtmltopdf是一个命令行工具,用于将HTML页面渲染为PDF,基于Qt WebKit渲染引擎实现
使用方式比较简单:
## 将一个静态html页面打印成pdf
$ wkhtmltopdf input.html output.pdf
## 将一个网页打印成pdf
$ wkhtmltopdf https://www.google.com output.pdf
wkhtmltopdf的参数很丰富,比如:
支持发送 http post请求,适合将自定义开发的网页渲染成pdf文件:
$ wkhtmltopdf --help
...
--post <name> <value> Add an additional post field (repeatable)
...
支持javascript脚本,在渲染pdf前对html进行修改:
$ wkhtmltopdf --run-script "javascript:(function(){document.getElementsByClassName('dom_class_name')[0].style.display = 'none'}())" page input.html output.pdf
更多详细参数可看官网文档
如果你使用Go语言,还有一个第三方包,是对wkhtmltopdf的使用封装:go-wkhtmltopdf
2. 使用chromedp渲染pdf
chromedp是一种在Go语言中以更快,更简单的方式来驱动支持Chrome DevTools协议的浏览器的软件包,而无需外部依赖((例如Selenium或PhantomJS).
使用方式:
package main
import (
"context"
"io/ioutil"
"github.com/chromedp/cdproto/page"
"github.com/chromedp/chromedp"
"errors"
)
func main(){
err := ChromedpPrintPdf("https://www.google.com", "/path/to/file.pdf")
if err != nil {
fmt.Println(err)
return
}
}
func ChromedpPrintPdf(url string, to string) error {
ctx, cancel := chromedp.NewContext(context.Background())
defer cancel()
var buf []byte
err := chromedp.Run(ctx, chromedp.Tasks{
chromedp.Navigate(url),
chromedp.WaitReady("body"),
chromedp.ActionFunc(func(ctx context.Context) error {
var err error
buf, _, err = page.PrintToPDF().
Do(ctx)
return err
}),
})
if err != nil {
return fmt.Errorf("chromedp Run failed,err:%+v", err)
}
if err := ioutil.WriteFile(to, buf, 0644); err != nil {
return fmt.Errorf("write to file failed,err:%+v", err)
}
return nil
}









