Go处理PDF的实现代码

工作中经常会遇到一些pdf文件处理的问题，一千种pdf有一千种处理方式，每次都是绞尽脑汁和这些pdf战斗到底。

本人又是一个gopher，所以这篇文章会以一个goper的视角，列举一下我所经历过的每一种pdf处理场景，比如:

pdf渲染
pdf校验
pdf加水印
pdf获取页数
pdf合并
pdf拆分
修复受损pdf
pdf转png
识别pdf中的字体
pdf解密
...

本文大多是场景问题的罗列，可以根据标题摘取自己有兴趣的部分查看

很多pdf的问题我也不是特别专业，如果问题或者疑问欢迎与我交流

一、HTML页面渲染PDF

根据html页面渲染pdf，我使用过以下两种方案:

wkhtmltopdf chromedp

1. 使用wkhtmltopdf渲染pdf

wkhtmltopdf是一个命令行工具,用于将HTML页面渲染为PDF，基于Qt WebKit渲染引擎实现

使用方式比较简单：


## 将一个静态html页面打印成pdf
$ wkhtmltopdf input.html output.pdf

## 将一个网页打印成pdf
$ wkhtmltopdf https://www.google.com output.pdf



wkhtmltopdf的参数很丰富,比如:
支持发送 http post请求，适合将自定义开发的网页渲染成pdf文件:


$ wkhtmltopdf --help
...
--post <name> <value>      Add an additional post field (repeatable)
...


支持javascript脚本，在渲染pdf前对html进行修改:


$ wkhtmltopdf --run-script "javascript:(function(){document.getElementsByClassName('dom_class_name')[0].style.display = 'none'}())" page input.html output.pdf


更多详细参数可看官网文档
如果你使用Go语言，还有一个第三方包，是对wkhtmltopdf的使用封装:go-wkhtmltopdf


2. 使用chromedp渲染pdf


chromedp是一种在Go语言中以更快，更简单的方式来驱动支持Chrome DevTools协议的浏览器的软件包，而无需外部依赖((例如Selenium或PhantomJS).


使用方式:


package main

import (
  "context"
  "io/ioutil"

  "github.com/chromedp/cdproto/page"
  "github.com/chromedp/chromedp"
  "errors"
)

func main(){
  err := ChromedpPrintPdf("https://www.google.com", "/path/to/file.pdf")
  if err != nil {
    fmt.Println(err)
    return
  }
}

func ChromedpPrintPdf(url string, to string) error {
  ctx, cancel := chromedp.NewContext(context.Background())
  defer cancel()

  var buf []byte
  err := chromedp.Run(ctx, chromedp.Tasks{
    chromedp.Navigate(url),
    chromedp.WaitReady("body"),
    chromedp.ActionFunc(func(ctx context.Context) error {
      var err error
      buf, _, err = page.PrintToPDF().
        Do(ctx)
      return err
    }),
  })
  if err != nil {
    return fmt.Errorf("chromedp Run failed,err:%+v", err)
  }

  if err := ioutil.WriteFile(to, buf, 0644); err != nil {
    return fmt.Errorf("write to file failed,err:%+v", err)
  }

  return nil
}

								  1/5    1 2 3 4 5 下一页 尾页

Go处理PDF的实现代码

手把手教你使用正则表达式验证银行帐号

JS中正则表达式全局匹配正斜杠的方法

python如何用正则表达式提取字符串

如何将mov直接刻录成vcd

火云术语怎么查找术语库

python中如何使用正则表达式提取数据

Regex正则表达式判断密码强度

Regex正则表达式判断密码强度

python中的正则表达式,贪婪匹配与非贪婪匹配方式

winrar压缩完后实现自动关机

手把手教你使用正则表达式验证银行帐号

JS中正则表达式全局匹配正斜杠的方法

python如何用正则表达式提取字符串

如何将mov直接刻录成vcd

火云术语怎么查找术语库

python中如何使用正则表达式提取数据

Regex正则表达式判断密码强度

Regex正则表达式判断密码强度

python中的正则表达式,贪婪匹配与非贪婪匹配方式

winrar压缩完后实现自动关机