Go语言中多字节字符的处理方法详解

1 概述

Go语言的字符串是使用 UTF-8 编码的。UTF-8 是 Unicode 的实现方式之一。本文内容包括：UTF-8 和 Unicode 的关系，Go语言提供的 unicode 包和 unicode/utf8 包的使用。

下面话不多说了，来一起看看详细的介绍吧

2 UTF-8 和 Unicode 的关系

Unicode一种字符集，是国际标谁化组织（ISO）设计的一个包括了地球上所有文化、所有字母和符号的编码。他们叫它 Universal Multiple-Octet Coded Character Set，简称 UCS，也就是 Unicode。Unicode 为每一个字符分配一个唯一的码点（Code Point），就是一个唯一的值。例如康的码点就是 24247，十六进制为 5eb7。

Unicode 字符集仅仅定义了字符与码点的对应关系，但是并没有定义该如何编码（存储）这个码值，这就导致了很多问题。例如由于字符的码值不同，导致所需要的存储空间是不一致的，计算机不能确定接下来的字符是占用几个字节。还有就是如果采用固定的长度假设都是4个字节来存储码点值，那么会导致空间的额外浪费，因为 ascii 码字符其实仅仅需要一个字节的空间。

UTF-8 就是解决如何为 Unicode 编码而设计的一种编码规则。可以说 UTF-8 是 Unicode 的实现方式之一。其特点是一种变长编码，使用1到4个字节表示一个字符，根据不同的符号而变化长度。UTF-8 的编码规则有二：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于ASCII码字符，UTF-8 编码和 ASCII 码是相同的。对于 n 字节的符号（n > 1，2到4），第一个字节的前n位都设为1，第n + 1 位设为 0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

以下是编码规则：


Unicode    | UTF-8
--------------------------------------------------------- 
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
---------------------------------------------------------



Go语言中，对于 Unicode 和 UTF-8 使用了 unicode 和 unicode/utf8 包来实现，下面是阅读 API 的总结和说明。
3 Unicode 包


Go语言中，提供了 Unicode 包，处理与 Unicode 相关的操作，整理如下：

Is(rangeTab *RangeTable, r rune) bool



检测 rune r 是否在 rangeTable 指定的字符范围内。


rangeTable 一个 Unicode 码值集合，通常使用 unicode 包中定义的集合。
判断字符是否出现在汉字集合中：




unicode.Is(unicode.Scripts["Han"], 'k')
// 返回 false
unicode.Is(unicode.Scripts["Han"], '康')
// 返回 true



In(r rune, ranges …*RangeTable) bool								 
 1/5    1 2 3 4 5 下一页 尾页

Go语言中多字节字符的处理方法详解

手把手教你使用正则表达式验证银行帐号

JS中正则表达式全局匹配正斜杠的方法

python如何用正则表达式提取字符串

如何将mov直接刻录成vcd

火云术语怎么查找术语库

python中如何使用正则表达式提取数据

Regex正则表达式判断密码强度

Regex正则表达式判断密码强度

python中的正则表达式,贪婪匹配与非贪婪匹配方式

winrar压缩完后实现自动关机

手把手教你使用正则表达式验证银行帐号

JS中正则表达式全局匹配正斜杠的方法

python如何用正则表达式提取字符串

如何将mov直接刻录成vcd

火云术语怎么查找术语库

python中如何使用正则表达式提取数据

Regex正则表达式判断密码强度

Regex正则表达式判断密码强度

python中的正则表达式,贪婪匹配与非贪婪匹配方式

winrar压缩完后实现自动关机