Go语言中多字节字符的处理方法详解

2020-01-28 13:42:25丽君

IsTitle(r rune) bool

检测一个字符 rune r 是否是Title字符。大部分字符的 Title 格式就是其大写格式,少数字符的 Title 格式是特殊字符,例如 ᾏᾟᾯ。


unicode.IsTitle('ᾯ')
// 返回 true
unicode.IsTitle('h')
// 返回 false
unicode.IsTitle('H')
// 返回 true

To(_case int, r rune) rune

将字符 rune r 转换为指定的格式,格式_case支持:unicode.UpperCase、unicode.LowerCase、unicode.TitleCase


unicode.To(unicode.UpperCase, 'h')
// 返回 H

ToLower(r rune) rune

将字符 rune r 转换为小写。


unicode.ToLower('H')
// 返回 h

func (SpecialCase) ToLower

将字符 rune r 转换为小写。优先使用映射表 SpecialCase。

映射表 SpecialCase 是特定语言环境下大小写的映射表。主要应用于一些欧洲字符,例如土耳其 TurkishCase。


unicode.TurkishCase.ToLower('İ')
// 返回 i

ToUpper(r rune) rune

将字符 rune r 转换为大写。


unicode.ToUpper('h')
// 返回 H

func (SpecialCase) ToUpper

将字符 rune r 转换为大写。优先使用映射表 SpecialCase。

映射表 SpecialCase 是特定语言环境下大小写的映射表。主要应用于一些欧洲字符,例如土耳其 TurkishCase。


unicode.TurkishCase.ToUpper('i')
// 返回 İ

ToTitle(r rune) rune

将字符 rune r 转换为 Title 字符。


unicode.ToTitle('h')
// 返回 H

func (SpecialCase) ToTitle

将字符 rune r 转换为 Title 字符。优先使用映射表 SpecialCase。

映射表 SpecialCase 是特定语言环境下大小写的映射表。主要应用于一些欧洲字符,例如土耳其 TurkishCase。


unicode.TurkishCase.ToTitle('i')
// 返回 İ

SimpleFold(r rune) rune

在 unicode 标准字符映射中查找与 rune r 互相对应的 unicode 码值。向码值大的方向循环查找。互相对应指的是同一个字符可能出现的多种写法。


unicode.SimpleFold('H')
// 返回 h
unicode.SimpleFold('Φ')) 
// 返回 φ

4 unicode/utf8 包

DecodeLastRune(p []byte) (r rune, size int)

解码 []byte p 中最后一个 UTF-8 编码序列,返回该码值和长度。


utf8.DecodeLastRune([]byte("小韩说课"))
// 返回 35838 3
// 35838 就是课的 unicode 码值