Go语言中string是UTF-8字节序列,需用[]rune处理字符操作;len()返回字节数,for range或[]rune可正确遍历Unicode字符;截取前N字符应使用string([]rune(s)[:N])。

Go 语言原生支持 UTF-8,字符串字面量默认就是 UTF-8 编码的字节序列,但“按字符操作”不能直接用 len() 或下标遍历,因为一个 Unicode 字符可能占多个字节。关键在于区分 字节(byte) 和 符文(rune)。
Go 中 string 是只读的 UTF-8 字节序列;[]byte 是可变的字节切片;[]rune 是 Unicode 码点(即逻辑字符)的切片。
len("你好") 返回 6(UTF-8 占 3 字节/字符 × 2)len([]rune("你好")) 返回 2(两个 Unicode 字符)s[0] 拿到的是第一个字节(如 228),不是“你”这个字符用 for range 遍历 string,自动按 rune 解码,返回索引(字节偏移)和 rune 值:
for i, r := range "Hello世界" {
fmt.Printf("位置 %d: %U (%c)\n", i, r, r)
}
// 输出:位置 0: U+0048 (H) … 位置 5: U+4F60 (你) … 位置 8: U+754C (界)若需反向遍历或随机访问第 n 个字符,先转成 []rune:
立即学习“go语言免费学习笔记(深入)”;
runes := []rune(s)runes[2] 取第三个字符(rune 类型)string(runes[2])
处理中文、emoji、带重音符号的字母等场景时注意:
string([]rune(s)[:N]),别用 s[:N]
unicode.Is(unicode.Han, r) 或 unicode.Is(unicode.Symbols, r)
strings.ToTitle / strings.ToUpper(它们内部已按 rune 处理)[\u4e00-\u9fff] 或 \p{Han}(需启用 Unicode 标志:regexp.Compile(`\p{Han}+`))以下写法在含中文或 emoji 时会出错:
s[0:2] —— 可能截断一个汉字(如“你好”前 2 字节是乱码)s[len(s)-1] —— 最后一个字节不等于最后一个字符strings.Split(s, "") —— 按字节切,不是按字符,结果错误len() 判断“字符串长度”却不说明是字节数还是字符数基本上就这些。记住:Go 的 string 是 UTF-8 字节流,要当“文本”用,就转 rune;要当“数据”用(如网络传输、文件存储),就按 byte 处理。
以上就是如何处理Golang UTF8字符串_Golang UTF8处理方式解析的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号