答案:Go中字符串切片和长度需区分字节与字符,len()返回字节数,utf8.RuneCountInString()返回字符数,中文处理应转为[]rune操作以避免乱码。

在Golang中,字符串的长度和切片操作看似简单,但因Go内部对UTF-8编码的支持,处理中文或非ASCII字符时容易出错。正确理解字符串底层结构是关键。
字符串长度:len() 与 utf8.RuneCountInString()
使用 len() 函数获取的是字符串的字节数,不是字符数。对于ASCII字符,两者一致;但对于中文等UTF-8多字节字符,结果不同。
例如:str := "你好, world"
fmt.Println(len(str)) // 输出 13(字节数)
要获取真实字符数(即Unicode码点数量),应使用 utf8.RuneCountInString():
fmt.Println(utf8.RuneCountInString(str)) // 输出 8(字符数)
立即学习“go语言免费学习笔记(深入)”;
字符串切片:按字节还是按字符?
Go的字符串切片基于字节索引,直接用 [start:end] 可能会切断多字节字符,导致乱码。
例如 str[0:2] 在 "你好" 中可能只取第一个汉字的一半,产生非法UTF-8序列。
安全做法是转换为 rune 切片:
- 将字符串转为 []rune 类型,每个元素对应一个Unicode字符
- 对 []rune 进行切片操作
- 再转回字符串
示例代码:
runes := []rune("你好, world")
result := string(runes[0:2]) // 正确截取前两个字符:"你好"
实用函数封装
可封装常用操作,避免重复出错:
func substring(s string, start, length int) string {
runes := []rune(s)
if start >= len(runes) {
return ""
}
end := start + length
if end > len(runes) {
end = len(runes)
}
return string(runes[start:end])
}
调用 substring("你好, world", 0, 2) 返回 "你好",安全且符合预期。
基本上就这些。关键是区分字节和字符,涉及中文或国际化文本时,始终用 []rune 处理。










