JavaScript字符串基于UTF-16编码,BMP字符占2字节,非BMP如emoji需代理对占4字节;'?'.length为2但实际是1个字符,应使用Array.from('?').length或扩展运算符获取正确长度;访问字符时charAt可能截断代理对导致乱码,推荐用String.prototype.at()或codePointAt判断;正则需加u标志支持Unicode,如/^.$/u.test('?')返回true,\p{Emoji}可匹配emoji。

JavaScript 中的字符串基于 UTF-16 编码,这使得处理 Unicode 字符时容易出现一些意料之外的问题。掌握正确的 Unicode 处理技巧,能有效避免字符截断、长度误判等问题。
Unicode 是为全球字符设计的统一编码标准,每个字符对应一个码点(Code Point),例如 U+1F600 表示“?”。但 JS 字符串使用 UTF-16 编码存储,这意味着:
例如,“?” 的码点是 U+20BB7,在 JS 中会被表示为两个 \u{20BB7} 才能正确解析。
直接使用 string.length 可能返回错误结果,因为代理对会被算作两个字符。
错误示例:'?'.length 返回 2,但实际上它是一个字符。
使用 ES6 的 Array.from() 或扩展运算符:
Array.from('?').length → 1[...'?'].length → 1或者使用 String.prototype.codePointAt() 遍历码点来计数。
使用 charAt() 或索引访问可能只拿到代理对的一半,导致乱码。
'?'.charAt(0) 返回空字符或乱码推荐使用 String.prototype.at()(现代浏览器支持)或结合 codePointAt 手动判断:
安全截取函数示例:function getChar(str, index) { const code = str.codePointAt(index); if (code >= 0x10000) return str.slice(index, index + 2); return str[index]; }
默认正则不识别代理对或 Unicode 属性。使用 u 标志启用完整 Unicode 支持。
/^.$/u.test('?') → true(匹配单个码点)/\p{Emoji}/u 可匹配 emoji(需配合属性)利用 \p{} 和 Polyfill 可实现更复杂的 Unicode 字符分类匹配。
基本上就这些常见场景。只要注意码点与编码单元的区别,使用现代 API 处理,就能避免大多数 Unicode 陷阱。以上就是JS字符串编码_Unicode处理技巧的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号