首页 > web前端 > js教程 > 正文

JS字符串编码_Unicode处理技巧

betcha
发布: 2025-11-19 17:49:02
原创
254人浏览过
JavaScript字符串基于UTF-16编码,BMP字符占2字节,非BMP如emoji需代理对占4字节;'?'.length为2但实际是1个字符,应使用Array.from('?').length或扩展运算符获取正确长度;访问字符时charAt可能截断代理对导致乱码,推荐用String.prototype.at()或codePointAt判断;正则需加u标志支持Unicode,如/^.$/u.test('?')返回true,\p{Emoji}可匹配emoji。

js字符串编码_unicode处理技巧

JavaScript 中的字符串基于 UTF-16 编码,这使得处理 Unicode 字符时容易出现一些意料之外的问题。掌握正确的 Unicode 处理技巧,能有效避免字符截断、长度误判等问题。

理解 Unicode 与 UTF-16 编码

Unicode 是为全球字符设计的统一编码标准,每个字符对应一个码点(Code Point),例如 U+1F600 表示“?”。但 JS 字符串使用 UTF-16 编码存储,这意味着:

  • 基本多文种平面(BMP)字符(U+0000 到 U+FFFF)占 2 个字节,用一个 16 位单元表示
  • 超出 BMP 的字符(如 emoji、部分汉字)需用代理对(Surrogate Pair)表示,占 4 个字节,即两个 16 位单元

例如,“?” 的码点是 U+20BB7,在 JS 中会被表示为两个 \u{20BB7} 才能正确解析。

正确获取字符串长度

直接使用 string.length 可能返回错误结果,因为代理对会被算作两个字符。

错误示例:

'?'.length 返回 2,但实际上它是一个字符。

正确做法:

使用 ES6 的 Array.from() 或扩展运算符:

  • Array.from('?').length → 1
  • [...'?'].length → 1

或者使用 String.prototype.codePointAt() 遍历码点来计数。

安全地访问和截取字符

使用 charAt() 或索引访问可能只拿到代理对的一半,导致乱码。

  • '?'.charAt(0) 返回空字符或乱码

推荐使用 String.prototype.at()(现代浏览器支持)或结合 codePointAt 手动判断:

安全截取函数示例:

function getChar(str, index) { const code = str.codePointAt(index); if (code >= 0x10000) return str.slice(index, index + 2); return str[index]; }

正则表达式中的 Unicode 支持

默认正则不识别代理对或 Unicode 属性。使用 u 标志启用完整 Unicode 支持。

  • /^.$/u.test('?') → true(匹配单个码点)
  • /\p{Emoji}/u 可匹配 emoji(需配合属性)

利用 \p{}Polyfill 可实现更复杂的 Unicode 字符分类匹配。

基本上就这些常见场景。只要注意码点与编码单元的区别,使用现代 API 处理,就能避免大多数 Unicode 陷阱。

以上就是JS字符串编码_Unicode处理技巧的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号