JavaScript字符串处理_Unicode与编码转换

夜晨

发布时间：2025-11-28 18:07:25

355人浏览过

来源于php中文网

原创

JavaScript字符串基于UTF-16编码，需用codePointAt和fromCodePoint处理辅助平面字符，遍历时使用扩展操作符或Array.from以正确识别emoji等字符。

javascript字符串处理_unicode与编码转换

JavaScript中的字符串基于Unicode标准，每个字符以UTF-16编码格式存储。理解这一点对正确处理特殊字符、表情符号（emoji）、以及跨语言文本至关重要。本文将介绍JavaScript中字符串与Unicode的关系，常见编码转换方法及实际应用技巧。

Unicode与JavaScript字符串基础

JavaScript引擎内部使用UTF-16表示字符串。这意味着大多数常见字符占用2个字节（即一个16位码元），但部分字符（如 emoji 或某些生僻汉字）属于“辅助平面”，需要两个码元（称为代理对 surrogate pair）来表示。

例如，字符 ? 是一个位于辅助平面的汉字，它的Unicode码点是 U+20BB7。在JavaScript中：

'?'.length // 结果是 2
'?'[0] // 返回空或乱码（实际为高代理）
'?'[1] // 返回低代理

这是因为 ? 被拆分为两个16位码元。要正确识别这类字符，应使用ES6提供的迭代方式：

立即学习“Java免费学习笔记（深入）”；

[...'?'] // ['?']，长度为1
Array.from('?') // 同上，安全遍历

码点与编码转换方法

JavaScript提供多种方法用于获取字符的Unicode码点或从码点生成字符：

String.fromCharCode()：将码元值转为字符，仅适用于基本多文种平面（BMP），不支持四字节字符。
String.fromCodePoint()：支持任意Unicode码点，包括辅助平面。
String.charCodeAt()：返回指定位置的16位码元值，无法直接获取完整码点。
String.codePointAt()：可正确读取代理对对应的完整码点。

示例对比：

字符串处理类：将GBK，UTF8字符串转化为Unicode编码的php类库

下载

String.fromCharCode(0x20BB7) // 错误结果："ஷ"
String.fromCodePoint(0x20BB7) // 正确结果："?"

'?'.charCodeAt(0) // 55362（高代理）
'?'.codePointAt(0) // 134071（即 0x20BB7）

Base64与UTF-8编码转换

浏览器环境提供了 btoa 和 atob 函数用于Base64编解码，但它们只接受单字节字符（Latin-1）。直接传入含中文或 emoji 的字符串会报错。

要实现真正的UTF-8 Base64转换，需手动编码：

// 字符串 → Base64（支持UTF-8） function utf8ToBase64(str) { return btoa(encodeURIComponent(str).replace(/%([0-9A-F]{2})/g, (match, hex) => String.fromCharCode(parseInt(hex, 16)))); } // Base64 → 字符串（还原UTF-8） function base64ToUtf8(base64) { return decodeURIComponent(Array.from(atob(base64)).map(c => '%' + c.charCodeAt(0).toString(16).padStart(2, '0')).join('')); }

使用示例：

utf8ToBase64('你好 ?') // "JUU0JUJEJUEwJUU1JUE1JUJEICVFMyVCOCVCRQ==" base64ToUtf8("JUU0JUJEJUEwJUU1JUE1JUJEICVFMyVCOCVBRQ==") // "你好 ?"

实用建议与注意事项

处理Unicode字符串时，注意以下几点：

避免使用 .length 判断字符数量，改用 [...str].length 或 Array.from(str).length 获取真实字符数。
遍历字符串时优先使用 for...of 或 Array.from()，确保代理对被整体处理。
涉及网络传输或存储时，统一使用UTF-8编码，并配合 TextEncoder / TextDecoder API 更加高效安全。
正则表达式中可使用 u 标志启用完整Unicode支持，如 /^\p{Emoji}$/u 匹配单个emoji。

基本上就这些。掌握Unicode机制能避免乱码、计数错误等常见问题，让字符串处理更稳健可靠。

javascript中的高阶函数是什么_如何使用它们编写更简洁的代码【教程】

怎样理解JavaScript中的this关键字【教程】

javascript数组有哪些常用方法_如何高效地遍历和操作数组元素【教程】

为什么javascript在web开发中必不可少_它如何与html和css协同工作【教程】

如何掌握JavaScript基础语法与数据类型【教程】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：JavaScript微前端_模块联邦架构设计下一篇：JavaScript代码分割_动态导入策略

作者最新文章

2026年国定假日哪几天是3倍工资的 2026年法定三薪表日期

2026-01-16 16:18

12306轻装行如何办理轻装行服务如何开通

2026-01-16 16:21

2026年国定假日加班哪几天三薪？法定节假日三倍工资日期表

2026-01-16 16:22

什么是Canvas_如何使用javascript在画布上绘制图形和动画【教程】

2026-01-16 16:29

MC.JS在线版直接进入链接_MC.JS2026免安装网页版入口

2026-01-16 16:29

什么是JavaScript中的国际化与本地化_使用Intl对象处理多语言支持【教程】

2026-01-16 16:32

小红书网页版在线入口与电脑端登录指南（2026最新）

2026-01-16 16:36

小红书网页版在线浏览教程官网登录入口一键直达（2026最新）

2026-01-16 16:39

快走和慢跑哪个减肥效果好？减脂效率对比分析

2026-01-16 16:40

如何在VSCode中调试PHP应用程序？【教程】

2026-01-16 16:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js获取数组长度的方法

在js中，可以利用array对象的length属性来获取数组长度，该属性可设置或返回数组中元素的数目，只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值，也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容，供大家免费下载使用。

554

2023.06.20

js刷新当前页面

js刷新当前页面的方法：1、reload方法，该方法强迫浏览器刷新当前页面，语法为“location.reload([bForceGet]) ”；2、replace方法，该方法通过指定URL替换当前缓存在历史里（客户端）的项目，因此当使用replace方法之后，不能通过“前进”和“后退”来访问已经被替换的URL，语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

374

2023.07.04

js四舍五入

js四舍五入的方法：1、tofixed方法，可把 Number 四舍五入为指定小数位数的数字；2、round() 方法，可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

731

2023.07.04

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

477

2023.09.01

JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号，可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容，供大家免费下载体验。

394

2023.09.04

js生成随机数的方法

js生成随机数的方法有：1、使用random函数生成0-1之间的随机数；2、使用random函数和特定范围来生成随机整数；3、使用random函数和round函数生成0-99之间的随机整数；4、使用random函数和其他函数生成更复杂的随机数；5、使用random函数和其他函数生成范围内的随机小数；6、使用random函数和其他函数生成范围内的随机整数或小数。

991

2023.09.04

如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍：1、内联脚本是将JavaScript代码直接嵌入到HTML标签中；2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中；3、外部脚本是将JavaScript代码放置在一个独立的文件；4、外部脚本是将JavaScript代码放置在一个独立的文件。

657

2023.09.12

Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型，用于表示独一无二的值。Symbol的特点：1、独一无二，每个Symbol值都是唯一的，不会与其他任何值相等；2、不可变性，Symbol值一旦创建，就不能修改或者重新赋值；3、隐藏性，Symbol值不会被隐式转换为其他类型；4、无法枚举，Symbol值作为对象的属性名时，默认是不可枚举的。

551

2023.09.20