PHP中字符串长度判断出错主因是混用strlen()与mb_strlen():前者按字节计(如"你好"返回6),后者按字符计(返回2);须统一用mb_strlen()、设mb_internal_encoding("UTF-8"),并确保数据源为真实UTF-8编码。

strlen() 和 mb_strlen() 返回值不一致怎么查
PHP 中字符串长度判断出错,最常见原因是用了 strlen() 处理含中文、emoji 或 UTF-8 多字节字符的字符串。它按字节计数,而 mb_strlen() 才按字符计数。比如 "你好":
strlen("你好") 返回 6(UTF-8 下每个汉字占 3 字节),
mb_strlen("你好", "UTF-8") 返回 2。
排查时优先检查:
- 所有做「长度限制」或「截断前判断」的地方是否统一用了 mb_strlen()
- mb_internal_encoding() 是否设为 "UTF-8"(否则 mb_* 函数可能默认用 ISO-8859-1)
- 数据库字段、HTTP 请求头、文件读取来源是否真实编码为 UTF-8(避免「看起来是中文,实际是乱码字节」导致误判)
substr() 截断后出现乱码或长度异常
用 substr() 截中文/emoji 时,若起始或结束位置落在某个 UTF-8 字符中间,就会输出乱码——这不是“截断失败”,而是字节级操作的必然结果。
正确做法:
- 替换为 mb_substr($str, $start, $length, "UTF-8")
- 若必须用 substr(),先用 mb_strcut()(按字节安全截断,不拆多字节字符)
- 注意:mb_substr() 的第三个参数是「字符数」,不是字节数;而 substr() 的第三个参数是「字节数」
数据库字段长度和 PHP 判断不匹配
MySQL 的 VARCHAR(255) 是按字符算(5.0.3+ 默认),但如果你用的是 utf8mb4 编码,一个 emoji 占 4 字节,而 strlen() 会返回 4,mb_strlen() 返回 1——这时候如果 PHP 层用 strlen() 做校验,就可能把合法的 255 字符字符串误判为「超长」。
关键检查点:
- 查看表结构:SHOW CREATE TABLE `table_name`; 确认字符集和排序规则(如 utf8mb4_unicode_ci)
- 检查 PDO/MySQLi 连接是否设置了 charset=utf8mb4(否则客户端可能以 latin1 解析)
- 插入前用 mb_check_encoding($str, 'UTF-8') 验证输入是否真正合法 UTF-8,避免隐式转换污染
JSON 输出或 API 返回时长度突然变短
调用 json_encode() 后字符串变短,常因其中含不可见控制字符(如 U+0000)、非法 Unicode(如代理对缺失)、或 json_encode() 默认过滤掉非 UTF-8 字节——这些都会被静默丢弃,导致长度减少且无报错。
定位方法:
- 在 json_encode() 前用 mb_convert_encoding($str, 'UTF-8', 'UTF-8') 强制标准化
- 加上 JSON_INVALID_UTF8_SUBSTITUTE 标志观察是否替换了非法字符
- 用 unpack('H*', $str) 查看原始字节,比对截断前后差异位置
多字节字符处理不是「选不选函数」的问题,是「所有涉及长度、截断、索引的位置都必须明确编码上下文」。漏掉一处,就可能在某个用户昵称、某条带 emoji 的评论里触发异常。











