PHP字符集编码需在HTTP头、MySQL连接、PHP内部函数及文件保存四层统一设为UTF-8无BOM,缺一将导致乱码:header('Content-Type: text/html; charset=utf-8')须前置;PDO用SET NAMES utf8mb4;mb_internal_encoding('UTF-8');文件禁用BOM。

PHP 中指定字符集编码,关键不是“写在哪”,而是“在哪儿生效、对谁生效”。不同层级的编码设置互不替代,漏掉任一环都可能引发乱码。
HTTP 响应头里的 Content-Type 必须带 charset
浏览器靠这个决定如何解码响应体。光写 header('Content-Type: text/html') 不够,必须显式声明编码:
header('Content-Type: text/html; charset=utf-8');
注意:header() 必须在任何输出(包括空格、BOM)之前调用;若已启用输出缓冲(ob_start()),可稍晚些,但仍需在 echo 实际 HTML 之前。
常见错误:
立即学习“PHP免费学习笔记(深入)”;
- 忘记加
charset=utf-8,导致 IE 或旧版浏览器默认用 GBK 解析 UTF-8 内容 - 写成
charset=UTF8(缺短横线),部分环境不识别 - 在
里写了就以为够了——它只是后备方案,优先级低于 HTTP 头
MySQL 连接层必须执行 SET NAMES 或等效操作
PHP 连接 MySQL 后,默认通信编码常为 latin1,即使数据库/表是 utf8mb4,读写时仍会出错。
推荐方式(PDO):
$pdo = new PDO($dsn, $user, $pass, [
PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES utf8mb4 COLLATE utf8mb4_unicode_ci"
]);
或连接后立即执行:
$pdo->exec("SET NAMES utf8mb4");
使用 mysqli 时:
mysqli_set_charset($link, 'utf8mb4');
注意:SET NAMES utf8 已过时,不支持 emoji 等四字节字符,务必用 utf8mb4;mysqli_set_charset() 比 mysqli_query($link, "SET NAMES ...") 更可靠,后者在某些配置下可能被忽略。
mb_internal_encoding() 和 default_charset 影响 PHP 字符串函数行为
这两个设置决定 mb_* 系列函数(如 mb_strlen()、mb_substr())的默认编码,也影响 htmlentities() 等函数的内部处理逻辑。
建议统一设为 UTF-8:
mb_internal_encoding('UTF-8');
ini_set('default_charset', 'UTF-8');
注意:
-
mb_internal_encoding()不影响 HTTP 输出头,也不改变数据库连接编码 -
ini_set('default_charset', ...)会影响htmlentities()默认使用的编码,但不会自动添加 HTTP 头——它只是让这些函数“知道该用什么编码干活” - 若项目混用多种编码(极不推荐),必须在每次调用
mb_*函数时显式传入$encoding参数
文件本身保存为 UTF-8 无 BOM 是硬性前提
PHP 解析器读取源码时,若文件含 BOM(尤其是 Windows 编辑器默认保存的 UTF-8 with BOM),会在输出开头注入不可见字节,导致 header() 调用失败,并引发“headers already sent”错误。
验证方法:
- 用 VS Code、Sublime Text 等编辑器检查右下角编码显示,确认是
UTF-8,且状态栏无BOM标识 - Linux/macOS 下可用
hexdump -C file.php | head查看前几字节:正常 UTF-8 无 BOM 开头是3c 3f 70(即),有 BOM 则是ef bb bf
一旦发现 BOM,用编辑器“另存为 → UTF-8 无 BOM”或命令行清理:sed -i '1s/^\xEF\xBB\xBF//' file.php。
最易被忽略的是:数据库字段值从页面提交过来,经 PHP 处理再存回数据库,中间任意一环(表单 accept-charset、HTTP 头、MySQL 连接、PHP 字符串函数)编码不一致,都会让一个汉字变成 æ 或问号。没有“一键解决”,只有逐层对齐。











