必须校验路径遍历字符(..、/、\)、空字节与控制字符(\x00-\x1F等)、Windows保留名(CON、AUX等)、非法文件系统字符(: " | ? *等)及编码合法性,再清洗重命名。

PHP 中替换文件名前必须校验哪些字符
直接 rename() 会导致失败甚至安全风险,比如传入 ../etc/passwd 或空字节 \0。PHP 不会自动过滤路径遍历或非法字符,得自己拦住。
- 禁止路径遍历:
..、/、\(Windows 下反斜杠也要处理) - 禁止控制字符和空字节:
\0及 ASCII 0–31 范围内的字符 - 禁止系统保留名(Windows):
CON、AUX、NUL等(不区分大小写) - 避免文件系统不支持的字符:如
: " | ? *(Windows),部分 Linux 文件系统也不建议用/和\0
用 preg_replace() 清洗文件名的常见误区
很多人只留字母数字下划线,但这样会丢失中文、emoji、带重音符号的字母(比如 café.jpg)。更合理的做法是「白名单宽松 + 黑名单严格」。
- 先移除所有控制字符:
preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]/', '', $filename) - 再过滤路径分隔符和保留名:
str_replace(['/', '\\', '..'], '_', $clean)(注意不是正则,简单替换更安全) - 最后统一编码检查(推荐 UTF-8):
mb_check_encoding($clean, 'UTF-8'),非 UTF-8 则拒绝或转码
完整校验 + 安全重命名示例
以下函数返回清洗后的合法文件名,或 false 表示校验失败。它不执行重命名,只负责把输入“变成能用的”。
function sanitize_filename(string $input): ?string
{
// 移除控制字符和空字节
$clean = preg_replace('/[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]/', '', $input);
if ($clean === null || $clean === '') {
return null;
}
// 检查是否为 UTF-8
if (!mb_check_encoding($clean, 'UTF-8')) {
return null;
}
// Windows 保留名(不区分大小写)
$reserved = ['CON', 'PRN', 'AUX', 'NUL', 'COM1', 'COM2', 'COM3', 'COM4', 'COM5', 'COM6', 'COM7', 'COM8', 'COM9', 'LPT1', 'LPT2', 'LPT3', 'LPT4', 'LPT5', 'LPT6', 'LPT7', 'LPT8', 'LPT9'];
$basename = pathinfo($clean, PATHINFO_FILENAME);
if (in_array(strtoupper($basename), $reserved, true)) {
return null;
}
// 替换非法字符为下划线,但保留中文、字母、数字、常见符号(. - _ ~)
$clean = preg_replace('/[^a-zA-Z0-9\x{4e00}-\x{9fff}\x{3400}-\x{4dbf}\x{20000}-\x{2a6df}\x{2a700}-\x{2b73f}\x{2b740}-\x{2b81f}\x{2b820}-\x{2ceaf}\.\-_~]/u', '_', $clean);
// 去掉首尾及连续下划线,不允许以点开头(防止隐藏文件误判)
$clean = trim($clean, '_.');
$clean = preg_replace('/_{2,}/', '_', $clean);
if ($clean === '' || $clean[0] === '.') {
return null;
}
return $clean;}
立即学习“PHP免费学习笔记(深入)”;
// 使用示例
$original = "test.php\x00.jpg";
$safe_name = sanitize_filename($original);
if ($safe_name !== null) {
$old_path = '/var/www/uploads/' . basename($original);
$new_path = '/var/www/uploads/' . $safe_name;
if (rename($old_path, $new_path)) {
echo "已重命名为: " . htmlspecialchars($safe_name) . "";
}
}
为什么不能只靠 basename() 或 pathinfo()
这两个函数只拆路径,不校验内容合法性。比如 basename("../../../etc/passwd") 返回 passwd,看似安全,但如果你拼接时用了原始输入(如 $dir . '/' . $_POST['name']),就立刻中招。
-
basename()不过滤空字节、控制字符、Windows 保留名 - 它对
file.txt\0.jpg这类截断攻击完全无感 - 真正安全的做法是:先清洗字符串,再生成完整路径,最后用
realpath()+is_file()确认目标在预期目录内
校验逻辑本身不难,难的是想到所有边界——比如上传表单里用户填了个 CON.PHP,Windows 下连 fopen() 都会静默失败;又比如没过滤 \r\n,日志里就多出意外换行。别省那几行校验代码。











