preg_split 更灵活但更慢,因其需启动正则引擎、编译、回溯及状态维护;explode 仅纯字符串扫描,10 万行日志分割快约 3 倍,但仅支持固定分隔符。

preg_split 为什么比 explode 更灵活但更慢
因为 preg_split 要启动正则引擎,每次匹配都涉及编译(哪怕缓存)、回溯和状态维护;而 explode 是纯字符串扫描,按字节逐个比对分隔符。实际测过 10 万行日志分割,explode 平均耗时 0.8ms,preg_split 在简单模式下也要 2.3ms+,复杂正则直接跳到 15ms。
但它能干 explode 干不了的事:
-
preg_split('/\s+/', $text)一次性处理多个空格、制表符、换行符 - 用
PREG_SPLIT_NO_EMPTY自动过滤空项,不用再array_filter($arr) - 配合
PREG_SPLIT_OFFSET_CAPTURE直接拿到每个片段在原文中的起始位置
mb_split 不是所有 PHP 环境都可用
mb_split 是多字节安全的正则分割,适合中文、emoji 等 UTF-8 文本,但依赖 mbstring 扩展且不支持 PCRE2(PHP 8.2+ 默认),某些 Docker 镜像或共享主机默认没开。
检查是否可用:function_exists('mb_split');不可用时别硬切中文,否则可能把一个汉字从中间劈开。替代方案是用 preg_split 加 u 修饰符:preg_split('/\s+/u', $text),它也支持 Unicode 字符边界。
立即学习“PHP免费学习笔记(深入)”;
str_split 处理固定长度切片最稳
当你要把长字符串按每 4 个字符一组拆开(比如密钥分组、Base64 补齐),str_split($text, 4) 是唯一推荐方式。它不依赖分隔符,也不走正则,不会因内容含特殊字符出错。
注意两个坑:
- 第二个参数为 0 或负数会返回
false,不是空数组 - 末尾不足长度的一段照常保留,不会丢弃或补空 —— 如果需要补全,得自己
str_pad
自定义分隔逻辑该用 strtok 还是循环 strpos
strtok 是 C 层实现的轻量级分割器,适合单一分隔符 + 大文本流式处理(比如读一行切一次),内存占用恒定;但它不能重入,同一字符串不能并行调用,且不支持多字符分隔符(strtok($s, " \t\n") 是按任一字符断,不是按整个字符串断)。
如果要按 "::" 或 "[SEP]" 这种多字符切,老老实实用 strpos + substr 循环更可控:
while (($pos = strpos($text, $delim)) !== false) {
$parts[] = substr($text, 0, $pos);
$text = substr($text, $pos + strlen($delim));
}
$parts[] = $text;
这种写法虽然代码多几行,但逻辑清晰、可调试、易加条件(比如跳过引号内分隔符)。
真正难的不是选哪个函数,而是分隔前有没有确认源文本编码、是否含 BOM、换行符是 \n 还是 \r\n —— 这些问题不先扫清,再准的函数也会切歪。











