PHP调用听书插件时语言切换依赖显式lang参数,而非自动识别;需严格匹配voice与lang,混合文本应拆句处理,语种检测须用正则或专用API,音频合并前须统一采样率与声道。

PHP 调用听书插件时,语言切换靠的是 lang 参数,不是插件自动识别文本
多数 PHP 接入的听书服务(如阿里云语音合成 TTS、百度语音合成、腾讯云 TTS)本身不分析你传入的文本语种,而是严格按你指定的 lang 参数发音。比如传 lang=zh,哪怕文本是 “Hello world”,也会用中文音调硬读;传 lang=en,中文文本会按英文拼读规则崩坏输出。
-
lang必须显式传,不传或传错值(如zh-CN写成zh_CN)会导致静音、报错或默认语种(通常是中文) - 常见合法值:
zh(普通话)、en(英语)、ja(日语)、ko(韩语)、zh-TW(台湾国语),注意大小写和连字符 —— 百度要求zh,腾讯接受zh-CN,阿里云认zh和en-US - 混合文本(中英夹杂)建议拆句处理:中文句用
lang=zh,英文句用lang=en,否则合成效果极差
PHP 中构造多语言请求体,关键在 voice 和 lang 的组合匹配
不同服务商对同一语种支持的音色(voice)不同,且 voice 名称隐含语种约束。例如阿里云的 xiaoyun 只支持 zh,而 aisjennie 是美式英语专属,设成 lang=zh 会直接拒绝。
POST /v1/tts HTTP/1.1
Host: nls-gateway.aliyuncs.com
Content-Type: application/json
{
"appkey": "your_appkey",
"text": "Bonjour le monde",
"voice": "aisfrench", // 必须匹配 lang=fr
"lang": "fr",
"format": "mp3"
}
- 务必查清文档中
voice列表及其支持的lang值,不能凭名字猜测(zhiyu不代表支持粤语) - PHP 发起请求时,用
json_encode()封装参数,避免手动拼 JSON 出现引号或编码错误 - 若需动态切语言,把
lang和voice做成配置数组,按文本语种查表映射,而不是 if-else 硬编码
检测文本语种不能依赖 PHP 自带函数,得调用专用 API 或正则粗筛
PHP 的 mb_detect_encoding() 只能判断编码,intl 扩展的 Locale::lookup() 也不适用于文本语种识别。真要自动选语言,要么调用第三方语种识别 API(如百度 NLP 的 language 接口),要么用轻量正则做大致区分:
$text = "こんにちは、世界";
if (preg_match('/[\x{3040}-\x{309F}\x{30A0}-\x{30FF}]/u', $text)) {
$lang = 'ja';
$voice = 'zhiyin'; // 假设该 voice 支持日语
} elseif (preg_match('/[\x{4E00}-\x{9FFF}]/u', $text)) {
$lang = 'zh';
$voice = 'xiaoyun';
} else {
$lang = 'en';
$voice = 'aisjennie';
}
- 正则仅适合单语种主导的文本,对 “iOS 18 发布” 这类混合内容大概率误判为英文
- 生产环境建议加 fallback:正则不确定时,统一走
lang=zh,或转交人工标注 - 别用
get_headers()或file_get_contents()直接调语种识别 API,必须用cURL设Content-Type: application/json并处理返回的 JSON 错误码
音频合并时,采样率与声道不一致会导致播放卡顿或无声
不同语种请求返回的音频格式可能不同:中文常是 16kHz 单声道,英文可能是 24kHz 双声道。PHP 用 ffmpeg 合并前,必须先统一参数,否则播放器会跳过或静音。
立即学习“PHP免费学习笔记(深入)”;
- 用
shell_exec('ffprobe -v quiet -show_entries stream=sample_rate,channels -of csv=p=0 input.mp3')检查每个音频的实际参数 - 统一转成 16000Hz、1 channel 再合并:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -y output.mp3 - 不要用 PHP 的
file_put_contents()直接拼接 MP3 文件 —— 这只是字节堆叠,无法播放
多语言朗读真正难的不是调接口,而是语种判定的边界情况、音色与语言的隐式绑定、以及音频流格式的隐形差异。这些地方一漏,用户听到的就是乱码音或者突然静音。











