HTML5语音识别通过SpeechRecognition API实现,需先检测浏览器支持情况,创建识别实例并设置语言、连续识别等参数,监听结果、错误和结束事件,通过start()/stop()控制识别流程,结合按钮操作可在HTTPS或localhost环境下实现语音转文本功能。

HTML5 的语音识别功能主要通过 SpeechRecognition API 实现,它允许网页捕捉用户的语音并将其转换为文本。目前该 API 在部分现代浏览器中支持,尤其是基于 Chromium 的浏览器(如 Chrome、Edge)。
1. 检测浏览器是否支持 SpeechRecognition
在使用语音识别前,先检查当前浏览器是否支持该 API,避免运行时报错。
if ('webkitSpeechRecognition' in window || 'SpeechRecognition' in window) {
// 支持语音识别
} else {
console.log('当前浏览器不支持语音识别');
}
注意:Chrome 使用的是 webkitSpeechRecognition,这是带前缀的版本。
2. 创建 SpeechRecognition 实例
创建一个识别对象,并配置相关参数。
立即学习“前端免费学习笔记(深入)”;
const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
这样可以兼容不同浏览器的实现方式。
3. 配置识别参数
可以通过设置属性来控制识别行为:
- recognition.lang = 'zh-CN'; —— 设置识别语言,中文用 'zh-CN',英文可用 'en-US'
- recognition.interimResults = false; —— 是否返回中间结果(用户说话过程中是否实时显示)
- recognition.continuous = false; —— 是否持续监听,设为 true 可连续识别多段语音
4. 监听识别事件
绑定关键事件来处理识别结果和状态:
- onresult:当识别出结果时触发
- onend:识别结束时触发(可用于自动重启)
- onerror:识别出错时触发
recognition.onresult = function(event) {
const transcript = event.results[0][0].transcript;
console.log('识别结果:', transcript);
document.getElementById('output').textContent = transcript;
};
recognition.onerror = function(event) {
console.log('识别出错:', event.error);
};
recognition.onend = function() {
console.log('识别结束');
};
5. 启动和停止识别
调用方法开始或停止语音识别:
- recognition.start(); —— 开始录音和识别
- recognition.stop(); —— 停止识别(尤其在 continuous 为 false 时自动停止)
通常绑定到按钮点击事件:
document.getElementById('startBtn').onclick = function() {
recognition.start();
};
document.getElementById('stopBtn').onclick = function() {
recognition.stop();
};
6. 完整示例代码
基本上就这些。只要用户授权麦克风权限,就可以实现基本的语音转文字功能。注意:页面必须运行在 HTTPS 或本地环境(localhost),否则无法获取麦克风权限。











