Python如何实现实时语音转文字？SpeechRecognition库详细教程

蓮花仙者

发布时间：2025-07-14 15:15:02

990人浏览过

来源于php中文网

原创

要实现实时语音转文字，可使用python的speechrecognition库配合pyaudio进行音频捕获和识别。首先安装speechrecognition和pyaudio（可通过下载wheel文件解决安装问题），然后使用google语音识别api或其他api如recognize_sphinx进行识别。为实现持续实时识别，需在循环中分段录音并处理，通过pause_threshold和phrase_time_limit控制录音结束条件，并使用adjust_for_ambient_noise减少背景噪音。选择api时需考虑准确率、延迟、价格及是否支持离线使用；提高识别准确率的方法包括降噪、优化音频质量、选择合适语言模型、分段处理及后处理；常见错误如网络连接、api限制、无法识别语音等，可通过更换api、调整麦克风设置、增加超时时间等方式处理。

Python如何实现实时语音转文字？SpeechRecognition库详细教程

Python实现实时语音转文字，核心在于利用语音识别库捕获音频流并将其转换为文本。SpeechRecognition库是一个不错的选择，它简化了与各种语音识别API的交互。

解决方案

安装SpeechRecognition库和pyaudio:

立即学习“Python免费学习笔记（深入）”；
```
pip install SpeechRecognition
pip install pyaudio
```
pyaudio 是一个跨平台音频 I/O 库，用于录制和播放音频。安装 pyaudio 可能会遇到问题，尤其是在 Windows 上。如果 pip install pyaudio 失败，可以尝试下载预编译的 wheel 文件。搜索 "pyaudio wheel" 找到与你的 Python 版本和操作系统相匹配的版本，然后使用 pip install 文件名.whl 安装。

简单语音识别示例:

import speech_recognition as sr

r = sr.Recognizer()
with sr.Microphone() as source:
    print("请说话...")
    audio = r.listen(source)

try:
    text = r.recognize_google(audio, language='zh-CN') # 指定中文
    print("你说的是: {}".format(text))
except sr.UnknownValueError:
    print("无法识别您的语音")
except sr.RequestError as e:
    print("无法连接到 Google 语音识别服务; {0}".format(e))

这段代码使用默认麦克风录制音频，然后使用 Google 语音识别 API 将其转换为文本。language='zh-CN' 指定了中文识别。如果不想使用Google，可以使用其他的API，比如recognize_sphinx，recognize_wit等等，但是这些API可能需要额外的配置。

实时语音转文字:

要实现实时语音转文字，需要持续录制音频并将其分段识别。这可以通过循环实现。

星火作家大神

星火作家大神是一款面向作家的AI写作工具

下载

import speech_recognition as sr
import time

r = sr.Recognizer()
mic = sr.Microphone()

with mic as source:
    r.adjust_for_ambient_noise(source)  # 可选: 消除环境噪音

def recognize_worker():
    while True:
        try:
            with mic as source:
                r.pause_threshold = 0.8 # 停顿0.8秒后结束录音
                audio = r.listen(source, phrase_time_limit=5) # 每次录制5秒
            try:
                text = r.recognize_google(audio, language='zh-CN')
                print("你说的是: {}".format(text))
            except sr.UnknownValueError:
                print("无法识别")
            except sr.RequestError as e:
                print("请求错误; {0}".format(e))
        except Exception as e:
            print(f"发生错误: {e}")
        time.sleep(0.1)

recognize_worker()

这个例子中，pause_threshold 控制静音多久后结束录音，phrase_time_limit 限制每次录音的最大时长。 adjust_for_ambient_noise 可以消除一些背景噪音，提高识别准确率。注意，实时性受网络延迟和语音识别 API 处理速度的影响。

如何选择合适的语音识别API？

选择语音识别 API 取决于你的需求。Google Speech Recognition API 易于使用，但依赖网络连接。CMU Sphinx 是一个开源的离线语音识别引擎，但准确率可能不如在线 API。其他选择包括 Wit.ai、Microsoft Bing Voice Recognition API 等。考虑因素包括：

准确率： 不同的 API 在不同的语言和口音下表现不同。
延迟： 实时性要求高的应用需要低延迟的 API。
价格： 某些 API 是免费的，但有使用限制。
离线支持： 如果需要在没有网络连接的情况下使用，选择离线语音识别引擎。

如何提高语音识别的准确率？

提高准确率是一个持续的过程，需要根据具体情况进行调整。一些常用的方法包括：

消除噪音： 使用降噪麦克风，或者在代码中使用 adjust_for_ambient_noise。
优化音频质量： 确保音频清晰，避免失真。
选择合适的语言模型： 根据应用场景选择合适的语言和方言。
使用定制化语言模型： 对于特定领域的应用，可以训练定制化的语言模型。
分段处理： 将长音频分割成短片段，可以提高识别准确率。
后处理： 对识别结果进行后处理，例如纠正拼写错误，可以提高整体质量。

如何处理语音识别过程中的常见错误？

语音识别可能会遇到各种错误，例如网络连接问题、API 限制、无法识别的语音等。处理这些错误需要一定的技巧。

网络连接错误： 检查网络连接是否正常，或者尝试更换语音识别 API。
API 限制： 如果使用免费 API，可能会受到使用限制。可以考虑付费版本，或者切换到其他 API。
无法识别的语音： 尝试调整麦克风灵敏度，或者使用降噪算法。
超时错误： 增加超时时间，或者优化网络连接。
权限错误： 确保程序有访问麦克风的权限。

在实际应用中，需要根据具体情况选择合适的解决方案。例如，如果需要在嘈杂的环境中使用，可能需要使用更高级的降噪算法。如果需要处理大量的语音数据，可能需要考虑使用云计算服务。

将语音识别文本转化为G-code或坐标路径的完整实现指南

将语音识别文本转化为G-code或坐标指令的完整实现指南

Python 如何让 print() 在 Jupyter 里也显示彩色 ANSI

fastapi 如何让 OpenAPI 文档显示中文且支持 markdown

将PDF法律合同精准拆分为结构化HTML并提取章节内容

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

730

2023.08.11