如何利用Node.js将语音转换为文本

WBOY

发布时间：2023-04-11 19:30:27

2562人浏览过

来源于51CTO.COM

转载

译者 | 李睿

审校 | 孙淑娟

本文将简要概述语音识别技术及其常见应用，并演示一个免费的语音到文本的API，该API可用于以MP3和WAV文件格式转录音频。这个演示将包括逐步指令使用“即运行Node.js代码”示例调用这个API。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

语音识别技术的概述

人们通常将语音识别技术视为当代技术领域的一个相对较新的补充，而这只是一部分事实。语音识别技术已经存在了半个多世纪，从上世50年代初的一些先驱公司开发的功能有限的数字/文字识别系统开始。，尽管语音识别技术有着悠久的历史，过去十年来在智能消费类设备领域得到了广泛应用，但语音识别仍然是当今市场上较为抽象的技术之一。这是因为各种语音识别技术都跨越了计算机科学、计算语言学和数学/统计学等领域，需要各个领域的大量输入才能获得准确的语音到文本结果。

在（非常）高的级别上，为了让语音识别技术实施其最基本的任务，必须首先对给定的音频文件进行预处理以优化其质量。然后将其分解为更小的分量信号并进行排序。这些经过排序的信号必须足够小，以便数学模型可以将其与某些音素（结合在一起生成单词的特定于语言的声音；例如“eeee”或“ahhh”噪音）匹配，这有助于与该语言中的短语或句子进行比较。归根结底，语音识别服务的目标很简单：尽可能准确地猜测录制的音频中使用了哪些单词，并不断改进和扩展其语言数据库，直到猜测达到可接受的准确性水平。

这种复杂且固有的有限信息猜测系统甚至使最基本的语音识别服务也依赖于语言和方言，因为它们依赖于音频质量。语言、口音、词汇的变化以及背景噪音的存在都会产生边界，这对于单个语音到文本模型很难克服。此外，这种复杂性反映了一个基本事实，即语音识别服务是高度资源密集型的，依赖于庞大并且不断增长的参考数据集进行语音比较，需要相当大的计算能力才能有效利用这些数据集。这些因素共同使得训练一个全新的语音到文本模型成为一项艰巨的任务。

语音识别的应用

语音识别在很大程度上是由于在更大的技术市场上出现了一些无处不在的创新，尤其是近乎无限的云计算数据存储解决方案的增长，语音识别已成为人们现在在日常生活中认识到的高效而有用的消费者服务。人们可以直接采用手机、固定电话和办公室设备进行沟通和对话，以自动查询所需要的信息，记录和组织自己的想法供以后使用，以及听到大声宣读的短信，等等。

目前，消费者应用只是语音识别技术应用的冰山一角。语音识别的许多相互关联的过程的进步创造了扩展音频转录输出的机会，并鼓励越来越多的商业应用程序进行语音到文本转换。在人们的周围有很多这样的例子。许多虚拟会议平台现在使用语音识别服务（通常是实时的）对团队演示文稿进行转录，生成的文本可以方便地存储给任何可能错过会议的人。聊天机器人利用语音识别帮助人们在手机上进行选择，这些对话中转录的音频可以用于其他用途：为未来更好的客户服务实践提供信息。人们可能参加的讲座、访谈、演讲和其他演讲活动可以通过个人设备进行录制和转录，以消除人工抄录笔记的工作。例如，这些转录可以通过自然语言处理（NLP）模型进行处理，以从转录文本中寻找以前看不到（或听不到）的见解。

值得一提的是，实用的内容调节和搜索引擎优化功能也可以从可扩展的语音到文本分析服务中获得——而这次是在企业数据存储环境中获得。考虑到大多数客户端上传内容的不可靠性，自动转录上传到网站的音频文件可以轻松调节父级音频文件的语言，以确保其对所有听众安全（例如查看是否包含极有争议的语言、仇恨言论或任何形式的对个人或团体的骚扰）。这显著减少了内容审核人员的工作量，并提高了其效率。这些相同的转录文件还可以用于生成有用的关键字，从而使音频文件更容易从大型数据库中搜索和检索。

示范：CloudMersive语音到文本API

将语音识别作为一项服务加以利用的一种方法是通过包含Cloudmersive语音到文本API。该API目前支持MP3或WAV格式，并采用深度学习人工智能模型提供高精度的音频转录。其API参数非常简单，只需要输入音频文件和Cloudmersive API密钥（API密钥可以通过在其网站上注册一个免费帐户获得，该帐户每月最多生成800个API调用）。以下将演示如何使用互补Node.js代码段构建API调用。

Voicepods

Voicepods是一个在线文本转语音平台，允许用户在30秒内将任何书面文本转换为音频文件。

下载

第一步是安装Node.js SDK。这可以通过运行以下命令来做到：

npm install cloudmersive-speech-api-client --save

另外，可以将以下这一代码段添加到其软件包中。

"dependencies": {
"cloudmersive-speech-client": "^1.1.5"
}

在安装完成之后，可以使用以下代码块构建API调用。此时，需要确保已经准备好以下参数：

（1）MP3或WAV音频文件。

（2）CloudMersive API密钥。

var CloudmersiveSpeechApiClient = require('cloudmersive-speech-api-client');
var defaultClient = CloudmersiveSpeechApiClient.ApiClient.instance;
// Configure API key authorization: Apikey
var Apikey = defaultClient.authentications['Apikey'];
Apikey.apiKey = 'YOUR API KEY';
var apiInstance = new CloudmersiveSpeechApiClient.RecognizeApi();
var speechFile = Buffer.from(fs.readFileSync("C:\temp\inputfile").buffer); // File | Speech file to perform the operation on.Common file formats such as WAV, MP3 are supported.
var callback = function(error, data, response) {
if (error) {
console.error(error);
} else {
console.log('API called successfully. Returned data: ' + data);
}
};
apiInstance.recognizeFile(speechFile, callback);

这样就完成了API的构建，无需进一步的代码段。成功的API呼叫将返回包含API转录结果的Textresult字符串。务必记住的是，输入文件中的音频质量将对API创建准确转录的能力产生重大影响，因此建议在实施这一操作之前尽可能预处理和优化音频质量。

原文标题：How to Leverage Speech-to-Text With Node.js，作者：Brian O'Neill

AI思维导图生成工具有哪些_一键生成知识图谱的AI工具推荐

演讲稿没思路？教你用AI在10分钟内生成一篇精彩讲稿

Removebg能否识别商品白底_Removebg电商白底图自动处理流程【教程】

夸克AI怎么用AI总结文档_夸克AI文档总结功能与格式支持【教程】

扣子AI怎么设置自动回复_扣子AI自动回复规则与触发条件【教程】

相关专题

node.js调试

node.js调试可以使用console.log()输出调试信息、断点调试和第三方调试工具。详细介绍：1、console.log()输出调试信息，通过在代码中插入console.log()语句，开发人员可以在控制台输出变量的值、函数的执行结果等信息，以便观察代码的执行流程和状态；2、断点调试，可以在代码中设置断点，以便在特定位置暂停代码的执行，观察变量的值和执行流程等。

341

2023.09.19

JavaScript 全栈开发基础（Node.js + 前端）

本专题系统介绍 JavaScript 在全栈开发中的核心知识结构，涵盖 Node.js 基础、Express/Koa 接口构建、前端交互设计、模块化与包管理、数据库连接、前后端数据通信与部署流程。通过完整项目示例，帮助学习者掌握从浏览器到服务器的一体化开发能力，实现真正意义上的全栈入门。

2025.11.26

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

246

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1428

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

606

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

546

2024.03.22