电梯、地库里通话不卡顿，腾讯主导新一代实时语音编码行业标准 AVS3P10 即将发布-IT新闻-PHP中文网

电梯、地库里通话不卡顿，腾讯主导新一代实时语音编码行业标准 AVS3P10 即将发布

WBOY

发布： 2024-06-27 18:20:01

转载

469人浏览过

本站 6 月 27 日消息，腾讯今日宣布，该公司主导的新一代实时语音编码行业标准 avs3p10 完成定稿，即将正式对外发布。此次 avs 音频组 avs3p10 标准采纳了腾讯侧方案，以腾讯会议首款自研神经网络语音编解码器 penguins ai 语音引擎为原型，可提升弱网环境下的通话质量。

电梯、地库里通话不卡顿，腾讯主导新一代实时语音编码行业标准 avs3p10 即将发布

腾讯介绍称，这是全球首个系统性引入人工智能并实现低码率下高质量语音编码标准，表现达到国际一流水准。仅需 1/3 的编码码率，就能实现和现有主流标准同等清晰的音质。“即使网络卡如 2G，也能顺畅开会”。

该标准由腾讯提议启动、推进和维护，经过 AVS 音频组多家成员单位共同贡献。“今后在线上会议、语音通话等实时音频场景，带宽要求大幅降低。即使在电梯、地库、隧道等网络很差的环境，也能实现清晰流畅的语音通话。”

电梯、地库里通话不卡顿，腾讯主导新一代实时语音编码行业标准 AVS3P10 即将发布

据介绍，在有限的带宽条件下，想要将声音高质量传递到接收方，压缩原始数据、去除冗余信息的语音编码技术是其中关键。然而，基于 EVS、OPUS 等现有主流音频编解码标准，当码率降低到 10kbps 以下时，语音质量下降明显，影响用户体验。

为应对该挑战，腾讯会议天籁实验室联合腾讯 AI Lab 自研了腾讯首款神经网络语音编解码器 ——Penguins。

具体来说，Penguins 将 AI 与传统技术融合，打破传统香农定律的性能极限，引入大数据并在可控算力增量下提供了新的性能上界，从而对下一代通信系统，尤其是信源编码器部分，提供了新的技术基础和方法论。通过 AI 语音信号建模，提取最核心的特征参数编码，再借助深度学习网络，预测并重建语音中的细微结构，最终生成逼真的音频波形。

多方测试表明，腾讯提交的 AVS3P10 标准实现了 6kbps 下的高质量语音通信，即使在“2G”网络下也能实现清晰通话，且主观质量非常接近原始参考信号，媲美国际主流的 OPUS 标准在 20kbps 的质量。同时，主观质量对标传统编码的中高码率情况下，编码效率提升 200-300%。