小米新一代kaldi团队在语音识别领域取得重大突破!其论文《cr-ctc: consistency regularization on ctc for improved speech recognition》已被iclr 2025接收。该论文提出了一种名为cr-ctc的新方法,显著提升了纯ctc语音识别模型的性能,使其与更复杂的transducer和ctc/aed模型不相上下,甚至在多个数据集上取得了新的sota结果。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这项研究由Kaldi之父Daniel Povey领衔,基于新一代Kaldi开源项目(https://www.php.cn/link/d4ae72ec5374a998c56865d04fb32da5。

论文链接:https://www.php.cn/link/82d7316e019b5fbd2889b907e203aa32 论文代码:https://www.php.cn/link/bb0a313f554c3a2b6e9944368512bb9b)

CR-CTC的核心思想是通过一致性正则化来提升CTC模型的性能。 它利用SpecAugment数据增强技术生成两个不同的输入视图,并分别输入到共享参数的编码器中。通过最小化两个CTC概率分布之间的KL散度,CR-CTC有效地约束了模型输出的一致性,从而提高了模型的泛化能力。

论文深入探讨了CR-CTC的三个关键方面:自蒸馏、掩码预测和峰值抑制。实验结果表明,CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等数据集上均取得了显著的性能提升,超越了标准CTC,并与CTC/AED和Transducer模型的效果相当,甚至在与后者联合训练后取得了更好的结果。








这项研究为语音识别技术的发展提供了新的思路,也展现了新一代Kaldi项目在推动开源语音技术进步方面的巨大潜力。 CR-CTC的简洁性和有效性使其具有广泛的应用前景。
以上就是ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号