小米正式宣布开源其首个原生端到端语音模型——xiaomi-mimo-audio。该模型基于创新的预训练架构,并利用超过一亿小时的海量语音数据进行训练,首次在语音领域实现了基于上下文学习(icl)的少样本泛化能力,且在预训练过程中观察到了显著的“涌现”现象。
官方指出,经过后训练优化,Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力,使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。
Xiaomi-MiMo-Audio 的核心性能表现如下:

Xiaomi-MiMo-Audio 的主要技术突破包括:


模型构成:
MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式,具备高起点强化学习(RL)潜力,可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。
此外,小米还同步开源了 MiMo-Audio 的 Tokenizer 模型:
以上就是小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号