小米正式宣布开源其首个原生端到端语音模型——xiaomi-mimo-audio。该模型基于创新的预训练架构,并利用超过一亿小时的海量语音数据进行训练,首次在语音领域实现了基于上下文学习(icl)的少样本泛化能力,且在预训练过程中观察到了显著的“涌现”现象。
官方指出,经过后训练优化,Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力,使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。
Xiaomi-MiMo-Audio 的核心性能表现如下:
- 在多项通用语音理解与对话评测基准中,MiMo-Audio 显著优于同规模参数的开源模型,成为当前 7B 级别中性能最强的开源语音模型
- 在音频理解任务标准测试集 MMAU 上,性能超越 Google 的闭源模型 Gemini-2.5-Flash
- 在面向复杂音频推理的 Big Bench Audio S2T 基准中,同样超过了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview

Xiaomi-MiMo-Audio 的主要技术突破包括:
- 首次验证:将语音无损压缩下的预训练规模扩展至 1 亿小时,可“涌现”出跨任务的泛化能力,展现出强大的 Few-Shot Learning 特性,标志着语音领域的“GPT-3 时刻”到来

- 全球首个明确定义生成式语音预训练目标并完整开源整套语音预训练体系的项目,涵盖无损压缩 Tokenizer、全新模型结构、训练流程与评估标准,开启语音技术的“LLaMA 时刻”

- 首个在语音理解与生成过程中同时引入“思考(Thinking)”机制的开源模型,支持混合式思维推理
模型构成:
- MiMo-Audio-7B-Base:预训练基础模型,是目前开源生态中首个具备语音续写能力的端到端语音模型
- MiMo-Audio-7B-Instruct:经轻量级指令微调(SFT)后的版本,在7B参数量级下实现领先的语音理解与生成性能
MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式,具备高起点强化学习(RL)潜力,可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。
此外,小米还同步开源了 MiMo-Audio 的 Tokenizer 模型:
- 参数规模达 1.2B,采用 Transformer 架构,兼顾高效性与建模能力
- 从零开始训练,覆盖超千万小时真实语音数据
- 同时支持高保真音频重建与音频转文本(A2T)双重任务











