小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio-IT新闻-PHP中文网

小米正式宣布开源其首个原生端到端语音模型——xiaomi-mimo-audio。该模型基于创新的预训练架构，并利用超过一亿小时的海量语音数据进行训练，首次在语音领域实现了基于上下文学习（icl）的少样本泛化能力，且在预训练过程中观察到了显著的“涌现”现象。

官方指出，经过后训练优化，Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力，使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。

Xiaomi-MiMo-Audio 的核心性能表现如下：

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio 的主要技术突破包括：

首次验证：将语音无损压缩下的预训练规模扩展至 1 亿小时，可“涌现”出跨任务的泛化能力，展现出强大的 Few-Shot Learning 特性，标志着语音领域的“GPT-3 时刻”到来

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

火山方舟

火山引擎一站式大模型服务平台，已接入满血版DeepSeek

下载

全球首个明确定义生成式语音预训练目标并完整开源整套语音预训练体系的项目，涵盖无损压缩 Tokenizer、全新模型结构、训练流程与评估标准，开启语音技术的“LLaMA 时刻”

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

模型构成：

MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式，具备高起点强化学习（RL）潜力，可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。

此外，小米还同步开源了 MiMo-Audio 的 Tokenizer 模型：