首页 > 新闻 > IT新闻 > 正文

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

霞舞
发布: 2025-09-19 12:21:31
原创
821人浏览过

小米正式宣布开源其首个原生端到端语音模型——xiaomi-mimo-audio。该模型基于创新的预训练架构,并利用超过一亿小时的海量语音数据进行训练,首次在语音领域实现了基于上下文学习(icl)的少样本泛化能力,且在预训练过程中观察到了显著的“涌现”现象。

官方指出,经过后训练优化,Xiaomi-MiMo-Audio 在智能理解、情感表达、语音表现力以及安全性等方面展现出卓越的跨模态对齐能力,使得语音交互在自然度、情绪传递和对话连贯性上达到了高度拟人化的水平。

Xiaomi-MiMo-Audio 的核心性能表现如下:

  • 在多项通用语音理解与对话评测基准中,MiMo-Audio 显著优于同规模参数的开源模型,成为当前 7B 级别中性能最强的开源语音模型
  • 在音频理解任务标准测试集 MMAU 上,性能超越 Google 的闭源模型 Gemini-2.5-Flash
  • 在面向复杂音频推理的 Big Bench Audio S2T 基准中,同样超过了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio 的主要技术突破包括:

  • 首次验证:将语音无损压缩下的预训练规模扩展至 1 亿小时,可“涌现”出跨任务的泛化能力,展现出强大的 Few-Shot Learning 特性,标志着语音领域的“GPT-3 时刻”到来

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

天工大模型
天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

天工大模型 115
查看详情 天工大模型
  • 全球首个明确定义生成式语音预训练目标并完整开源整套语音预训练体系的项目,涵盖无损压缩 Tokenizer、全新模型结构、训练流程与评估标准,开启语音技术的“LLaMA 时刻”

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio

  • 首个在语音理解与生成过程中同时引入“思考(Thinking)”机制的开源模型,支持混合式思维推理

模型构成:

  • MiMo-Audio-7B-Base:预训练基础模型,是目前开源生态中首个具备语音续写能力的端到端语音模型
  • MiMo-Audio-7B-Instruct:经轻量级指令微调(SFT)后的版本,在7B参数量级下实现领先的语音理解与生成性能

MiMo-Audio-7B-Instruct 支持通过 prompt 切换 non-thinking 与 thinking 两种运行模式,具备高起点强化学习(RL)潜力,可作为语音领域 RL 与 Agentic 行为研究的理想基座模型。

此外,小米还同步开源了 MiMo-Audio 的 Tokenizer 模型:

  • 参数规模达 1.2B,采用 Transformer 架构,兼顾高效性与建模能力
  • 从零开始训练,覆盖超千万小时真实语音数据
  • 同时支持高保真音频重建与音频转文本(A2T)双重任务

以上就是小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio的详细内容,更多请关注php中文网其它相关文章!

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号