近日,语音技术领域最具影响力的国际会议之一——ieee workshop on automatic speech recognition and understanding(asru 2025)在美国夏威夷正式拉开帷幕。本次大会汇聚了来自全球语音智能方向的顶尖学者、产业专家与科研骨干。360借条背后的奇富科技,凭借其自主研发的多模态语音情感识别框架qieemo相关成果,获邀参会并作技术分享。业内分析指出,此次受邀充分体现了奇富科技在语音情感理解方向的技术原创性与学术影响力,赢得国际同行的高度关注与认可。

ASRU作为音频理解方向的顶级学术平台,每两年举办一次,长期引领语音识别、语音理解及人机交互等领域的理论突破与技术演进。本届ASRU 2025以“Towards the New Era of Speech Understanding”(迈向语音理解的新时代)为宗旨,聚焦自动语音识别(ASR)与深层语音语义理解的交叉创新,通过高校、研究机构与产业界三方协同,加速前沿成果向实际场景转化。
奇富科技在本次会议上重点介绍了Qieemo——一个基于预训练ASR模型构建的轻量级、高鲁棒性多模态语音情感识别框架。该框架并非面向单一任务定制,而是首次提出具备普适性的通用特征融合范式。其核心思路在于:仅以原始语音流为输入,深度激活ASR编码器内部隐含的音素级表征(PPG)与情感线索,无需额外采集人脸图像、文本转录结果或调用外部ASR服务,全部处理流程在云端闭环完成,从源头保障用户语音数据的私密性与合规性,同时达成高置信度情感判别。
Qieemo框架具备多项显著技术优势:
第一,首次系统性揭示ASR模型各层级特征在情感建模中的差异化贡献,实证表明中间层表征在情绪分类任务中具备最强判别能力,为后续模型结构设计提供了可复现的理论支撑。
第二,原创性地构建MMF(跨模态特征融合模块)与CMA(跨模态注意力机制模块)协同架构,实现语音特征与隐式文本线索之间的动态对齐与增强。在IEMOCAP标准数据集上的测试结果显示,在纯语音输入前提下,其情感识别准确率分别较当前最优的单模态、多模态及自监督方法提升3.0%、1.2%和1.9%。
第三,展现出优异的泛化能力与模型兼容性,可无缝适配多种主流预训练ASR编码器(如Wav2Vec 2.0、Whisper、Conformer等),不依赖特定网络结构;该特性不仅适用于情感计算,还可拓展至活体检测、意图识别、语义解析等下游任务,形成可复用的技术底座。目前,Qieemo已在奇富科技智能客服系统与用户情绪感知模块中开展落地验证,可实时识别通话过程中用户的焦虑、愤怒、迟疑等关键情绪状态,有效优化服务响应策略与风险前置干预能力。
第四,相较传统依赖视觉+语音+文本的多模态方案,Qieemo仅需标准语音通道即可运行,无需加装摄像头、麦克风阵列或部署独立文本引擎等硬件设施,天然适配电话客服、语音助手等现有金融交互渠道,大幅降低部署复杂度与运维成本,同时性能表现媲美甚至超越部分多模态基准方案。
亮相ASRU 2025并展示Qieemo核心技术,标志着奇富科技在人机语音情感交互领域的研究已跻身国际第一梯队。展望未来,360借条所属奇富科技将持续加大在语音理解、情感建模等基础方向的投入力度,坚持“理论突破—框架创新—场景落地”三位一体发展路径,推动人工智能技术真正服务于有温度的金融服务,加速“语音理解新时代”的全面到来。







