Ring-lite— 蚂蚁技术开源的轻量级推理模型-人工智能-PHP中文网

Ring-lite— 蚂蚁技术开源的轻量级推理模型

碧海醫心

发布： 2025-06-24 11:28:01

原创

265人浏览过

ring-lite是蚂蚁技术anttech团队推出的基于moe架构的轻量级推理模型。该模型以ling-lite-1.5为基底，结合独创的c3po强化学习训练方法，在多个推理benchmark中达到sota水平，仅需2.75b激活参数。ring-lite通过稳定强化学习训练、优化long-cot sft与rl训练比例、解决多领域任务联合训练难题等技术创新，实现高效推理能力。同时，其技术栈全面开源，包括模型权重、训练代码和数据集，助力轻量级moe推理模型的发展。

开源电子商务系统(网店) iWebShop

iWebShop基于iWebSI框架开发，在获得iWebSI技术平台库支持的条件下，iWebShop可以轻松满足用户量级百万至千万级的大型电子商务网站的性能要求。站点的集群与分布式技术（分布式计算与存储/高可用性/负载均衡）被屏蔽在SI 平台之内，基于iWebShop并且按照SI平台库扩展规范开发的新增功能模块，也将同时获得这种超级计算与处理的能力。作为开源的LAMP电子商务系统，iWebShop

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Ring-lite的主要功能

高效推理：Ring-lite可在多种复杂推理任务中表现出色，涵盖数学推理、编程竞赛及科学推理等领域。
轻量化设计：总参数量为16.8B，激活参数仅2.75B，在保持高性能的同时降低计算资源消耗，适用于资源受限环境。
跨领域推理能力：支持数学、编程、科学等多个领域的推理任务。通过联合训练与分阶段训练策略，提升不同任务间的协同效果，增强泛化能力。
训练稳定性增强：采用C3PO强化学习方法，有效缓解传统强化学习中的训练不稳定问题，提高训练效率和稳定性。

Ring-lite的技术原理

MoE架构：Ring-lite基于Mixture-of-Experts（MoE）结构，利用多个专家网络协同处理输入数据。每个专家专注于特定子任务或特征，从而提升整体推理效率。
C3PO强化学习方法：C3PO（Constrained Contextual Computation Policy Optimization）是一种创新性的强化学习训练方式。它通过固定每轮训练的token总量，避免回复长度变化带来的优化波动，并借助熵损失策略选择合适的起始模型，提升训练稳定性。
Long-CoT SFT与RL融合训练：采用两阶段训练策略，先使用Long-CoT监督微调（SFT）让模型掌握复杂推理逻辑，再通过强化学习（RL）进一步优化特定任务表现。通过实验确定最佳SFT与RL训练比例，在性能与token效率间取得平衡。
多领域联合训练机制：在训练过程中整合数学、编程、科学等多个领域数据，采用分阶段训练策略，先专注数学任务，再进行代码与科学任务的联合训练，有效缓解多领域数据间的冲突问题。