dots.llm1— 小红书hi lab开源的文本大模型-人工智能-PHP中文网

dots.llm1— 小红书hi lab开源的文本大模型

聖光之護

发布： 2025-06-10 15:34:01

原创

1114人浏览过

dots.llm1是什么

dots.llm1 是由小红书 hi lab 发布并开源的中等规模 mixture of experts（moe）文本大模型，其参数总量达到 1420 亿，激活参数为 140 亿。该模型在 11.2t 高质量 token 数据集上完成预训练，并采用了高效的 interleaved 1f1b 流水并行技术和 grouped gemm 优化策略，从而显著提升了训练效率。通过精细设计的数据处理流程以及两阶段监督微调方法，dots.llm1 在多个任务如中英文通用场景、数学和代码生成等方面表现出色，具备与 qwen2.5-72b 等模型相当的竞争力。此外，hi lab 团队还开源了 pretrain 阶段每 1t token 的 checkpoint 和 instruct 模型，为研究者提供了丰富的资源支持，有助于推动大模型技术的发展。

文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
dots.llm1的主要功能

多语言文本生成：能够生成高质量的中英文文本，适用于写作辅助、内容创作等多种应用场景。
复杂指令遵循：可以理解和执行复杂的指令，完成特定任务，例如数据整理、代码生成等。
知识问答：提供准确的知识问答服务，帮助用户快速获取所需信息。
数学与代码推理：具备数学计算和代码推理能力，能解决数学问题并编写简单代码。
多轮对话：支持多轮对话交流，理解上下文并给出自然流畅的回应。

dots.llm1的技术原理

Mixture of Experts (MoE) 架构：dots.llm1 是一个基于 Decoder-only Transformer 的 MoE 模型，采用 6in128 Expert 配置，即每个 token 最多激活 6 个专家，总共有 128 个专家。在总共 1420 亿参数中，每次前向传播仅激活 140 亿参数，通过门控机制选择最相关的专家进行计算，从而提升计算效率。
高效的数据处理和训练框架：使用 11.2T 高质量 token 数据进行预训练，这些数据来自 Common Crawl 和自有 Spider 抓取的网络数据，并经过多轮清洗和过滤以确保质量。结合 Interleaved 1F1B 流水并行 AlltoAll overlap 和高效 Grouped GEMM 实现，大幅提高了训练效率。
两阶段监督微调：对全部数据进行两轮基础训练，利用采样和动态学习率调整等技术初步释放模型潜力。针对数学与代码等专业领域，引入拒绝采样微调，并结合验证器筛选高置信度样本，进一步增强模型推理能力。
学习率调度与超参数优化：采用 WSD 学习率调度方式，在稳定阶段保持 3e-4 的学习率训练 10T token 数据，退火阶段则分为两个阶段训练 1.2T token 数据并逐步降低学习率。同时对 batch size 等超参数进行优化，确保训练过程稳定，避免出现 loss spike。