MetaStone-S1— 原石科技推出的反思型生成式大模型

心靈之曲

发布时间：2025-07-09 13:48:19

415人浏览过

来源于php中文网

原创

MetaStone-S1介绍

由原石科技研发的metastone-s1是一款具备反思能力的生成式大模型，首次将深度推理与推理链自筛选机制融合。该模型采用自监督反思范式，通过共享主干结构的策略模型和过程评分模型（sprm），仅增加53m参数即可实现对推理步骤质量的实时评估，无需依赖人工标注数据。模型支持long-cot强化学习，可生成超长推理链，在数学（aime）、代码（livecodebench）和中文推理（c-eval）任务中表现优于同类模型。提供1.5b、7b、32b三种版本并全面开源，以较低成本实现高性能推理，推动推理智能进入“自我修正”新阶段。

Vozo

Vozo是一款强大的AI视频编辑工具，可以帮助用户轻松重写、配音和编辑视频。

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
MetaStone-S1的核心功能

深度推理生成功能：MetaStone-S1能够生成复杂且超长的推理链条（Long-CoT），适用于解决数学证明、编程算法等高难度推理问题。
智能推理链优化：模型内置自监督过程评分机制（SPRM），可自动识别并剔除推理过程中的错误步骤，显著提升最终答案的准确性。
多模式推理设置：提供Low（快速响应）、Medium（平衡精度与速度）、High（深度思考）三种推理模式，满足不同场景下的推理需求。
开源扩展能力：全面开放1.5B/7B/32B三种规模模型及相关工具，便于开发者在特定领域进一步优化模型推理性能。

MetaStone-S1的技术机制

双头共享架构：基于策略模型（Policy Model）与过程评分模型（SPRM）共享主干网络的设计，在Transformer层上并行部署生成头（Generation Head）和评分头（Scoring Head），前者负责生成推理链，后者基于自监督学习对每个推理步骤进行实时评分。
自监督过程奖励机制：提出SPR Loss（Self-supervised Process Reward Loss）算法，利用最终答案的正确性作为弱监督信号，结合噪声过滤机制自动生成步骤级伪标签，从而完成过程评分模型的训练，摆脱对人工标注的依赖。
动态推理优选机制：在推理阶段使用Test-Time Scaling技术：先生成多条候选推理链（如High模式生成32条），通过SPRM计算路径总分，选择最优路径继续生成，形成“生成-评估-择优”的闭环流程。
联合优化策略：基于GRPO强化学习算法同步优化策略模型和SPRM，其中策略模型最大化答案正确率，SPRM则通过对比学习区分优质与低质推理步骤，两者共享梯度信息，实现协同进化。
推理能力调控机制：设计了思考长度与模型性能之间的Scaling Law，通过调整rollout次数来控制计算量（参数量×思考token数），实现从快速响应（Low）到深度思考（High）的平滑过渡。

MetaStone-S1的项目链接

GitHub仓库：https://www.php.cn/link/82c3cf12914d43d34d8883ec88307da2
HuggingFace模型平台：https://www.php.cn/link/678548c30395fff1e76b0bd142324331
arXiv技术文档：https://www.php.cn/link/67249303d47d37fe078e1439f958b92b

MetaStone-S1的应用方向

教育智能化：作为“AI导师”精准解答数学/物理竞赛题目，生成可交互的解题路径说明。
法律智能应用：深入分析合同条款间的逻辑关系，准确识别潜在法律风险点，并提供符合法律逻辑的修订建议。
智能制造领域：基于多级因果推理，迅速定位工业设备故障根源，生成最优维修方案，显著提高生产效率。
学术写作辅助：支持科研论文中的公式推导和理论验证，确保学术内容的逻辑严谨性。

Stable Diffusion ControlNet怎么用 ControlNet插件安装及骨架图使用【进阶】

Mistral Vibe CLI— Mistral AI推出的开源命令行代码助手

DeepSeekOCR怎么部署到国产操作系统_统信UOS等系统DeepSeekOCR部署教程

DeepSeekOCR怎么部署到云服务器本地化_云服务器部署DeepSeekOCR并本地化使用教程

Notion数据库怎么版本控制_Notion数据版本管理与历史记录查看方法

相关标签:

git 工具 ai 架构 Token github 算法 transformer http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Hunyuan3D-PolyGen— 腾讯混元推出的美术级3D生成大模型下一篇：小米汽车上周销量细节出炉：总销量0.49万 YU7仅336辆

作者最新文章

iPhone 18 Pro明年见：共有12大核心卖点

2025-12-24 12:00

荣耀WIN系列支持5920Hz PWM调光：行业最高久玩不累眼

2025-12-24 12:02

苹果iPhone Fold外屏比预期更小：背后原因揭开

2025-12-24 12:07

2026首台真全面屏旗舰！红魔11 Air明年1月发布：祖传主动散热风扇回归

2025-12-24 12:11

《逆水寒》手游虚拟演唱会来了唐诗逸带玩家飞天

2025-12-24 12:18

曝《荒野大镖客2》已为次时代主机进行了优化包括Switch2

2025-12-24 12:22

瓦学弟的胜利？传《CS2》将改变皮肤获取方式

2025-12-24 12:26

《如龙极3》加入帮派养成骑摩托突袭基地玩这么大?

2025-12-24 12:40

《怪猎荒野》祭典惹人眼：你这"鸟人"胆敢消遣洒家？

2025-12-24 13:26

《羊蹄山》女主演：我的年度游戏不会是《羊蹄山》

2025-12-24 13:26

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6022

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

777

2023.09.14