amd联合ibm及ai新锐zyphra推出zaya1——全球首款完全基于amd硬件训练的moe基础模型,完成14t tokens预训练,整体表现媲美qwen3系列,数学与stem推理能力在未进行指令微调的情况下已接近qwen3专业版本。

训练配置
架构亮点
性能表现
ZAYA1-Base(非指令调优版)在MMLU-Redux、GSM-8K、MATH、ScienceQA等多项评测中与Qwen3-Base相当;在CMATH与OCW-Math任务上表现更优,凸显其在科学与数学领域的强大潜力。Zyphra透露,指令微调及RLHF增强版本计划于2026年第一季度上线,并将开放API接口与模型权重下载。
AMD指出,本次合作成功验证了MI300X搭配ROCm在超大规模MoE模型训练中的稳定性与竞争力,未来将携手更多云服务商推广“全AMD”训练集群方案,目标在2026年实现训练超百亿参数MoE模型时,总体拥有成本(TCO)与NVIDIA方案持平。
源码地址:点击下载
以上就是全球首个“纯 AMD”训练 MoE 大模型 ZAYA1 发布的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号