阿里发布参数破万亿通义千问Qwen3-Max，性能跻身全球前三！-人工智能-PHP中文网

阿里发布参数破万亿通义千问Qwen3-Max，性能跻身全球前三！

雪夜

发布： 2025-09-28 14:01:44

原创

1137人浏览过

近日，在2025云栖大会上，阿里云正式推出了通义千问系列的最新旗舰模型——qwen3-max，其参数规模首次突破1万亿，预训练数据量高达36万亿字符，被官方誉为“通义史上最强ai”。

作为通义团队迄今为止规模最大、性能最强的模型，Qwen3-Max包含指令版（Instruct）和推理增强版（Thinking）两个版本。其预览版已在国际权威AI评测平台Chatbot Arena中排名第三，正式版发布后有望进一步刷新纪录。实测表现显示，该模型整体性能已超越GPT-5、Claude Opus 4等国际顶尖模型，稳居全球前三行列。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Qwen3-Max最引人注目的亮点之一是其卓越的代码生成能力。在专注于真实编程任务评估的SWE-Bench Verified测试中，Qwen3-Max-Instruct取得了69.6分的高分，位列全球领先水平。这一成绩已接近专业程序员的实际表现，标志着AI写代码正从“辅助工具”迈向“独立解决问题”的新阶段。

在智能体工具调用方面，Qwen3-Max同样表现抢眼。于严苛的Tau2-Bench基准测试中，它以74.8分的成绩力压Claude Opus 4与DeepSeek-V3.1等主流大模型，展现出对复杂指令如“帮我订机票并查询目的地天气”的精准理解与执行能力，在多步骤任务处理上具备显著优势。

尤为值得关注的是其推理增强版本Qwen3-Max-Thinking，在数学推理领域实现了突破性进展。面对极具挑战性的AIME 25和HMMT测试，该模型通过集成代码解释器并采用并行测试时计算技术，成功拿下满分成绩。据阿里工程师介绍，其核心创新在于让AI像人类一样主动调用计算器、绘图工具甚至编写程序来解题，同时通过增加测试阶段的计算资源投入，显著提升了推理准确性与稳定性。

训练效率方面，Qwen3-Max也展现了强大的工程优化能力。得益于MoE架构的设计优势，其预训练过程loss曲线平稳，未出现任何尖刺波动，且全程无需回退训练或调整数据分布。在PAI-FlashMoE高效多级流水并行策略的支持下，Qwen3-Max-Base的训练MFU（Model FLOPs Utilization）相较前代Qwen2.5-Max-Base提升了30%。

VoxDeck

美间AI推出的演示文稿制作智能体

查看详情

针对长序列训练场景，团队引入了ChunkFlow策略，使吞吐量相比传统序列并行方案提升达3倍，成功支撑了Qwen3-Max实现1M长度上下文的训练能力。此外，借助SanityCheck、EasyCheckpoint及调度链路优化等多项技术手段，超大规模集群因硬件故障导致的时间损耗降至Qwen2.5-Max时期的五分之一，极大提升了训练稳定性与效率。

值得一提的是，Qwen3-Max现已支持长达100万字的文本处理，相当于一次性读完整部《三体》三部曲，并能对其进行深度剧情分析与逻辑推演。目前，通义千问系列已完成从0.5B到超万亿参数的全尺寸覆盖，涵盖超过三百个大模型变体，全面适配各类应用场景需求。