近日,在2025云栖大会上,阿里云正式推出了通义千问系列的最新旗舰模型——qwen3-max,其参数规模首次突破1万亿,预训练数据量高达36万亿字符,被官方誉为“通义史上最强ai”。
作为通义团队迄今为止规模最大、性能最强的模型,Qwen3-Max包含指令版(Instruct)和推理增强版(Thinking)两个版本。其预览版已在国际权威AI评测平台Chatbot Arena中排名第三,正式版发布后有望进一步刷新纪录。实测表现显示,该模型整体性能已超越GPT-5、Claude Opus 4等国际顶尖模型,稳居全球前三行列。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Qwen3-Max最引人注目的亮点之一是其卓越的代码生成能力。在专注于真实编程任务评估的SWE-Bench Verified测试中,Qwen3-Max-Instruct取得了69.6分的高分,位列全球领先水平。这一成绩已接近专业程序员的实际表现,标志着AI写代码正从“辅助工具”迈向“独立解决问题”的新阶段。
在智能体工具调用方面,Qwen3-Max同样表现抢眼。于严苛的Tau2-Bench基准测试中,它以74.8分的成绩力压Claude Opus 4与DeepSeek-V3.1等主流大模型,展现出对复杂指令如“帮我订机票并查询目的地天气”的精准理解与执行能力,在多步骤任务处理上具备显著优势。
尤为值得关注的是其推理增强版本Qwen3-Max-Thinking,在数学推理领域实现了突破性进展。面对极具挑战性的AIME 25和HMMT测试,该模型通过集成代码解释器并采用并行测试时计算技术,成功拿下满分成绩。据阿里工程师介绍,其核心创新在于让AI像人类一样主动调用计算器、绘图工具甚至编写程序来解题,同时通过增加测试阶段的计算资源投入,显著提升了推理准确性与稳定性。

训练效率方面,Qwen3-Max也展现了强大的工程优化能力。得益于MoE架构的设计优势,其预训练过程loss曲线平稳,未出现任何尖刺波动,且全程无需回退训练或调整数据分布。在PAI-FlashMoE高效多级流水并行策略的支持下,Qwen3-Max-Base的训练MFU(Model FLOPs Utilization)相较前代Qwen2.5-Max-Base提升了30%。
针对长序列训练场景,团队引入了ChunkFlow策略,使吞吐量相比传统序列并行方案提升达3倍,成功支撑了Qwen3-Max实现1M长度上下文的训练能力。此外,借助SanityCheck、EasyCheckpoint及调度链路优化等多项技术手段,超大规模集群因硬件故障导致的时间损耗降至Qwen2.5-Max时期的五分之一,极大提升了训练稳定性与效率。
值得一提的是,Qwen3-Max现已支持长达100万字的文本处理,相当于一次性读完整部《三体》三部曲,并能对其进行深度剧情分析与逻辑推演。目前,通义千问系列已完成从0.5B到超万亿参数的全尺寸覆盖,涵盖超过三百个大模型变体,全面适配各类应用场景需求。

有行业观察者指出,中国大模型的发展已从早期的“追赶者”角色逐步转变为与国际巨头“正面交锋”的竞争态势。Qwen3-Max在代码生成与工具调用方面的实质性突破,预示着AI助手将真正具备“动手干活”的能力,而不再局限于回答问题。
然而,尽管技术指标亮眼,普通用户何时能够实际使用这款强大模型仍不明确。专家提醒,若缺乏广泛落地的应用场景支撑,再高的参数规模也可能仅停留在“实验室荣耀”。阿里接下来的关键任务,是如何打通产品化路径,让Qwen3-Max真正走进开发者、企业和大众日常工作中。
你对这款国产最强AI有何看法?欢迎在评论区留言讨论。
以上就是阿里发布参数破万亿通义千问Qwen3-Max,性能跻身全球前三!的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号