参数量超1万亿！通义千问新模型Qwen3-Max性能领先引期待-人工智能-PHP中文网

参数量超1万亿！通义千问新模型Qwen3-Max性能领先引期待

星夢妙者

发布： 2025-09-19 14:57:30

原创

161人浏览过

近日，阿里巴巴旗下通义千问 qwen上线新模型qwen3-max-preview (instruct)。官方宣称，“这是我们迄今为止最大的模型，参数量超1万亿！”参数量的飞跃为ai技术的应用开辟了全新的可能性。

Qwen3-Max-Preview在多项主流权威基准测试中展现出全球领先的性能。在通用知识（SuperGPQA）评测中，它的表现超越了当前市面上大多数同类模型，显示出其在处理各种常识性问题上的强大能力。数学推理（AIME25）能力是AI模型的重要考核指标之一，而Qwen3-Max-Preview在这一领域也展现了极高的准确性和灵活性，能够有效解决复杂的数学问题。

在编程能力（LiveCodeBench v6）评测中，Qwen3-Max-Preview同样表现不俗，它能够理解并生成多种编程语言的代码，助力开发者提高工作效率。人类偏好对齐（Arena-Hard v2）评测旨在测试AI模型在理解和满足人类需求方面的能力，Qwen3-Max-Preview在这方面的表现令人瞩目，成功对齐了人类的偏好。综合性能力评估（LiveBench）综合了多种能力，Qwen3-Max-Preview同样表现优异，展现了其在多任务处理上的卓越能力。通过这些测试结果可以看出，Qwen3-Max-Preview不仅在参数数量上遥遥领先，更在实际应用中展现出了超强的性能。

在当前的AI市场中，许多知名模型如Claude - Opus 4、Kimi - K2以及DeepSeek - V3.1等都在激烈竞争，而Qwen3-Max-Preview的出现无疑为这一竞争增添了新的变量。在多项测试中，Qwen3-Max-Preview超越了Claude-Opus 4（Non-Thinking）、Kimi-K2、DeepSeek-V3.1和其此前的开源最佳Qwen3-235B-A22B-Instruct-2507。

例如，它在SuperGPQA和LiveBench的表现都明显优于Claude-Opus 4，这一结果让业内专家们对其未来的应用潜力充满期待。

为了方便开发者和企业用户使用Qwen3-Max-Preview，通义千问已将其上线于阿里云的百炼平台，用户可以通过API直接调用这一强大的模型。此外，Qwen Chat也同步上线了新模型，支持用户免费使用。这一举措不仅降低了AI技术的使用门槛，也为更多用户提供了体验和应用先进AI技术的机会。