马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升

冷炫風刃
发布: 2025-11-18 17:27:30
原创
664人浏览过

埃隆・马斯克(elon musk)旗下的人工智能公司 xai 昨日(11 月 17 日)发布公告,宣布推出最新大语言模型 grok 4.1,并已面向 grok.com、x平台及移动应用(ios安卓)所有用户全面推送。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升 - php中文网

本次更新旨在全面提升 Grok 在真实世界场景下的可用性。官方表示,Grok 4.1 不仅继承了前代模型敏锐的智能与高可靠性,更在创造性、情感理解和协作互动方面实现了重大改进,让其能够更精准地感知用户细微意图,提供更具吸引力和人格连贯性的对话体验。

Grok 4.1 的性能实现了业界顶尖水平。在大型语言模型竞技场(LMArena)的文本能力排行榜上,其具备深度思考能力的版本(代号:quasarflux)以 1483 的 Elo 分数高居榜首,领先第二名达 31 分。IT之家附上相关截图如下:

马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升 - php中文网

更引人注目的是,其无需深度思考的“即时响应”版本也以 1465 的 Elo 分数位列第二,性能甚至超越了其他所有模型的“全推理”模式。这一成绩相较于前代 Grok 4(排名第 33 位)实现了巨大飞跃,也印证了其在底层能力上的绝对优势。

知我AI·PC客户端
知我AI·PC客户端

离线运行 AI 大模型,构建你的私有个人知识库,对话式提取文件知识,保证个人文件数据安全

知我AI·PC客户端 35
查看详情 知我AI·PC客户端

除了在通用能力基准测试中表现出色,Grok 4.1 还在“软实力”方面取得了显著进步。在衡量模型情商的 EQ-Bench3 基准测试和评估创意能力的 Creative Writing v3 测试中,新模型均表现优异。

在评估情感理解、洞察力和人际交往能力的 EQ-Bench3 基准测试中,Grok 4.1 的推理与非推理模式包揽了榜单前两名。

在创意写作领域,根据 Creative Writing v3 基准测试结果,Grok 4.1 的两种模式分别位列第二和第三,仅次于早期的 GPT-5.1 模型。

这意味着 Grok 4.1 不仅能处理复杂的逻辑推理,还能更好地理解并回应带有人类情感的提示,进行富有想象力的内容创作,让其在人机交互中更具“人情味”。

另一项关键改进在于大幅降低了模型的“幻觉”率。对于配备搜索工具的快速响应模型而言,由于推理深度和工具调用预算有限,容易出现事实性错误。

x.ai 在 Grok 4.1 的训练后期,特别针对优化信息查询类提示,专注于减少事实性幻觉。根据对真实世界查询样本的评估,新模型的幻觉率已显著降低,从而为用户提供更可靠、更准确的信息。

以上就是马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升的详细内容,更多请关注php中文网其它相关文章!

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号