马斯克旗下的 ai 公司 xai 正式发布 grok 4.1,宣称该模型在对话智能、情感理解与实际应用能力方面实现了全新突破,重新定义了行业标杆。目前,grok 4.1 已登陆 grok.com 以及 ios 和 android 应用平台,用户可通过模型选择器手动切换至 “grok 4.1” 模式使用。

据官方介绍,Grok 4.1 在创造力、情感交互能力与协作性能上均有显著增强,同时延续了此前版本所具备的高智商与稳定性。为达成这些进步,xAI 在 Grok 4 大规模强化学习的基础上,进一步优化了模型的“风格表达、人格化特征、辅助性功能及对齐机制”。此次升级特别引入了一种创新方法:采用“先进的代理式(agentic)推理模型”作为奖励模型,使其能够自主评估响应质量,并实现大规模迭代优化。
Grok 4.1 技术亮点与基准测试表现
- 在 LMArena 的 “Text Leaderboard” 测试中,Grok 4.1 的“思考模式”(代号
quasarflux)取得了 1483 Elo 分的成绩,领先于所有非 xAI 开发的模型;其“非推理模式”(代号tensor,即无思考 tokens 的即时回复模式)也达到 1465 Elo,超越其他模型在完整推理配置下的表现。 - 在情感智能测评(EQ-Bench3)中,Grok 4.1 展现出更强的共情能力、心理洞察力和人际互动水平。
- 创意写作评测(Creative Writing v3 benchmark)结果显示,新模型的语言更具角色个性,情感表达更丰富,叙事张力明显提升。
- 在降低“幻觉”现象(即对事实问题给出错误回答)方面亦取得进展。特别是在“非推理模式”下结合搜索工具时,幻觉率显著下降。这一改进通过 FActScore(生物传记类问题基准)得到了验证。



了解更多:https://www.php.cn/link/8f94f061698ba1df2c83661cd4ab9000
源码下载地址:点击获取










