近日,国产ai新星kimi k2 thinking正式发布,由月之暗面开发。它定位为“思考模型”,而非简单的聊天机器人,旨在为用户带来自主推理、工具调用与多轮思考能力的全新体验。这款模型已上线kimi官网及最新版的kimi手机应用,用户可免费或付费直接体验。
在研发过程中,“模型即Agent”理念贯穿始终,Kimi K2 Thinking原生具备“边思考、边使用工具”的能力,能在搜索、浏览、编程、推理等场景中自主循环工作。
在多项基准测试里,该模型成绩斐然。
在“人类最后的考试”(Humanity's Last Exam)中,允许使用工具的条件下,取得了44.9%的SOTA成绩。在OpenAI发布的网络浏览能力基准BrowseComp中,得分60.2%,远高于人类平均水平29.2%。它不仅思考能力强大,还具备长程规划和复杂工具调用能力。官方表示,其可支持高达300轮的“思考 → 搜索 → 浏览网页 → 思考 → 编程”动态循环,能帮助用户解决模糊开放式问题,并将其分解为可执行子任务。
在实际应用场景中,如网页生成、编程开发、逻辑推理等,该模型表现出色。有自媒体测评者用它生成了一个Todo应用,实现了拖拽、暗黑模式、移动端适配等功能,且在多轮修改中表现稳定。不过,测评也发现它在数学奥林匹克题目(如IMO第六题)上存在弱点,虽长时间思考却未能得出正确答案。
此前,月之暗面还发布过开源大模型Kimi K2,引发全球关注。上线一周后,国际权威大模型排行榜LMArena宣布,Kimi K2接棒DeepSeek、登顶全球开源模型榜单,并在开闭源总榜上排名第五。
Kimi K2在多项基准性能测试中取得优异表现,展现出在自主编程、智能体工具调用和数学推理等方面的领先能力。其前端编程能力很强,在3D、游戏、动画制作等场景中,用简单指令与其交互,就能得到惊艳效果。智能体的工具调动能力也让模型整体有了很大提升。
在文风上,Kimi K2更具细节性和感情,如同生活中的“小伙伴”。当被问到“月亮的背面是怎样的?”,一些回复令人感动,展现出对自我突破和新知探索的思考。
Kimi K2参数总规模达万亿级别,但激活参数只有32B,意味着它能以更低成本开展更复杂工作。Kimi研究员称,他们提出了创新方法,让模型在有限数据里学到更多智能,还把Kimi K2权重和技术方案开源,希望推动全球相关技术发展。
Kimi K2目前已接入OpenRouter、Cline、Visual Studio Code等国际主流开发平台。Kimi K2继承了DeepSeek - V3的架构,并在其基础上进行增加专家数量、减少注意力头数量等调整,实现了较强性能,这也显示出中国开源模型已形成良好生态,在互相借鉴中持续进步。
此次新模型Kimi K2 Thinking的发布,正值国产大模型竞争激烈之时。月之暗面开源发布该模型,既展示了技术突破,也凸显了在“思考智能”方向抢占先机的野心。
对于普通用户和开发者来说,一方面有机会使用具备“思考力”且开源、开放调用的模型;另一方面,也应理性看待其能力边界,它还不是“万能的思考机器”,在高难度抽象数学或图像公式识别场景仍有瓶颈。
总体而言,Kimi K2 Thinking的亮相是国产AI模型的新里程碑,它朝着“机器能像人一样思考、探究、调用工具”方向迈出了重要一步。未来,随着更多工具和场景的集成,其商业化、生态化落地值得期待。
以上就是国产AI新星Kimi K2系列突围,性能惊艳但也有短板的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号