昨日凌晨,全球著名的开源大模型平台deepseek推出了其r1系列的全新0528版本。该版本尚未发布详细说明,仅以一种低调的方式公开上线。预计不久之后,deepseek将发布官方模型卡,全面介绍新版本的各项功能与特性。
开源地址:https://www.php.cn/link/bfda4ecd52a662dc46ed0bbf1f7b495a
尽管官方尚未正式公布细节,已有用户迫不及待地体验了新版R1并进行了测试。在知名代码评测平台Live CodeBench上,R1的表现被认为可以媲美OpenAI最新高端版本的o3模型。
部分用户对新版R1的风格进行了对比测试,发现其表现几乎与OpenAI的o3模型一致。R1-05-28在回应中展现出类似o3-2.5专业风格的特点,例如箭头和星号的使用与o3高度相似,且在结尾部分采用“why it works”的表达方式增强了说服力。即便OpenAI投入了大量精力,DeepSeek依然成功实现了这一目标。如果这已经达到了o3的水平,那么未来的R2版本将会更加智能,令人期待。
Hyperbolic Labs联合创始人兼CEO表示,新版R1仍是唯一能正确判断9.9与9.11哪个更大的模型。
,时长00:40
知名AI评论员Haider指出,大师兄DeepSeek强势归来。新版DeepSeek R1在编程能力方面表现出色。他曾发起一个编程挑战,要求模型创建一个单词评分系统。经过短暂推理后,模型生成了两个文件:一份结构清晰的代码和一组可执行的测试用例,并且这些测试用例首次运行即全部通过。此前只有o3模型能达到这种水平,而现在没有其他模型能超越。这是他在该任务中见过表现最优的模型。
我持续对其进行测试,发现它表现非常出色,但目前响应速度似乎有所下降,思考时间变长。
若其他基准测试能够验证这一点,我猜测DeepSeek原本可能打算将这个版本命名为R2发布。然而,考虑到他们近期推出的产品已遥遥领先,直接使用R2名称可能会让用户产生过高期望,进而导致失望。因此,他们可能选择继续将其作为全新的R1发布。现在的问题是,我们还需等待多久才能见到真正意义上的R2版本。
最新的DeepSeek R1表现相当亮眼。它现已具备类似o3修正自身思考过程(CoT)的能力,同时也能够像Claude一样创造性地构建完整的世界观。这些都是此前R1版本所无法实现的功能。
看到新版R1在编程方面的卓越表现,令我感到十分惊讶。用相同的提示测试了最新的Opus 4,结果发现Opus 4仅略微领先一些。这一差距令人印象深刻……
以上就是DeepSeek发布全新开源版本R1,性能直追OpenAI顶级o3模型!的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号