惊爆！DeepSeek vs. OpenAI，基准测试对决震撼发布，谁更胜一筹？

雪夜

发布时间：2025-04-22 16:28:01

1071人浏览过

来源于php中文网

原创

大家好，欢迎来到程序视点！我是小二哥。

前言：AI 模型正在迅速发展，DeepSeek-R1 作为 OpenAI 的重要竞争对手正在引起关注。究竟谁更胜一筹呢？

惊爆！DeepSeek vs. OpenAI，基准测试对决震撼发布，谁更胜一筹？这些模型对 Kotlin 的理解程度如何呢？他们能否生成可靠的代码、解释复杂的概念并帮助我们进行友好的调试呢？

研究团队使用 KotlinHumanEval 和专为 Kotlin 设计的新基准测试，测试了最新的 AI 模型，包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini。

团队研究了这些 AI 模型的整体表现，根据结果对它们进行了排名，并研究了 DeepSeek 对实际 Kotlin 问题的一些答案，以便让我们更清楚地了解这些模型的功能和限制。

使用 AI 模型对 Kotlin 进行基准测试：KotlinHumanEval 基准测试长期以来，评估模型的一个关键指标是它们在 OpenAI 的 HumanEval 基准测试中的性能，该基准测试测试模型从文档字符串生成函数并通过单元测试的能力。

去年，JetBrains 推出了 KotlinHumanEval——这是一个针对 Kotlin 的相同测试基准。

使用 KotlinHumanEval，使得该数据集的分数有了显著提高。这说明：专业集成的AI编程工具比原生的AI模型在代码编程上更加有针对性！

领先的 OpenAI 模型实现了开创性的 91% 成功率，其他模型紧随其后。即使是开源的 DeepSeek-R1 也可以完成这个基准测试中的大部分任务，如下所示。

惊爆！DeepSeek vs. OpenAI，基准测试对决震撼发布，谁更胜一筹？新兴基准测试：McEvalMcEval 是一个多语言基准测试，涵盖 40 种编程语言，包括 Kotlin。同样的，还有M2rc-Eval。

虽然之前的所有基准测试都主要测试模型生成代码的能力，但与之 LLMs 的交互范围不止于此。

因此，官方团队在测试基准中，不能只考虑代码生成能力。

根据用户使用习惯研究，继代码生成能力后, AI 工具最流行的用途之一是解释，例如用于错误修复和了解特定代码的作用。但是，现有的基准并不能完全衡量模型对 Kotlin 相关问题的回答程度。

怎么办呢？

Kotlin_QA基准测试（专属测试基准）：为了解决上面提到的差距，团队提出了新的基准—Kotlin_QA。

团队收集了 47 个问题，这些问题由官方的开发技术推广工程师准备，或由 Kotlin 用户在 Kotlin 公共 Slack 中分享的 TOP 问题。

对于以上每个点，官方的 Kotlin 专家都提供了答案。然后，对于每个问题，研究团队要求不同的模型来回答。以下是来自 Slack 的一个示例问题：

LALALAND

AI驱动的时尚服装设计平台

下载

您可以先尝试回答，然后将您的回答与您最喜欢的 LLM 回答进行比较。欢迎在评论中分享您的结果。

评估 LLMs' 答案：从不同的 LLMs 收集了答案后，下一个挑战就是评估它们的质量。

为此，团队使用了 LLM-as-a-judge 方法，要求潜在的评委模型将回答与专家答案进行比较，并从 1 到 10 分进行评分。

由于不同的 LLMs 评委模型有着不一致的评估，因此团队根据以下因素精心挑选了裁判模型：

惊爆！DeepSeek vs. OpenAI，基准测试对决震撼发布，谁更胜一筹？测试表明，GPT-4o（版本 08.06.2024）是最可靠的判断模型（评委模型）。原因是：它与人工评估紧密匹配，并有效地识别了低质量的答案。

Kotlin_QA 排行榜：有了评判模型，现在用它来评估 LLMs 对收集到的问题的不同回答。以下是他们的排名：

惊爆！DeepSeek vs. OpenAI，基准测试对决震撼发布，谁更胜一筹？ DeepSeek-R1 表现最佳。

OpenAI 的最新模型（包括 o3-mini、o1、o1-preview 和 GPT-4o）紧随其后，取得了强劲的成绩。

Thropic 的 Claude 3.5 系列处于中等水平。

谷歌的 Gemini 型号次之，Gemini 2.0 Flash 的表现优于其他版本。

由于 DeepSeek-R1 的得分高于 OpenAI o1，而 Claude 3.5 Haiku 的表现优于 Gemini 1.5 Pro，因此推理能力更好的新模型似乎在 Kotlin 相关问题上的表现往往更好。

然而，虽然 DeepSeek-R1 的准确性很高，但它目前比 OpenAI 模型慢得多，因此对于实时使用来说不太实用。

（DeepSeek加油~~国产之AI光，咱们把速度顶上去！！）

目前，我们已经确定，这些 AI 模型非常能够讨论 Kotlin 代码。

同时，官方还通过查看性能最好的模型 DeepSeek-R1 的一些响应来检查它们的实际含义。（这一节涉及 AI 编程代码相关的内容，限于篇幅，请大家查看此条文章：模型响应示例）

咸鱼网二手交易平台首页入口咸鱼网在线交易市场网站

行业首个：鸿蒙电视大屏操作系统 FunOS 发布，预计下半年商用

懂车帝怎么看百公里加速懂车帝查看性能实测数据方法【教程】

小红书的订单要多久发货？发货了还可以退款吗？

抖音AI推荐功能入口_抖音AI官网免登录使用链接

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关标签:

谷歌工具 ai claude gemini deepseek kotlin 字符串 gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：搞定！微信接入DeepSeek打造聊天机器人，1行代码就行！下一篇：使用腾讯 HAI 5 分钟内部署一个私人定制的 DeepSeek

作者最新文章

HTML下拉框怎么设多选_HTML下拉框加multiple允许多选【多选】

2026-01-16 21:12

ExcelAI助手如何转静态表为交互图_ExcelAI加VBA做点击响应图【攻略】

2026-01-16 21:19

Win11双屏显示比例失调咋调_Win11双屏比例校正法【校正】

2026-01-16 21:19

AI绘画NovelAI怎么避免画面崩坏_AI绘画NovelAI防崩坏要点【贴士】

2026-01-16 21:20

Win7怎么关闭磁盘碎片整理计划_Win7关碎片整理计划设置【停用】

2026-01-16 21:30

AdobeFirefly怎样匹配场景色_AdobeFirefly匹配场景色怎么做【诀窍】

2026-01-16 21:33

Figma怎样导入PS_Figma设计稿进PS方法【窍门】

2026-01-16 21:36

RemovebgAI如何合并图层_RemovebgAI合并图层简捷打法【节选】

2026-01-16 21:51

Win11怎么查看已安装驱动版本_Win11查驱动版本途径【查询】

2026-01-16 21:54

Win7安装到多硬盘系统如何指定启动盘_BIOS启动项调整步骤【详解】

2026-01-16 22:07

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

258

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

550

2024.03.22