OpenAI等AI公司竞相利用“蒸馏”技术构建低成本模型-人工智能-PHP中文网

OpenAI等AI公司竞相利用“蒸馏”技术构建低成本模型

爱谁谁

发布： 2025-03-03 20:20:29

原创

275人浏览过

openai等ai公司竞相利用“蒸馏”技术构建低成本模型

全球领先的人工智能公司，包括OpenAI、微软和Meta，正积极采用“模型蒸馏”技术，致力于打造更经济实惠的AI模型，惠及消费者和企业。

DeepSeek公司在中国利用这项技术，基于Meta和阿里巴巴发布的开源系统，成功构建了高效强大的AI模型，此举引发业界广泛关注，并对硅谷AI的领先地位造成冲击，导致美国大型科技股市值大幅缩水。

模型蒸馏的核心在于利用大型语言模型（“教师”模型）生成数据，训练较小的“学生”模型，从而高效地将大型模型的知识和预测能力转移到小型模型中。“教师”模型负责预测句子中下一个可能的单词。

虽然蒸馏技术已存在多年，但近期突破使其在构建高性价比AI应用方面展现出巨大潜力，备受初创企业青睐。

OpenAI平台产品负责人Olivier Godement表示：“蒸馏技术非常神奇，它能利用大型前沿模型来训练小型模型，使其在特定任务上表现出色，同时成本低廉、速度极快。”

大型语言模型（如OpenAI的GPT-4、谷歌的Gemini和Meta的Llama）的开发和维护需要海量数据和计算资源，成本可能高达数亿美元。而蒸馏技术则允许开发者和企业以更低的价格获得这些模型的功能，甚至可在笔记本电脑和智能手机等设备上快速运行AI模型。

OpenAI的平台支持模型蒸馏，开发者可从中学习支撑ChatGPT等产品的大型语言模型的知识。微软作为OpenAI的主要投资者，已利用GPT-4对旗下Phi系列小型语言模型进行蒸馏。然而，OpenAI声称DeepSeek违反服务条款，利用其模型训练竞争对手的模型，DeepSeek对此尚未回应。

专家指出，虽然蒸馏技术能创建高性能模型，但其能力相对有限。“模型越小，能力就不可避免地降低，”微软研究院的Ahmed Awadallah解释道，一个蒸馏模型可能擅长总结邮件，但并不适用于其他任务。

百川大模型

百川智能公司推出的一系列大型语言模型产品

IBM研究院AI模型副总裁David Cox认为，大多数企业无需庞大的模型，蒸馏模型已足够满足客服聊天机器人或小型设备上的应用需求。“如果能降低成本并达到预期性能，几乎没有理由不采用蒸馏技术。”

这给许多领先AI公司的商业模式带来挑战。即使开发者使用OpenAI等公司提供的蒸馏模型，其运行和创建成本也远低于大型模型，导致收入减少。模型制造商通常会对蒸馏模型收取较低费用，因为其计算负载较低。

然而，OpenAI的Godement认为，大型语言模型仍将用于“高智能和高风险任务”，企业愿意为高精度和可靠性支付更多费用。大型模型也将用于探索新的能力，然后将其蒸馏到小型模型中。

Contextual AI首席执行官Douwe Kiela表示：“OpenAI长期以来试图阻止模型蒸馏，但很难完全避免。”

蒸馏技术也为开源模型倡导者带来了胜利，DeepSeek也将其最新模型开源。Meta首席AI科学家Yann LeCun表示：“这就是开源的精髓，开放的流程能使每个人都受益。”

蒸馏技术意味着，即使模型制造商投入巨资提升AI系统能力，也可能面临竞争对手的快速追赶，DeepSeek的案例便是明证。大型语言模型能力在几个月内即可被复制，这引发了对大型语言模型先发优势的质疑。

IBM的Cox总结道：“在这个瞬息万变的领域，你可能投入巨资艰难地开发模型，然后其他人迅速跟进，这是一个复杂且有趣的商业格局。”

以上就是OpenAI等AI公司竞相利用“蒸馏”技术构建低成本模型的详细内容，更多请关注php中文网其它相关文章！

大家都在看：