斯坦福70亿参数开源模型媲美GPT-3.5，100美元即可复现

PHPz

发布时间：2023-04-13 16:04:03

1390人浏览过

来源于51CTO.COM

转载

随着大规模语言模型的日渐强大，人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势，但要想让模型更规范、可靠，需要学术界的努力。

近日，斯坦福基于 Meta 的 LLaMA 7B 模型微调出一个新模型 Alpaca。该研究让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循（instruction-following）样本，以此作为 Alpaca 的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源，后续还将发布模型权重和训练代码。

Batch GPT

使用AI批量处理数据、自动执行任务

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

项目地址：https://github.com/tatsu-lab/stanford_alpaca
试用地址：https://alpaca-ai-custom6.ngrok.io/

实验结果表明，Alpaca 的很多行为都与 text-davinci-003 类似。也就是说，只有 7B 参数的轻量级模型 Alpaca 性能可媲美 GPT-3.5 这样的超大规模语言模型。

我们来看一下 Alpaca 模型是如何做到的。

训练方法

在学术界的预算条件下，训练高质量的指令遵循模型面临两个重要挑战：强大的预训练语言模型和高质量的指令遵循数据。

Meta 最近发布的 LLaMA 系列模型解决了第一个挑战。对于第二个挑战，2022 年底的 self-instruct 论文提出使用现有的强大语言模型自动生成指令数据。

论文地址：https://arxiv.org/abs/2212.10560

按照这种方法，Alpaca 使用 LLaMA 7B 模型的监督学习在 text-davinci-003 以 self-instruct 方式生成的 52K 指令遵循样本上进行微调。

self-instruct 方法概览。

Alpaca 的研究团队首先使用 self-instruct 种子集中的 175 个人工编写的指令输出（instruction-output）对，然后用该种子集作为 in-context 样本 prompt text-davinci-003 来生成更多指令。该研究通过简化生成 pipeline 改进了 self-instruct 方法，并显著降低了成本。

该研究共生成了 52K 个不同的指令和相应的输出作为训练数据，其中使用了 OpenAI 开放的 API，成本不到 500 美元。由于研究团队已将训练数据开源，对于想要复现 Alpaca 的开发者来说，这500美元就省下了。

有了这个指令遵循数据集，该研究下一步使用 Hugging Face 的训练框架微调了 LLaMA 模型，并利用了 FSDP（Fully Sharded Data Parallel）和混合精度训练等技术。成本方面，在 8 个 80GB A100 上微调一个 7B LLaMA 模型需要 3 个小时，这对大多数云计算提供商来说成本不到 100 美元。

模型评估

该研究使用来自 self-instruct 评估集的输入进行了人工评估，这项工作由 5 名研究团队的学生完成。该评估集由 self-instruct 论文的作者收集整理，涵盖了多种面向用户的 instruction，涉及电子邮件、社交媒体和办公工具。

在将 text-davinci-003 和 Alpaca 7B 进行 blind pairwise 比较之后，研究者发现这两个模型的性能非常相似，并且 Alpaca 略优于 text-davinci-003。

从参数规模的角度看，Alpaca 远远小于 text-davinci-003，移动端甚至也可以运行 7B 的轻量级语言模型。这让 Alpaca 意义非凡。

除了利用上述静态的 self-instruct 评估集，该研究还对 Alpaca 模型进行了交互测试，并发现 Alpaca 的表现通常与 text-davinci-003 相似。

下面是研究团队测试的两个例子，结果表明 Alpaca 的输出良好，并且反映出指令遵循数据集的一般风格。例如，Alpaca 输出的答案通常比 ChatGPT 更简洁，这和 text-davinci-003 类似。

模型缺陷

实验中，Alpaca 还表现出语言模型的几种常见缺陷，包括幻觉、毒性和刻板印象，其中幻觉问题尤其严重。

例如在下图中，Alpaca 回答坦桑尼亚的首都是达累斯萨拉姆，但实际上应该是多多马。

此外，Alpaca 能够生成一些看似良好却包含错误或虚假信息的文本，这可能会误导人们。

Alpaca 可能包含许多与底层语言模型和指令调优数据相关的其他缺陷。但是，Alpaca 对机器学习社区仍然具有重要意义，因为它提供了一个相对轻量级的模型，可作为研究重要缺陷的基础。斯坦福的研究团队还强调：Alpaca 只可用于学术研究，禁止任何商业用途。

接下来，斯坦福的研究团队会进一步探究 Alpaca 模型的安全性、理解能力、规模扩展等等。研究团队希望 Alpaca 能够促进指令遵循模型的发展。

Gemini怎样写对比型提示词_Gemini对比提示词编写【步骤】

批改网AI检测工具如何查看语法错误_批改网AI检测工具语法错误定位与修正建议【攻略】

讯飞星火怎样一键生成电商详情页_讯飞星火详情页生成与卖点排序【技巧】

Depseek如何生成预算执行总结_Depseek预算数据与执行对比分析【方法】

怎么用AI帮你写出符合品牌调性的社交媒体内容日历？

相关标签:

chatgpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：智能建筑——它将如何影响未来？下一篇：无限的可能性 NVIDIA生成式AI模型加速合成蛋白质

作者最新文章

如何让你的电商前端快如闪电：SprykerTouch模块与Composer助力数据同步挑战

2025-09-12 09:46

如何解决复杂应用中动态URL和重定向管理难题，使用spryker/url模块轻松搞定

2025-09-12 10:39

如何在Spryker项目中实现前端与后端高效通信？Spryker/Zed-Request与Composer助你轻松连接！

2025-09-12 12:40

如何高效生成唯一ID？Ramsey/Uuid助你解决分布式系统中的ID难题

2025-09-13 09:51

Yii2数据库迁移总是手动写？insolita/yii2-migration-generator助你告别繁琐，实现自动化！

2025-09-15 09:38

如何解决复杂系统可视化难题，Spryker/Graphviz助你轻松绘制依赖与状态图

2025-09-15 09:52

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.31

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

2025.12.31

出现404解决方法大全

本专题整合了404错误解决方法大全，阅读专题下面的文章了解更多详细内容。

2025.12.31

html5怎么播放视频

想让网页流畅播放视频？本合集详解HTML5视频播放核心方法！涵盖<video>标签基础用法、多格式兼容（MP4/WebM/OGV）、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件，纯前端实现高清视频嵌入，助你快速打造现代化网页视频体验。

2025.12.31

关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全，阅读专题下面的文章了解更多详细内容。

2025.12.31

阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程，阅读专题下面的文章了解更多详细教程。

2025.12.31

html5怎么使用

想快速上手HTML5开发？本合集为你整理最实用的HTML5使用指南！涵盖HTML5基础语法、主流框架（如Bootstrap、Vue、React）集成方法，以及无需安装、直接在线编辑运行的平台推荐（如CodePen、JSFiddle）。无论你是新手还是进阶开发者，都能轻松掌握HTML5网页制作、响应式布局与交互功能开发，零配置开启高效前端编程之旅！

2025.12.31

热门下载

网站特效

网站源码

网站素材

前端模板