今天为大家介绍一个非常实用的开源项目 - MiniMind。它使得我们能够使用普通电脑,在短短3小时内训练出一个迷你版的ChatGPT!
这个项目为何如此特别?目前市场上的大型语言模型通常具有数十亿参数,训练成本高昂。即便是想要学习和研究的人,也常常被高昂的硬件门槛所阻隔。而MiniMind通过巧妙的设计,将模型参数压缩到了最低,使得个人开发者也能亲手训练AI模型!
最小版本仅有26M大小(约为GPT-3的1/7000),普通的游戏显卡即可运行。项目提供了完整的训练流程:
基础语言能力训练(预训练)对话能力训练(指令微调)快速适应新任务(LoRA微调)优化回答质量(DPO偏好对齐)环境需要代码语言:javascript代码运行次数:0运行复制```javascript CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz内存:128 GB显卡:NVIDIA GeForce RTX 3090(24GB) * 2环境:python 3.9 + Torch 2.1.2 + DDP单机多卡训练
Ubuntu == 20.04Python == 3.9Pytorch == 2.1.2CUDA == 12.2requirements.txt(本项目环境依赖)实际应用场景1. 个性化助手开发你可以训练一个针对特定领域的AI助手,比如: <p>客服机器人:根据公司产品知识库训练教育辅导:针对特定学科的习题讲解行业助手:为特定行业提供专业建议2. 技术学习与研究了解大语言模型的工作原理实践各种训练方法尝试模型优化和改进3. 产品原型验证快速验证AI产品创意测试不同场景下的效果收集用户反馈进行迭代技术亮点解析轻量级架构采用Transformer的Decoder-Only结构使用RMSNorm预标准化提升性能引入旋转位置编码处理长文本创新的专家模型版本(MoE)提供4×26M的混合专家模型通过专家分工提升模型能力保持较低的计算资源需求灵活的部署选项支持单卡/多卡训练兼容主流深度学习框架提供网页交互界面上手有多简单?只需几步就能开始:</p><p>代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www.php.cn/link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www.php.cn/link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制```javascript</p><h1>1. 克隆项目git clone <a href="https://www.php.cn/link/c7e2ac420af977df8c6ccc95ac8dc911">https://www.php.cn/link/c7e2ac420af977df8c6ccc95ac8dc911</a># 2. 安装依赖pip install -r requirements.txt# 3. 开始对话测试python 2-eval.py
如果想要可视化界面,还可以使用内置的网页版:
代码语言:javascript代码运行次数:0运行复制```javascript
streamlit run fast_inference.py
定制大模型1. 克隆项目代码代码语言:javascript代码运行次数:0<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www.php.cn/link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg fill="none" height="16" viewbox="0 0 16 16" width="16" xmlns="<a href="https://www.php.cn/link/c9041cfd2a40932691855abd98fd219a">http://www.w3.org/2000/svg"><path</a> clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor" fill-rule="evenodd"></path></svg>复制javascript git clone https://www.php.cn/link/c7e2ac420af977df8c6ccc95ac8dc911cd minimind</code>
如果不可用,请自行去torch_stable下载whl文件安装。参考链接,
文本对话:流畅的中英文交互视觉理解:可以理解和描述图像知识更新:持续优化训练数据性能提升:不断改进模型结构最后MiniMind降低了AI开发的门槛,让更多人能够参与到大语言模型的探索中来。无论你是:
想入门AI的开发者需要定制化AI助手的企业对语言模型感兴趣的研究者这个项目都能帮你快速起步,并在实践中不断成长。项目完全开源,想要了解更多MiniMind项目信息的读者可以查看项目地址:
https://www.php.cn/link/ac65fa3ab83a6deeaa332196ad0ebabb
以上就是DeepSeek爆了,普通人如何3小时完全从0训练自己的大模型的详细内容,更多请关注php中文网其它相关文章!
DeepSeek (深度求索)杭州深度求索(DeepSeek)官方推出的AI助手,免费体验与全球领先AI模型的互动交流。它通过学习海量的数据和知识,能够像人类一样理解和处理信息。多项性能指标对齐海外顶尖模型,用更快的速度、更加全面强大的功能答疑解惑,助力高效美好的生活。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号