首页 > 新闻 > IT新闻 > 正文

“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

聖光之護
发布: 2025-08-28 18:19:11
原创
363人浏览过

在预训练阶段,核心资源是互联网文本。你需要海量、多样且高质量的网页内容,让模型从中汲取语言规律和知识。

进入监督微调(SFT)阶段后,重点转向了对话数据。这时,人们会雇佣标注人员为各种问题撰写高质量回答,形式类似于 Stack Overflow 或 Quora 上的内容,但更贴合大语言模型(LLM)的实际应用需求。

我认为这两个阶段仍将持续存在,但在当前的强化学习浪潮中,真正的关键已转向“环境”(environments)。与前两个阶段不同,环境允许大语言模型进行实际交互——执行动作、观察反馈、调整策略。这使得模型有机会突破简单的“行为克隆”或“统计模仿”,迈向更深层次的认知学习。这些环境既可用于训练,也可用于评估。然而,挑战依然在于:我们需要大量、多样化且高质量的环境,作为 LLM 实践的“练习题库”。

这让我联想到 OpenAI 早年推出的 Gym 项目——一个旨在标准化和集中提供各类环境的平台。只不过那时大语言模型尚未兴起,所以 Gym 中的任务多为传统的控制类问题,如倒立摆(cartpole)、ATARI 游戏等。而如今,PrimeIntellect 所推出的“环境中心”(environments hub),以及其 GitHub 上的 verifiers 仓库,正在构建一个面向现代 LLM 的升级版 Gym 框架。这是一个极具前瞻性和实用价值的尝试。今年早些时候,我也曾公开建议有人来推动这样的项目。

一个令人兴奋的特点是:一旦基础框架搭建完成,各个领域内的研究者和开发者便可以并行地构建各自的专业环境,形成生态化发展。

最后一点个人看法——从长远来看,我非常看好“环境驱动的学习”以及“具身智能体式交互”(agentic interactions)的发展潜力。但我对“强化学习”(reinforcement learning, RL)本身持保留态度(看跌)。

今天学点啥
今天学点啥

秘塔AI推出的AI学习助手

今天学点啥258
查看详情 今天学点啥

我认为奖励函数(reward functions)存在根本性缺陷。而且我坚信,人类在解决复杂认知任务时,并不主要依赖强化学习机制(也许在某些运动控制或习惯养成场景中有用,但在高级思维活动中并非主导)。人类使用的是更高效、更强大的学习方式,而这些机制目前尚未被充分发现或实现规模化。

不过,已经出现了一些有希望的初步探索,比如“系统提示学习”(system prompt learning)——即把模型的更新过程从修改权重转移到优化提示或上下文结构上,之后再选择性地将学到的知识“蒸馏”回模型权重中。这一过程,某种程度上类似于睡眠对人类大脑的巩固作用。

“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习

原文:https://www.php.cn/link/4e69622f5a820f3d466927b558ba83ac

以上就是“Vibe Coding” 概念提出者 Andrej Karpathy 谈强化学习的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号