首页 > 运维 > linux运维 > 正文

DDPG Project「建议收藏」

爱谁谁
发布: 2025-07-16 08:28:01
原创
655人浏览过

大家好,我们又见面了,我是你们的老朋友全栈君。

  1. 请记住,在Q函数学习中,DQN与DDPG的区别在于,目标的下一个最大Q值是由actor估计的,而不是critic自身。在连续动作空间中,critic无法在没有优化的情况下估计最大Q值。因此,最佳选择是直接使用actor给出最佳动作。

第一张图片中的代码有误:

第71行:critic_target网络基于actor_target网络的估计输出最大Q值,因此不需要再次执行max操作(但在DQN中,我们确实需要那个max操作,因为在DQN中,下一最大Q值是由critic_target本身直接估计的(Q值函数))。

第72行:DDPG中的critic(Q函数)可以直接输出相对输入动作的Q值,因此不需要聚集动作索引相关的Q值。

第74行:因为优化器会累积梯度值,所以使用optimizer.zero_grad()清除它(而不是使用network.zero_grad)。

第75行:优化器应该调用step()函数来反向传播误差。

讯飞听见会议
讯飞听见会议

科大讯飞推出的AI智能会议系统

讯飞听见会议 19
查看详情 讯飞听见会议

别忘了添加最终状态的判定:1- dones。

DDPG Project「建议收藏」DDPG Project「建议收藏」第79行:在actor学习部分,critic_local的输入动作不是样本动作,而是由actor估计的动作(要注意这一点)。此外,它应该计算其平均值。最后,我们希望最大化性能,但优化器用于最小化目标,因此我们必须设置负号。

DDPG Project「建议收藏」在soft_update中,记得使用数据的属性进行复制。

DDPG Project「建议收藏」DDPG Project「建议收藏」发布者:全栈程序员栈长,转载请注明出处:https://www.php.cn/link/8eb7be5a13cc39a3e56b78aba08b2039

以上就是DDPG Project「建议收藏」的详细内容,更多请关注php中文网其它相关文章!

相关标签:
最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号