Python强化学习入门教程_Q-learning与策略优化实践

舞夢輝影

发布时间：2025-12-30 19:23:54

824人浏览过

来源于php中文网

原创

Q-learning是一种无模型强化学习算法，通过Q表存储状态-动作价值，按贝尔曼方程迭代更新：Q(s,a)←Q(s,a)+α[r+γmaxₐ′Q(s′,a′)−Q(s,a)]，结合ε-greedy策略实现探索与利用平衡。

python强化学习入门教程_q-learning与策略优化实践

Q-learning 是强化学习中最经典、最易上手的无模型（model-free）算法之一，适合初学者理解“试错—奖励—价值更新”的核心逻辑。它不依赖环境动态模型，仅靠与环境交互产生的状态-动作-奖励序列，就能逐步学习最优策略。

Q-learning 的核心思想：用表格记住“在哪种状态下做哪个动作最值得”

Q-learning 维护一张 Q 表（Q-table），行是状态（state），列是动作（action），每个单元格存的是当前估计的“动作价值”——即从该状态执行该动作后，未来能获得的累计奖励期望值（带折扣）。算法通过贝尔曼方程不断迭代更新：

Q(s, a) ← Q(s, a) + α [r + γ maxₐ′ Q(s′, a′) − Q(s, a)]

其中：
α 是学习率（如 0.1），控制更新步长；
γ 是折扣因子（如 0.99），决定未来奖励的重要性；
r 是即时奖励；
s′ 是执行 a 后到达的新状态。

关键点：
• 每次更新只依赖当前经验（s, a, r, s′），无需完整轨迹；
• maxₐ′ Q(s′, a′) 体现“贪婪选择”，即假设后续都选最优动作；
• 算法本身是 off-policy，行为策略（如 ε-greedy）可探索，但更新始终朝向最优动作价值靠拢。

用 Python 实现一个可运行的 Q-learning 示例（以 FrozenLake 为例）

FrozenLake 是 OpenAI Gym 中的经典网格世界环境：4×4 冰面，有起点 S、目标 G、陷阱 H 和安全冰块 F。智能体需在不掉进陷阱的前提下走到目标，每步奖励为 0，成功抵达得 +1，掉坑得 0。

立即学习“Python免费学习笔记（深入）”；

代码要点（精简版）：

Bika.ai

打造您的AI智能体员工团队

下载

初始化 Q 表：np.zeros((env.observation_space.n, env.action_space.n))
ε-greedy 策略：以概率 ε 随机选动作，否则选当前 Q 值最大的动作
训练循环中，对每条 (s, a, r, s′) 经验执行一次 Q 更新
ε 随训练衰减（如 ε = max(0.01, ε * 0.995)），平衡探索与利用
每轮训练后测试策略胜率，观察收敛趋势

运行 10000 轮后，典型表现是胜率从接近 0% 稳步升至 70–85%，说明 Q 表已学到较稳健路径。

策略优化不是终点：常见改进方向与实用技巧

基础 Q-learning 在简单环境效果好，但面对高维状态（如图像）、连续动作或稀疏奖励时会失效。实际应用中常结合以下优化：

状态抽象/特征工程：对原始状态降维或映射为有意义特征（如距离目标的曼哈顿距离），缓解维度灾难
函数逼近替代查表：用神经网络拟合 Q 函数（即 DQN），支持像素输入和大规模状态空间
经验回放（Experience Replay）：把历史经验存入缓冲池，随机采样打破数据相关性，提升训练稳定性
目标网络（Target Network）：用独立网络计算 maxₐ′ Q(s′, a′)，避免 Q 值震荡，DQN 的关键设计
奖励塑形（Reward Shaping）：在原奖励基础上增加辅助信号（如靠近目标+0.1），加速稀疏奖励下的学习

动手前的小提醒：别跳过环境理解与超参调试

很多初学者卡在“Q 表不收敛”或“策略始终乱走”，问题往往不在代码，而在：

没看懂环境的 reward 设计（比如 FrozenLake 默认 step reward=0，成功才+1；某些版本默认每步−0.1，逻辑完全不同）
γ 设太高（0.999）导致早期错误长期影响，太低（0.5）又忽略长远目标
ε 衰减太快，还没探索完就锁死在次优策略；或太慢，后期仍频繁随机扰动
学习率 α 固定为 0.1 —— 更稳妥的做法是随训练轮数缓慢下降（如 α = 1/√t）

建议先打印中间 Q 表、记录每轮总奖励、可视化策略热力图，比盲目调参更有效。

Python函数式组合设计_流水线思维解析【教程】

Python图片处理基础_Pillow使用说明【教程】

Python数据抓取质量控制_字段校验说明【指导】

Python网络请求代理管理_IP策略解析【教程】

Python 函数参数可以接收用户输入值，但需正确设计函数签名与调用方式

相关标签:

python ai openai 神经网络优化实践 Python 循环 table 算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python列表推导式使用技巧_高效生成解析【教程】下一篇：Python大型爬虫分布式项目教程_ScrapyRedisKafka实战

作者最新文章

同名Power！realme真我也将推出10000mAh电池机型

2025-12-30 12:05

菜鸟裹裹查询单号查询入口_官方物流数据同步更新

2025-12-30 12:10

中文简繁体转换快捷键_中文简繁体在线转换使用方法

2025-12-30 12:13

一次解决两个问题 vivo新专利将散热风扇集成天线

2025-12-30 12:15

AirPods也曾有过多巴胺色系？第一代缤纷充电盒原型机曝光

2025-12-30 12:47

yandexcom免登录入口网址_Yandex国际版搜索引擎无需登录访问入口

2025-12-30 13:41

Python接口调用策略_重试超时说明【指导】

2025-12-30 13:41

ao3中文网页版镜像免费_ao3中文网页版镜像官方正版入口正规网址2026

2025-12-30 13:43

Python魔术方法详解_特殊行为解析【教程】

2025-12-30 13:59

ao3官方网站入口怎么进_AO3官网入口镜像访问方法指南

2025-12-30 14:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

738

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

574

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

697

2023.08.11