强化学习中on policy和off policy的区别-深度理解

64 篇文章 10 订阅
订阅专栏
59 篇文章 4 订阅
订阅专栏
46 篇文章 3 订阅
订阅专栏

在这里插入图片描述

参考图书:
Deep Reinforcement Learning
Fundamentals, Research and Applications

https://link.springer.com/book/10.1007/978-981-15-4095-0 countryChanged=true&utm_medium=affiliate&utm_source=commission_junction_authors&utm_campaign=CONR_BOOKS_ECOM_GL_PHSS_ALWYS_DEEPLINK&utm_content=deeplink&utm_term=PID100163099&CJEVENT=07cf86ee9a9611ec82b5e5460a180513

(Deep Learning) Yoshua Bengio & Ian GoodFellow

1.前言

On-policy methods attempt to evaluate or improve the policy that is used to make decisions, whereas off-policy methods evaluate or improve a policy different from that used to generate the data.

如果理解不了,可以简单记忆。
在这里插入图片描述

在线策略(On-Policy)方法和离线策略(Off-Policy)方法依据策略学习的方式对强化学习算法进行划分。在线策略方法试图评估并提升和环境交互生成数据的策略,而离线策略方法评估和提升的策略与生成数据的策略是不同的。这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。而离线策略方法不需要遵循这个约束,它可以利用其他智能体与环境交互得到的数据来提升自己的策略。常见的在线策略方法是 Sarsa,它根据当前策略选择一个动作并执行,然后使用环境反馈的数据更新当前策略。因此, Sarsa 与环境交互的策略和更新的策略是同一个策略。

先附上三个on-policy和off-policy算法表
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
想必这个问题应该困扰了很多深度学习新手和老司机。

有一种简单介绍方式

On-policy: The agent learned and the agent interacting with the environment is the same. 行为策略和目标策略一样

Off-policy: The agent learned and the agent interacting with the environment is different.行为策略和目标策略不一样

具体怎么理解呢,将在正文中展开

2.正文

话不多说,继续送上三种DRL中三种经典算法。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

深度强化学习off-policy类算法多进程加速训练实现(以TD3为例)
ZYunfei的博客
05-17 1534
思路 与on-policy类算法的多进程加速不同,off-policy算法的子进程虽然也是用来探索环境,但是它收集到的数据可以随时添加进主进程的buffer。另外,off-policy算法子进程探索环境的策略也不必与主进程等待训练的策略保持完全一致(off-policy名称由来)。听起来off-policy的多进程实现要更容易一些,但是实际做起来却更困难。 实现框架:一个主进程+n个子进程+1个主进程的子线程 功能: 主进程:训练网络,评价网络; n个子进程:探索环境,收集数据传回主进程放入主进程的bu
On-Policy 强化学习与 Off-Policy 强化学习
weixin_37410657的博客
05-04 2561
On-Policy 强化学习和 Off-Policy 强化学习强化学习两种重要的学习方法。它们的主要区别在于智能体学习策略的方式。On-Policy 学习遵循当前策略进行学习和执行,而 Off-Policy 学习则使用不同的策略进行学习和执行。这两种方法各有优缺点,适用于不同的应用场景。无论是 On-Policy 还是 Off-Policy 学习,强化学习的目标都是找到一个最优策略,使得智能体在长期内能够获得最大的累积奖励。
强化学习 on-policy与off-policy理解;如何区分on-policy 与 off-policy;RL更新策略policy结构总结
strawberry47的博客
07-07 4691
有趣的解释:古时候,优秀的皇帝都秉持着“水能载舟 亦能覆舟”的思想,希望能多了解民间百姓的生活。皇帝可以选择通过微服出巡,亲自下凡了解百姓生活(On-policy),虽然眼见为实,但毕竟皇帝本人分身乏术,掌握情况不全;因此也可以派多个官员去了解情况,而皇帝本人则躺在酒池肉林里收听百官情报即可(Off-policy)。Q-learning vs. Sarsa 二者都是基于TD的强化学习策略,但是前者是off-policy(有目标网络和行为网络),后者是on-policy。on-policy与off-polic
强化学习强化学习离线策略在线策略区别是什么?请从原理和例子进行解释。
最新发布
wq6qeg88的博客
08-07 929
离线策略在线策略强化学习的应用各有优劣。离线策略通过利用历史数据和经验回放来提升学习效率,适合在数据充足且需要减少实际环境交互的场景。而在线策略则依赖于实时与环境的交互,通过不断更新和改进策略来适应动态环境,适合需要实时决策和反馈的场景。理解这两者的区别有助于选择合适的强化学习方法来解决不同的实际问题。
强化学习篇】on-policy 和 off-policy区别
Thanours的博客
09-13 1649
然而,一旦policy更新参数后,这时两个policy是不一样了,之前采样数据data则不能继续使用了,需要重新再采样数据,这样效率很低。从on-policy梯度和off-policy梯度对比,很明显的是off-policy跟环境互动的是 θ‘ ,而不是θ,θ‘ 采样出来的数据与待更新的θ没有关系。KL 散度并不是θ和θ‘参数的距离,而是行为上的距离,即给同一个state的时候,action几率分布之间的差距。这里有个假设,pθ(st)和pθ′(st)分布是差不多的,比值接近1,可以略去。
强化学习On-policy vs Off-policy
Willen_的博客
12-10 745
强化学习On-policy vs Off-policy 这里我们讲讲强化学习on-policy和off-policy区别。 实际上这个区别非常简单,就是说如果算法在更新它的policy的时候,它是依赖于前面的Q value function的话,那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控,那么它就是一个off policy的。 具体来说就是由于在算法更新我们value fcuntion 的时候,实际上我们就是基于这个现有的policy去更新这个value的functi
on-policy与off-policy;确定性策略与随机策略
普通攻击往后拉的博客
06-22 5506
1 on-policy与off-policy 之前一直搞不清楚on-policy和off-policy是什么区别,在查阅了各种公众号和博客、论坛之后,决定总结一下on-policy和off-policy区别。 首先,如下图所示,on-policy和off-policy都是on-line强化学习策略更新的一种。on-line和off-line最明显的区别就是,在一次learn policy之后,on-line 2 确定性策略和随机性策略 确定性策略[公式]为一个将状态空间[公式]映射到动作空间[公式]的
深度强化学习 on-policy 和 off-policy
布谷AI的专栏
05-02 2419
当生成训练数据基于的Policy、目标值(target value)基于的Policy与当前学习的Policy网络参数一致时,为on-policy;否则为off-policy
强化学习的on-policy和off-policy解释
Sufail的博客
03-22 4849
强化学习的On-policy和off-policy区别
强化学习的off-policy 和on-policy
热门推荐
u013615687的博客
05-01 1万+
强化学习可以分成off-policy离线)和on-policy在线)两种学习方法,按照个人理解,判断一个强化学习是off-policy还是on-policy的依据在于生成样本的policy(value-funciton)和网络参数更新时的policy(value-funciton)是否相同。off-policy的经典算法有Q-learning,而on-policy的经典算法有SARSA算法,两者
强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数
丨汀、的博客
07-15 5636
强化学习调参经验大集成:TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数
个人笔记-强化学习On-policy和Off-policy区别
tree307的博客
05-22 932
理论上,用当前的policy生成了一条数据,就应该更新一次policy网络的参数,然后policy网络就变了,此时才能再生成第2条数据,依此类推,当生成到第N条数据的时候,policy网络都不知道变成什么鬼样子了,而如果我们用同一个policy连续生成N条数据才去更新一次policy网络的参数,这时的policy网络能跟一条条更新方式相比吗?于是在实践,经常是每收集了N条数据才会去更新一次,这N条数据是一个batch,并且这N条数据是用同一个policy生成的。参考Reddit上的。
(深入理解强化学习on policy和off policy区别
qq_43391414的博客
12-02 1763
前言 这两个东西区别我个人感觉还挺玄学的。看到有很多说法,但是却感觉说的不是一个东西。 就比如有人总是喜欢把off policy分为行为策略和目标策略,说什么行为策略用来探索,目标策略用来学习。但是这个明显是DQN的特征(没学过DQN的有点吃亏哈) 所以,甚至官方描述也是用这样的: On-policy: The agent learned and the agent interacting with the environment is the same. 行为策略和目标策略一样 Off-poli.
On policy和off policy学习的区别
caoyongsheng的博客
12-27 937
On policy在线策略学习智能体本身必须与环境进行互动然后一边选取动作一边学习。 Off policy是指智能体可以亲自与环境进行交互进行学习,也可以通过别人的经验进行学习,也就是说经验是可以共享的,可以是自己的过往经验,也可以是其他人的学习经验。 最典型的在线策略学习是sarsa,最典型的离线策略学习是q-learning ...
强化学习入门(二):on-policy与off-policy
weixin_45459911的博客
04-17 4494
一、名词解释即引入原因 1、名词解释: 翻译过来就是: On-policy: 学习到的agent以及和环境进行互动的agent是同一个agent Off-policy: 学习到的agent以及和环境进行互动的agent是不同的agent 直观理解就是: On-policy:相当于你在打游戏,你在实战变强。 Off-policy:相当于你在看直播,你在观摩变强。 2、为何要引入 Off-pol...
强化学习on-policy和off-policy区别
weixin_45776027的博客
05-29 1690
on-policy(同策略)代表既定策略,off-policy(异策略)代表新策略 在Sarsa,更新Q函数时用的动作a由贪婪策略得出,那么下一回合也用的是这个动作a。sarsa的两个a一定相同就是(同策略)on-policy。 Qlearning,动作A1由Qmax得到的,而下一回合的A2用贪婪策略得到(下一回合的Q是在Qmax基础上探索,如图1所示),这时的A1和A2就有可能不一样,就是(异策略)off-policy。 ...
[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
小太阳~
05-11 6798
本文主要包括:Q-learning基础、根据Q-learning思想分析一个代码。
如何分辨on-policy和off-policy
HGGshiwo的博客
03-05 700
这里一个(s,a)对看成一个随机变量,服从均匀分布,因此分布和策略无关(至于为什么s,a是均匀分布,那个是算法自己假设的),因此采样的时候需要用到experience replay,使得不管什么策略采样得到的reward,都变成均匀分布的。如果目标函数s,a的分布和策略相关的,那么一定是on-policy的,如果是策略无关的,那么一定是off-policy的。就是一个期望+一个类似正则项的东西,而非常明显看出来,这个期望是服从策略theta’的,也就是说s,a分布和策略相关,因此是on-policy的。
强化学习on_plicy和off_policy最大的区别
weixin_43744732的博客
04-13 1515
策略更新方法可以分为两类:On-policy在线策略)和Off-policy离线策略)。它们之间的主要区别在于如何使用经验(状态、动作、奖励和下一个状态)来更新智能体的策略。总之,On-policy和Off-policy方法之间的最大区别在于它们如何使用经验数据来更新策略。On-policy方法仅使用当前。
on-policy和off-policy区别
03-17
on-policy和off-policy是在强化学习常见的两种方法。 on-policy方法是在当前策略的基础上进行学习,也就是说,学习和行动是同时进行的。在这种方法,智能体会根据当前策略产生的经验来更新策略。 off-policy...
写文章

热门文章

  • python数组对应元素相乘(multiply)、两个矩阵相乘(dot)、星号(*)乘法-Python中数组、矩阵乘法 21883
  • python快速实现10种聚类算法 12176
  • pip手把手安装pytorch,保姆级教学 9918
  • 论文阅读Evolutionary Computation for Expensive Optimization: A Survey面向昂贵优化的进化计算 7140
  • 论文阅读:大型对抗性不完美信息博弈的均衡发现 AAAI/ACM SIGAI Best Paper 6452

分类专栏

  • 人工智能 59篇
  • 算法 64篇
  • 论文写作 12篇
  • Python相关 46篇
  • 演化算法 11篇

最新评论

  • python sklearn knn快速实现,保姆级教学

    Chordrain: 想问一下,knn可以实现多标签分类吗?

  • python数组对应元素相乘(multiply)、两个矩阵相乘(dot)、星号(*)乘法-Python中数组、矩阵乘法

    geyangyan: 很有用的内容,感谢分享~~

  • 各类经典VRP,车间调度问题,组合优化问题基准测试集Benchmark

    Ddjdjddjdbbbykjg: 博主,可以打包到网盘上分享一下吗

  • 各类经典VRP,车间调度问题,组合优化问题基准测试集Benchmark

    Ddjdjddjdbbbykjg: 混合流水调度HFSP问题链接打开是一个网站登入入口,拿不到数据集

  • 微软自动调参工具—NNI安装与快速上手,AutoML必备工具

    执着理想纯粹当下: 你好,我运行NNI的示例程序时,显示failed,在报错log里面显示的是cmd.exe : python: can't open file 'mnist.py': [Errno 2] No such file or directory,请问是什么原因啊

大家在看

  • 电脑分流抢票软件 Bypass 下载及使用说明
  • FPGA数码管显示之74HC595芯片驱动(详细代码注释+仿真)
  • 华为OD 流浪地球
  • Spring Boot 学习之路 -- 基础认知
  • 一键AI去除视频水印和字幕!关键还免费!

最新文章

  • 13 个常见概率分布及Python代码,机器学习、深度学习、强化学习必学
  • 进化算法及Python实现(使用DEAP库)
  • python sklearn knn快速实现,保姆级教学
2023年1篇
2022年66篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家玻璃钢老虎雕塑图片玻璃钢雕塑坏了用什么补河源透明玻璃钢雕塑现货深圳玻璃钢卡通熊猫雕塑公仔摆件延安商场美陈玻璃钢雕塑工厂价格通用玻璃钢花盆研究福建大型商场创意商业美陈品牌浦东新区定制玻璃钢雕塑制造厂家广州常见玻璃钢花盆甘肃园林景观玻璃钢美陈雕塑附近不锈钢玻璃钢景观雕塑制造湖南户内玻璃钢雕塑订做价格玻璃钢鞋雕塑玻璃钢卡通雕塑价位2021年春节商场美陈雕塑商场美陈玻璃钢休闲椅商业美陈和商场活动福建玻璃钢花盆厂家直销做玻璃钢花盆哪里学玻璃钢雕塑产品厂家特别推荐山东主题商场美陈哪家好舟山玻璃钢陶瓷雕塑东莞玻璃钢透光雕塑定做大连玻璃钢雕塑分类四川玻璃钢雕塑摆件定制四川季节性商场美陈市场价武威广场玻璃钢雕塑厂家赣州玻璃钢雕塑新品玻璃钢花盆厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化