当前位置: 首页 > news >正文

台州网站建设网站推广b站2020推广网站

台州网站建设网站推广,b站2020推广网站,目前做那些网站能致富,网站开发建设推荐Q-Learning:Off-Policy TD Control强化学习的早期突破之一是开发了一种称为Q学习的非策略TD控制算法(Watkins,1989)。其最简单的形式,定义为(6.8)在这种情况下,学习的动作-值函数Q直接近似于最优动作-值函数&#xff0…

Q-Learning:Off-Policy TD Control

强化学习的早期突破之一是开发了一种称为Q学习的非策略TD控制算法(Watkins,1989)。其最简单的形式,定义为

(6.8)

在这种情况下,学习的动作-值函数Q直接近似于最优动作-值函数,与所遵循的策略无关。这极大地简化了算法的分析,并实现了早期收敛证明。该策略仍然具有影响,因为它确定访问和更新哪些状态-操作对。但是,正确收敛所需要的只是所有对继续更新。正如我们在第5章中所观察到的,这是一个最低要求,因为任何保证在一般情况下找到最佳行为的方法都必须这样要求。在此假设和步长参数序列的通常随机逼近条件的变体下,Qt已被证明以概率 1 收敛到。Q 学习算法以如下程序形式所示。

Q-learning (off-policy TD control) for estimating

Algorithm parameters: step size , small

Initialize Q(s,a), for all , arbitrarily except that Q(terminal,.)=0

Loop for each episode:

Initialize S

Loop for each step of episode:

Choose A from S using policy derived from Q (e.g.,ε-greedy)

Take action A, observe R,S'

S <- S';

until s is terminal

Q-learning的备份图是什么?规则 (6.8) 更新状态-操作对,因此顶部节点(更新的根节点)必须是小型的填充操作节点。更新也来自操作节点,最大化下一个状态下可能的所有操作。因此,备份关系图的底部节点应该是所有这些操作节点。最后,请记住,我们指示在这些“下一步操作”节点中,它们有一个弧形(图 3.4-右)。您现在能猜出图表是什么吗?如果是这样,请在转到第 134 页图 6.4 中的答案之前进行猜测。

参考

  • RLbook2020.pdf (incompleteideas.net)

  • Introduction to Reinforcement Learning (Spring 2021) | IntroRL (amfarahmand.github.io)

  • 强化学习导论 — 强化学习导论 0.0.1 文档 (qiwihui.com)

http://www.ds6.com.cn/news/58957.html

相关文章:

  • 做网站是怎样赚钱的app推广公司怎么对接业务
  • 图片制作表情包怎么做杭州seo排名
  • 装饰公司门头seo产品是什么意思
  • 在网上做批发都有哪些网站游戏加盟
  • 经典品牌推广文案南宁seo营销推广
  • 济南WordPress培训优化的含义是什么
  • html5手机网站特效seo外链推广
  • 章丘网站开发客户关系管理
  • 德国诺莫斯手表网站品牌推广活动策划案例
  • 青海wap网站建设公司拓客软件
  • aws日本服务器免费北京seo顾问服务
  • 网站怎么设计好看的图片网站发布与推广
  • 网站版权该怎么做呢上海哪家seo公司好
  • 网站代运营b站在哪付费推广
  • 企业网站一年多少钱360摄像头海澳門地区限制解除
  • wordpress ispost学生班级优化大师
  • 怎么开一家客服外包公司潍坊网站seo
  • 深圳专业网站制作平台短视频seo推广隐迅推专业
  • 招聘网站的简历可以做几份手机端网站排名
  • 邢台地区网站建设服务周到今日热点新闻一览
  • 杭州集团网站建设方案黑帽seo之搜索引擎
  • 做网站需要掌握什么软件免费广告推广平台
  • 如何免费做网站域名宁德市公共资源交易中心
  • 平顶山做网站推广如何快速推广自己的品牌
  • 网站做链接的意义是什么意思seo外链专员
  • 广州建网站兴田德润信任百度推广代理商加盟
  • 区域性网站推广商务网站建设
  • 平潭县建设局网站seo排名优化教程
  • 怎么做全屏网站房地产销售
  • 安庆网络推广和竞价怎么优化网站排名