当前位置：首页 > news >正文

微信公司网站怎么做如何做网络推广运营

news 2025/12/2 17:56:11

微信公司网站怎么做,如何做网络推广运营,清远企业网站建设公司,手机网站模板更改吗前言个人拙见，如果我的理解有问题欢迎讨论 (●′ω`●) 原文链接：https://www.ifaamas.org/Proceedings/aamas2024/pdfs/p2633.pdf 研究背景深度强化学习（Deep Reinforcement Learning, DRL）在复杂和安全关键任务中取得了显著成果，例如自动驾驶。然而，DRL策略容易受…

前言

个人拙见，如果我的理解有问题欢迎讨论 (●′ω`●)
原文链接：https://www.ifaamas.org/Proceedings/aamas2024/pdfs/p2633.pdf

研究背景

深度强化学习（Deep Reinforcement Learning, DRL）在复杂和安全关键任务中取得了显著成果，例如自动驾驶。然而，DRL策略容易受到观测噪声的干扰，这在安全关键环境中可能导致灾难性后果。例如，自动驾驶汽车在接收到对交通标志的对抗性扰动时（如一个被物理改变的停车标志被感知为限速标志）可能会导致严重的交通事故。

研究意义

目前已有的方法主要集中在通过正则化方法和“maximin”方法来提高DRL算法对观测扰动的鲁棒性。然而，正则化方法虽然可以减少攻击成功的概率，但一旦攻击成功，性能下降显著。而“maximin”方法虽然鲁棒性强，但过于保守。因此，本文研究了一种新的鲁棒性目标——遗憾（Regret），通过优化遗憾来在保证鲁棒性的同时不过于保守。

保守指的是在面临可能需要探索的场合时，智能体可能会偏向去执行奖励更大而不是结果更优的动作

摘要

本文提出了一种基于遗憾优化的方法来增强对抗性强化学习中的鲁棒性。我们定义并近似优化了一种新的遗憾度量，命名为累积矛盾期望遗憾（Cumulative Contradictory Expected Regret, CCER），并提出了三种优化方法：

RAD-DRN（基于深度遗憾网络的对抗防御）
RAD-PPO（基于近端策略优化的对抗防御）
RAD-CHT（基于认知层级理论的对抗防御）

实验结果表明，这些方法在多个标准基准测试中均优于现有的最佳方法。

具体细节

对抗策略的训练

文章中提出了一个假设，带有了干扰的观测状态Z和真实状态S之间一定存在一个双射的函数，即一个Z一定只会对应一个S，通过这种方式，当干扰出现时，智能体能够利用这种映射关系，将当前的Z映射到S空间，这样的话就不会出现下面的情况：

在机械臂的抓取过程中，如果目标是红色方块，干扰是粉色方块，当遇到粉色干扰时，机械臂能够自行根据相应的算法，做出不同的动作来规避误抓取，这在下面会展开讨论

遗憾的定义

在对抗性强化学习中，遗憾被定义为在没有对抗干扰和存在对抗干扰的情况下，代理获得的期望值之差。具体来说，给定一个对抗性策略

http://www.ds6.com.cn/news/82067.html

相关文章：

做网站三剑客抖音企业推广

做运营的前景大吗sem seo

怎么增加网站的外链如何注册网站平台

日本哪个网站做外贸比较好建网站找哪个平台好呢

做的好的音乐网站的特点seo网站关键词优化方法

成都那家做网站好登录百度账号注册

制作一个网站界面设计图片关键词整站优化

番禺网站开发平台互联网营销师证书

潍坊模板建站平台app推广工作靠谱吗

聊城网站建设推广什么是营销渠道

bs网站开发招聘网络推广最好的网站有哪些

小企业网站建设论文公司网站怎么申请怎么注册

利用表格布局做网站步骤如何注册网站平台

昆明网站排名优化公司哪家好免费涨粉工具

易名网站备案站内推广方式有哪些

app浏览器下载关键词优化公司网站

wordpress如何上传pptapp软件下载站seo教程

长宁区网站建设网站制作惠州seo排名外包

湘潭网站推广东莞seo排名公司

网站关键词怎么布局百度排行榜风云榜

专业的门户网站建设方案镇江百度关键词优化

12网站免费建站网站制作工具

安全员考试报名官网中国seo网站

成都网站制作公司 dedecms网络营销的概念及内容

centos 7.2 做网站站长域名查询

个人养老金怎么缴纳下载班级优化大师app

濮阳微信网站建设西安网络推广公司大全

59网站一起做网店广州宁波网络推广优化方案

mac wordpress济南seo整站优化招商电话

企业展厅设计公司大型快速网站推广优化