当前位置: 首页 > news >正文

深度学习24-多智能体强化学习

### 多智能体强化学习

▪  首先概述经典的单智能体RL问题和多智能体RL问题之间的异同。
▪  涵盖由Geek.AI英国/中国研究小组实现并开源的MAgent环境。
▪  使用MAgent在不同环境中对几组智能体训练模型。

事例

▪  国际象棋游戏,我们的程序试图击败对手。
▪  市场模拟,例如产品广告或价格变动,我们的动作可能引起其他参与者的对抗动作。
▪  Dota2或StarCraft II等多人游戏,智能体需要控制多个单位与其他玩家竞争。

**通信形式**

▪  竞争型:两个或更多的智能体试图互相击败对方以最大化他们的奖励。最简单的设置是两人游戏,例如国际象棋、西洋双陆棋或Atari Pong。
▪  协作型:一组智能体需要共同努力以实现某个目标。

在智能体之间需要相互协商、从而达成最优的联合动作的问题中,个体之间的相互建模,能够为智能体的决策提供潜在的协调机制。在联合动作学习(joint action learner,JAL)[6]方法中,智能体 i 会基于观察到的其他智能体 j 的历史动作、对其他智能体 j 的策略进行建模。在频率最大 Q 值(frequency maximum Q-value, FMQ)[7]方法中,在个体 Q 值的定义中引入了个体动作所在的联合动作取得最优回报的频率,从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作,那么所有智能体的最优动作组合被选择的概率也会更高。

随着深度学习的发展,利用神经网络的强大表达能力来搭建逼近模型(value approximation)和策略模型(常见于 policy-based 的 DRL 方法)。深度强化学习的方法可以分为基于值函数(value-based)和基于策略(policy-based)两种,在考虑多智能体问题时,主要的方式是在值函数的定义或者是策略的定义中引入多智能体的相关因素,并设计相应的网络结构作为值函数模型和策略模型,最终训练得到的模型能够适应(直接或者是潜在地学习到智能体相互之间的复杂关系),在具体任务上获得不错的效果。

相关文章:

  • 做网站的公司市场/关键词整站优化公司
  • 推广型网站/网络培训系统
  • 泸县手机网站建设/怎么做好市场宣传和推广
  • 做刷题网站赚钱么/seo标题关键词优化
  • wordpress 导航栏在哪/数据统计网站
  • 做公司网站别人能看到吗6/谷歌搜索引擎下载安装
  • leetcode354. 俄罗斯套娃信封问题
  • 【批处理脚本】-1.1-注释命令rem
  • 【MySQL进阶】MySQL事务隔离与锁机制底层原理万字总结(建议收藏!!)
  • Qt使用第三方库QXlsx将数据库的数据导出为Excel表格
  • DevOps利器之二(Git,Gitlab)
  • aws imagebuilder 理解并使用imagebuilder构建pcluster自定义ami
  • 关于ElasticSearch的那些事,面试常见问题
  • 浅析正则表达式+范围规则校验表达式+js从字符串中截取数字
  • 设计模式——代理模式
  • 左右双指针 - nSum问题
  • HTML知识梳理
  • 黑马学ElasticSearch(十二)