对抗 DQN 网络 Adversarial-DQN”以及 MCTS 的结合 设计AI五子棋系统
对抗 DQN 网络 Adversarial-DQN”以及 MCTS 的结合
强化学习的本质是决策,根据当前的状态来决策应该采取什么动作。跟有监督学习不同的是,有监督学习是通过已有的数据和数据对应的正确标签,学习数据和标签对应逻辑;强化学习刚开始并没有标签,它是在尝试动作后才能获得结果,通过反馈的结果信息不断调整之前的策略。若将状态看作数据属性,动作看作标签,监督学习和强化学习都是在试图寻找一个映射, 从已知属性/状态推断出标签/动作,强化学习中的策略相当于有监督学习中的分类/回归器。
一、 Q-Learning
Q-Learning 是强化学习里经典的算法之一。Q-Learning 主要有 R 表和 Q 表,两个表记录的都是各个状态下各个动作的得分。