分类：强化学习

解析 DeepMind 采用双 Q 学习 (Double Q-Learning) 深度强化学习技术

Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist，致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标，带领团队快速成长为人工智…

小编说：AlphaGo 这个被大家热议过很久的主题，里面其实包含了非常深刻的机器学习智慧，是学习机器学习甚至是人类决策的绝好教材。机器学习是AlphaGo 取胜的关键，为什么它会发挥巨大作用，请看下文。了解一门科学技术…

1. 回顾强化学习方法我们介绍了基于价值(Value-Based)的强化学习和基于策略(Policy-Based)的强化学习，有没有结合两者优势的强化学习方法呢？答案是肯定的，那就是Actor-Critic学习方法。三…

The idea behind Reinforcement Learning is that an agent will learn from the environment by interacting with it…

从 TD(0) 到蒙特卡洛方法示意图 n-step的算法可以描述为下面是 n-step TD 的 error reduction property 效果测试，可以看出n-step在这个例子中比蒙特卡洛和TD(0)都要好…

本文为 AI 研习社编译的技术博客，原标题： The base of deep reinforcement learning-Conjugate Gradient 作者 |Jonathan Hui 翻译 | …

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互，比如说，多个机器人的控制，语言的交流，多玩家的游戏等等。本文，就带你简单了解一下Open-AI的MADDPG(Mu…

之前发表的关于强化学习的文章，无论是基于策略的还是基于价值的还是两者均兼顾的强化学习方法都没有涉及到具体的模型。 1. 无模型(Model-Free)的强化学习回顾机器人在真实环境中互动学习，然后寻找到行动策略，然后学…

对于有K个手臂的赌博机，假设不知道每个手臂的收益，为了获得全局最大收益，通常需尝试和探索不同手臂的回报。 ε贪心的思想是，每次以ε的概率探索新手臂的回报，而用1-ε的概率选择当前已知回报最大的手臂。ε贪心测试效果如下，对…

五、强化学习原文：Machine Learning for Humans, Part 5: Reinforcement Learning 作者：Vishal Maini 译者：飞龙协议：CC BY-NC-SA 4.0…

以前主要是关注机器学习相关的内容，最近需要看李宏毅机器学习视频的时候，需要了解到强化学习的内容。本文章主要是关注【强化学习-小车爬山】的示例。翻阅了很多资料，找到了莫烦Python中使用 Tensorflow + …

Reward 定义了强化学习问题中的目标。在每个时间步，环境向agent发送一个称为reward的单个数字。Agent的唯一目标是最大化其长期收到的total reward。因此，reward定义了对于agent什么是好…