分类：强化学习

邂逅黑科技之强化学习(二)：Policy Gradient

承上，首先是Policy Based经典算法，基础的Policy Gradient以及它的进化版PPO等，下面内容主要参考李宏毅老湿的讲义与口述： Policy Gradient 算法动机在深度强化学习中，Policy…

Abstract 这篇博客大概会记录OpenAI gym的安装以及使用的简要说明。在强化学习里面我们需要让agent运行在一个环境里面，然鹅手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以…

基于tensorflow的最简单的强化学习入门-part0：Q学习和神经网络本文翻译自 Simple Reinforcement Learning with Tensorflow Part 0: Q-Learning …

Sarsa Sarsa的学习过程和Q-Learning基本一样，不同的地方是Q-Learning在走下一步的时候是先看下一步应该走哪，但是最后不一定走，而Sarsa是决定完要走的步之后一定会去走那一步。换句话说，Q-Le…

最近又买了两本新书，希望以后能有读后感，说起来，还得感谢首都经济贸易大学投资系副主任余颖丰教授，真心感谢！之前，我们推荐过免费好书“免费: 大赏新书CASI”，这里我们再推荐一本好书！Richard 和 Andre…

强化学习(Reinforcement Learing)，机器学习重要分支，解决连续决策问题。强化学习问题三概念，环境状态(Environment State)、行动(Action)、奖励(Reward)，目标获得最多累计…

在前面的文章介绍了什么是MDP，以及如何求解最优MDP解决MDP问题。接着又介绍了用MD和TD的方法在未知环境下预测MDP。在这些方法中的最优策略π就是为了获得最大值函数(V函数)Vπ(s)或者加入了行动a的Q函数Qπ(…

毫无疑问TD是强化学习中一个最新奇的算法，它结合了MC和DP的思想 constant a-MC可以表示为那么简单的TD可以表示为可以看出TD仅需要一步动作就能更新价值函数他们的区别在于MC以6.3式为目标，而TD以…

1、背景 GAN作为生成模型的一种新型训练方法，通过discriminative model来指导generative model的训练，并在真实数据中取得了很好的效果。尽管如此，当目标是一个待生成的非连续性序列时，该方…

如果我的分享对您有用，可以点击下面链接支持一下我的劳动成果我分享了300元学费红包给你，快来学Google、亚马逊、Facebook官方的机器学习、数据分析、前端开发课程。在这领取: https://cn.udacit…

题图本文翻译自 Simple Reinforcement Learning in Tensorflow: Part 1 – Two-armed Bandit，作者是 Arthur Juliani，原文链…

这也是最近一个星期我一直在跟学姐搞的一个项目了,很多金融方面的知识丢掉不提,主要是运用深度强化学习的方法来预测股指期货. 最近一个星期我主要是负责了部分的代码开发, CNN,RNN学习以及tensorflow使用. 代码…