在一个完美的信息环境中,我们能够知道一个动作后的状态,比如下棋,是否有理由使用Q学习而不是TD(时间差异)学习?
据我所知,TD学习将尝试学习V(状态)值,但Q学习将学习Q(状态动作值)值,这意味着Q学习学习较慢(因为状态动作组合不仅仅是状态),是那是对的吗?
最佳答案 Q-Learning是TD(时间差异)学习方法.
我想你正在尝试参考TD(0)和Q学习.
我会说这取决于你的行为是否具有确定性.即使您具有转换功能,由于您需要计算每个步骤中每个操作的预期值,因此决定在TD(0)中采取哪个操作可能会很昂贵.在Q学习中,将在Q值中进行总结.