微分动态规划

2019年3月23日 360次阅读来源: 动态规划

from：https://en.wikipedia.org/wiki/Differential_dynamic_programming

深入理解DDP

DDP是一种轨迹优化类别问题中的最优控制算法。这种算法在1966年被Mayne提出。

该算法使用动态模型(dynamics)以及代价函数(cost functions)的局部二次(locally-quadratic)模型，并且展现二次收敛(displays quadratic convergence)性质。它与Pantoja’s step-wise Newton’s method有很大关联。

Finite-horizon discrete-time problems

下面我们来看看所要研究的问题：

The dynamics:

《微分动态规划》

从状态x出发，使用控制序列《微分动态规划》直到horizon is reached。

《微分动态规划》

其中《微分动态规划》，这个最优控制问题的解就是要寻找一个最优控制序列来最小化上面的代价函数

《微分动态规划》

轨迹优化(Trajectory optimization)意味着对于某一个《微分动态规划》找到一个使得代价函数最小，而不是对于所有可能的初始状态(rather than for all possible initial states)。

Dynamic programming

设《微分动态规划》是控制序列中的一部分，并且定义 cost-to-go 作为从

《微分动态规划》到的一个部分和代价。

《微分动态规划》

其中令《微分动态规划》，动态规划原理指的是在时间上backwards，并且每一次都是基于单个控制步来减少cost function的：

《微分动态规划》

这就是Bellman equation。

Differential dynamic programming

DDP是如何运行的呢？

它通过迭代运行backward pass和forward pass来进行规划求解的。

DDP proceeds by iteratively performing a backward pass on the nominal trajectory to generate a new control sequence, and then a forward pass to compute and evalute a new nominal trajectory.

首先，我们看看backward pass是一个什么样的东西。

在上面一节的Bellman方程中，需要最小化的项为：

《微分动态规划》