学习笔记：数值最优和模型预测控制(四)无约束静态最优化(二)确定下降方向

上一章传送门：

接下来我们探讨如何确定下降方向的向量 $\bold s_k$ 。

4.1 梯度法

为了让代价函数沿最快速度方向下降到最小值，除了迭代步长，下降方向也至关重要。确定搜寻方向有许多方案，他们各有特色，依据精度，收敛速度以及计算复杂度相区别。最简单的一种方法，即沿着负梯度方向。那么

(4.1) ${\color{Red}{\bold s_k=-\nabla f(\bold x_k)}}$

这就是梯度法，往往也被称为梯度下降法，易知满足一阶下降条件

(4.2) $\nabla f(\bold x_k)^T\bold s_k=-\nabla f(\bold x_k)^T\nabla f(\bold x_k)=-\left| \left|\nabla f(\bold x_k) \right|\right|^2<0$

梯度和等高线 $f(\bold x_k)=const.$ 正交，而沿着 $\bold x_k$ 位置变动。负的梯度能最小化上一章不等式(3.15)最小化，这也被称为最陡下降方向。

当给定条件较优时(比如 $f(\bold x)=x_1^2+x_2^2$ )，负梯度方向直指最小值的中心，从而梯度极快收敛到最小值。而如图右所示，给定条件恶劣时，负梯度方向并不直指最小值中心，下降的过程蜿蜒曲折，收敛速度很慢。

定理4.1 梯度下降收敛速率： 对于二次型函数 $f(\bold x)=\frac{1}{2}\bold x^T\bold Q\bold x+\bold b\bold x+C$ ，有正定矩阵 $\bold Q$ ，其梯度下降法的线搜索精确解的收敛速度满足
(4.3) $f(\bold x_{k+1})-f(\bold x^*)\leq\left(\frac{\kappa-1}{\kappa+1} \right)^2\left[ f(\bold x^k)-f(\bold x^*)\right],\quad \kappa=\frac{\lambda_{max}}{\lambda_{min}}$
其中 $\lambda_{max},\lambda_{min}$ 为 $\bold Q$ 的最大最小的特征值。

$\kappa$ 表示了 $\bold Q$ 条件的光谱，也直接影响了收敛速度。

总结来说，梯度下降法的优势为简单，而且在Newton法时，有更大的收敛范围。劣势为在条件恶劣时收敛速度很差，而且精度也受限。

4.2 共轭梯度法

这是原有的梯度法的变体，因为计算量没有高过太多，效率和收敛性质却显著优于梯度法。共轭梯度法充分利用了前一步迭代的信息，使得

(4.4) ${\color{Red}{\bold s_0=-\nabla f(\bold x_0)}}$

(4.5) ${\color{Red}{\bold s_k=-\nabla f(\bold x_k)+\beta_k\bold s_{k-1}}}$

第一步依然是最陡峭的负梯度下降方向，之后的每一步都依赖前一步信息更新，并有修正

(4.6) $\beta_k=\frac{\left| \left| \nabla f(\bold x_k) \right| \right|^2}{\left| \left| \nabla f(\bold x_{k-1}) \right| \right|^2}$

这是由Fletcher和Reeves建议补充的。共轭梯度法基本上放弃了繁琐的矩阵运算，从而也对一些稍微大一点的问题可以应用，使用时也要注意存储器效率。此外梯度法所涉及的二次型 $f(\bold x)=\frac{1}{2}\bold x^T\bold Q\bold x+\bold b\bold x+C$ 的最优问题中，可以在最多相当于向量 $\bold x\in \mathbb{R}^n$ 维数 $n$ 的迭代中收敛。

4.3 Newton法

线搜索的一种特殊情况是，搜索方向的选择正好对应Newton法，此时的搜索方向 $\bold s_k$ 被称为Newton方向。首先需要代价函数 $f(\bold x)=f(\bold x_k+\bold s)$ 在 $\bold x_k$ 处近似的二次型模型

(4.7) $m_k(\bold s)=f(\bold x_k)+\nabla f(\bold x_k)^T\bold s+\frac{1}{2}\bold s^T\nabla ^2f(\bold x_k)\bold s$

以此来找到最小的 $\bold s$ ，通过对 $\bold s_k$ 求导，得到

(4.8) $\bold0=\nabla f(\bold x_k)+\nabla ^2f(\bold x_k)\bold s$

根据 $\nabla ^2f(\bold x_k)$ 正定的假设，在 $\bold x_k$ 处Newton方向即 $\bold s_k=\bold s$

(4.9) ${\color{Red}{\bold s_k=-\left[ \nabla ^2f(\bold x_k) \right]^{-1}\nabla f(\bold x_k)}}$

$\nabla ^2f(\bold x_k)$ 的逆矩阵必然也正定，显然也满足下降条件

(4.10) $\nabla f(\bold x_k)^T\bold s_k=-\nabla f(\bold x_k)^T\left[ \nabla ^2f(\bold x_k) \right]^{-1}\nabla f(\bold x_k)<0$

Newton方向产生了 $\alpha_k=1$ 自然的迭代过程，因此，Newton法的大多数变体都以 $\alpha_k=1$ 步长作为标准，只有当代价函数 $f(\bold x_{k+1})$ 的下降低于边界时，才减小步长。

Newton法实质上是二阶的方法，因为趋近模型有三阶以上的误差。但它对高维系统也相对可靠实用，只要二次近似足够精确。图4.2表现了这个Newton法的方向相比较于最陡峭负梯度方向，更快速逼近最小值。

总结来说，Newton法的优势在于平方收敛，速度更快精度比一阶高，但存在局部收敛(不保证对任意 $\bold x$ 有 $\nabla^2f(\bold x_k)>0$ )，而且计算Hesse矩阵耗时过多，特别是当维数很高的时候。

为获得全局最小的收敛，Newton法需要至少要保证Hesse矩阵的正定性。还可以通过近似或者Quasi-Newton法来避免Hesse矩阵的计算。

4.4 Quasi-Newton法

Quasi-Newton法是一个非常具有吸引力的对纯Newton法的替代方法，因为可以不用计算Hesse矩阵。反之，采用每次迭代更新逼近Hesse矩阵的方法。这样单步迭代梯度的信息就被充分利用，来提供有关沿搜索方向的二阶导数的信息。

先考虑梯度 $\nabla f$ 在 $\bold x_k$ 处线性近似模型

(4.11) $\nabla f(\bold x_k+\bold s)\approx\nabla f(\bold x_k)+\nabla^2 f(\bold x_k)\bold s$

对于足够小的 $\bold s=\bold x_{k-1}-\bold x_k$ 就可以近似表示前一步迭代的梯度

(4.12) $\nabla f(\bold x_{k-1})\approx\nabla f(\bold x_k)+\nabla^2 f(\bold x_k)\left( \bold x_{k-1}-\bold x_k \right)$

由此可以反推出Hesse矩阵的近似表达 $\bold H_k$

(4.13) $\nabla f(\bold x_{k})-\nabla f(\bold x_{k-1})=\underbrace{\nabla^2 f(\bold x_k)}_{\bold H_k}\left( \bold x_{k}-\bold x_{k-1} \right)$
不过这样又面临了一个新问题， $\bold H_k$ 有 $n^2$ 个待定元素，而却只有 $n$ 个等式，必须给定更多条件，比如对称矩阵以及 $\bold H_k,\bold H_{k-1}$ 之间的差值。给定了这些条件以后，就可以写出 $\bold H_k$ 并得到解析解。一个最有名的更新 $\bold H_k$ 的公式即BFGS公式(Broyden, Fletcher, Goldfarb, Shanno)

(4.14) $\bold H_k=\bold H_{k-1}-\frac{\bold H_{k-1}\bold d_k(\bold d_k)^T\bold H_{k-1}}{(\bold d_k)^T\bold H_{k-1}\bold d_k}+\frac{\bold y_{k}(\bold y_k)^T}{(\bold d_k)^T\bold y_{k}}$

其中简写表示 $\bold d_{k}= \bold x_{k}-\bold x_{k-1}, \quad\bold y_{k}=\nabla f(\bold x_{k})-\nabla f(\bold x_{k-1})$ 。

起始位置在 $\bold x_0$ ，那么 $\bold H_0=\nabla^2 f(\bold x_0)$ 抑或是最简单的单位矩阵 $\bold H_0=\bold I$ 。

Newton法中还需要计算Hesse矩阵的逆矩阵，所以直接给出等价的逆矩阵 $\bold B_k=\bold H_k^{-1}$ 公式就更方便了。

(4.15) $\bold B_k=\left[ \bold I-\rho_k\bold d_k(\bold y_k)^T \right]\bold B_k\left[ \bold I-\rho_k\bold y_k(\bold d_k)^T \right]+\rho_k\bold d_k(\bold d_k)^T,\quad \rho_k=\frac{1}{(\bold y_k)^T\bold d_k}$

于是就能得到Quasi-Newton法的搜索方向

(4.16) ${\color{Red}{\bold s_k=-\bold B_k\nabla f(\bold x_k)}}$

Quasi-Newton法通过很快收敛速度表现抢眼，原则上纯Newton法的收敛速度达不到这种程度，这无外乎向量矩阵运算 $\bold H_k,\bold B_k$ 远快于计算Hesse矩阵以及它的逆矩阵。另一个相对于纯Newton法的优势即矩阵奇异性的问题不再出现，因为至少在求精确解的时候保证了 $\bold H_k,\bold B_k$ 的正定性。而且和同样地，Quasi-Newton法对之前共轭梯度法所涉及的二次型 $f(\bold x)=\frac{1}{2}\bold x^T\bold Q\bold x+\bold b\bold x+C$ 的最优问题中，也可以在最多相当于向量 $\bold x\in \mathbb{R}^n$ 维数 $n$ 的迭代中收敛。

4.5 其他数值方法

接下来介绍两种对于无约束最优问题的其他数值方法：置信域法和直接搜索法。

前者类似于线搜索，后者则是不必估算梯度。

4.5.1 置信域法

不同于之前介绍的线搜索法，置信域法构造了代价函数 $f$ 局部的简单模型 $m_k(\bold s)\approx f(\bold x_k)$ 用它来替代原有模型求解局部的最小值。

(4.17) $\min_{\bold x\in \mathbb{R}^n}f(\bold x)\approx\min_{\left| \left| \bold s \right| \right|\leq\Delta_k}m_k(\bold s)$

因为 $m_k(\bold s)$ 只在足够小 $\bold s$ 的局部精确，寻找 $m_k(\bold s)$ 的最小值要受到置信区间的约束 $\left| \left| \bold s \right| \right|\leq\Delta_k$ ，近似模型一般也是选用二次型函数

(4.18) $m_k(\bold s)=f(\bold x_k)+\nabla f(\bold x_k)^T\bold s+\frac{1}{2}\bold s^T\bold H_k\bold s$

其中 $\bold H_k$ 也之前提到的Hesse矩阵或者相应的近似表达。于是关于 $\bold s$ 的最优解导向了对于下一个点 $\bold x_{k+1}=\bold x_k+\bold s_k$ 的可能的候选方向。若对应的下一个函数值 $f(\bold x_{k+1})$ 没有导致先前成本函数值 $f(\bold x_k)$ 的充分减小，则置信区间 $\Delta_k$ 减小，并且再次求解(4.1)。

当每次迭代不断减小 $\Delta_k$ 则新的推算位置和当前位置之间的距离更小了，而 $\bold s_k$ 理论上就会指向新的方向。由此发现线搜索法和置信域法的区别，那便是下一步的方向和步长如何选择：

线搜索专注 $\bold s_k$ 的搜索方向，并需要确定合适的步长 $\alpha_k$
置信域法先划出一个最大可信范围 $\Delta_k$ ，然后同时决定一个合适的方向和步长 $\bold s_k$ ，到达下一个迭代点 $\bold x_{k+1}$ ，如有必要，可缩小信任区域并重复搜索。

置信区间 $\Delta_k$ 在每个迭代步骤中根据模型 $m_k(\bold s)$ 和代价函数 $f$ 的一致性进行调整。

(4.19) $\rho_k(\bold s_k)=\frac{f(\bold x_k)-f(\bold x_k+\bold s_k)}{m_k(\bold0)-m_k(\bold s_k)}$

$\rho_k(\bold s_k)$ 评估了模型和代价函数在一次迭代中的下降的相差程度，所以若 $\rho_k\approx1$ 意味着模型和现实符合得很好，于是在下一步中可以继续放大置信区间。而如果 $\rho_k\ll1$ ，那么下一次迭代中必须缩减 $\Delta_k$ 。

$\begin{align} \hline &\bold{Initial:}~~~\bar \Delta,\Delta_0\in(0,\bar \Delta)\quad\text{(置信区间：边界&初始值)}\\ &~~~~~~~~~~\qquad \eta\in[0,0.25)~~\qquad\text{(参数)}\\ &~~~~~~~~~~\qquad k\leftarrow0~~\qquad~~\qquad\text{(迭代指数)}\\ &~~~~~~~~~~\qquad \varepsilon_x,\varepsilon_{\nabla f}~~\qquad\qquad\text{(终止判据)}\\ &\bold {repeat}\\ &\qquad\qquad m_k(\bold s)\leftarrow f(\bold x_k)+\nabla f(\bold x_k)^T\bold s+\frac{1}{2}\bold s^T\bold H_k\bold s ~\text{(模型)}\\ &\qquad\qquad \bold s_k\leftarrow arg\min\left\{ m_k(\bold s) :\left| \left| \bold s \right| \right|\leq\Delta_k\right\}~~\qquad\text{(近似解)}\\ &\qquad\qquad \rho_k(\bold s_k)\leftarrow\frac{f(\bold x_k)-f(\bold x_k+\bold s_k)}{m_k(\bold0)-m_k(\bold s_k)}\qquad\qquad~~\text{(下降误差估值)}\\ &\qquad\qquad\bold {if}~~\rho_k<0.25~~ \bold{do}\\ &\qquad\qquad\qquad\Delta_{k+1}\leftarrow 0.25\Delta_k\qquad\qquad\qquad\qquad~~\text{(缩减区间)}\\ &\qquad\qquad\bold {else}~~\bold {if}~~ \rho_k>0.75~~ \bold{and}~~\left| \left| \bold s \right| \right|=\Delta_k~~\bold{do}\\ &\qquad\qquad\qquad\Delta_{k+1}\leftarrow \min\left\{ 2\Delta_k,\bar\Delta\right\}\qquad\qquad\quad~\text{(扩大区间)}\\ &\qquad\qquad\bold {else}~~\\ &\qquad\qquad\qquad\Delta_{k+1}\leftarrow\Delta_{k}\\ &\qquad\qquad\bold {end}~~\bold {if}\\ &\qquad\qquad\bold {if}~~\rho_k>\eta~~\bold{do}\\ &\qquad\qquad\qquad\bold x_{k+1}\leftarrow\bold x_{k}+\bold s_{k}\\ &\qquad\qquad\qquad\bold H_{k+1}\leftarrow\bold H_{k}+...\qquad\qquad\qquad\qquad\text{(BFGS公式)}\\ &\qquad\qquad\bold {else}\\ &\qquad\qquad\qquad\bold x_{k+1}\leftarrow\bold x_{k}\qquad\qquad\qquad\qquad\qquad~~~{(\Delta_{k+1}<\Delta_{k}时的重复)}\\ &\qquad\qquad\bold {end}~~\bold {if}\\ &\qquad\qquad k\leftarrow k+1\\ &\bold {until}\quad \left| \left| \nabla f(\bold x_k) \right| \right|\leq \varepsilon_{\nabla f} \\\hline \end{align}$

4.5.2 直接搜索法

之前几个方法都是跟求导相关的，需要用到梯度信息，不过有些时候偏导不存在或者不容易接近或者需要极大计算量，这是一些太复杂或者不再连续可微的问题。可以借助直接搜索/不求导搜索法，只需要借助一些采样点来算出一系列函数值，再来确定迭代点。在非线性最优化中，一个最知名同时又是最简单的方法即Nelder-Mead法。这个算法基于n维空间的单纯形。它由 $n+1$ 个点 $\bold x_i,~~i=1,...,n+1$ 张开。对 $n=1$ 即直线， $n=2$ 即三角形，以此类推。

对由 $n+1$ 个点构成的单纯形(Simplex)，同时计算对应坐标的函数值并排序，得到升序

(4.20) $f(\bold x_1)\leq f(\bold x_2)\leq...\leq f(\bold x_{n+1})$

于是这个算法就用一个新的点替换掉最“坏”的点 $\bold x_{n+1}$ ，根据公式

(4.21) $g(a)=\bar{\bold x}+a(\bar{\bold x}-\bold x_{n+1}),\quad\bar{\bold x}=\frac{1}{n}\sum_{i=1}^{n}{\bold x_i}$

该公式由参数 $a$ 控制，而 $\bar{\bold x}$ 为这个单纯形的重心，根据直线公式可以得到不同的作图法，来获得合适的新的点：反射，扩张，内/外缩以及收缩。

[a]反射(Reflection)图a)：反射点为 $\bold x_r=g(1),~~f_r=f(\bold x_r)$ 。若 $f(\bold x_1)\leq f_r\leq f(\bold x_{n})$ ，则令 $\bold x_{n+1}=\bold x_{r}$
[b]扩张(Expansion)图b)：若 $f_r< f(\bold x_{1})$ ，点为 $\bold x_e=g(2),~~f_e=f(\bold x_e)$ 。若 $f_e< f_r$ ，则令 $\bold x_{n+1}=\bold x_{e}$ 。否则令 $\bold x_{n+1}=\bold x_{r}$ 。
[c]外缩(äußere Kontraktion)图c)：若 $f(\bold x_n)\leq f_r\leq f(\bold x_{n+1})$ ，则令 $\bold x_c=g(1/2),f_c=f(\bold x_c)$ 。若 $f_c\leq f_r$ ，则令 $\bold x_{n+1}=\bold x_{c}$ 。否则继续执行步骤收缩步骤[e]。
[d]内缩(innere Kontraktion)图d)：若 $f_r\geq f(\bold x_{n+1})$ ，则令 $\bold x_c=g(-1/2),f_c=f(\bold x_c)$ 。若 $f_c< f(\bold x_{n+1})$ ，则令 $\bold x_{n+1}=\bold x_{c}$ 。否则继续执行步骤收缩步骤[e]。
[e]收缩(Schrumpfung)图e)：把单纯形压缩在最优点为 $\bold x_1$ 。令 $\bold x_i=\frac{1}{2}\left(\bold x_1+\bold x_i \right)$ ， $i=2,...,n+1$

$\begin{align} \hline &\bold{Initial:}~~~\bold x_i,...,\bold x_{n+1}\quad\text{(初始单纯形)}\\ &~~~~~~~~~~\qquad \varepsilon_x,\varepsilon_{f}~~~\quad\qquad\text{(终止判据)}\\ &\bold {repeat}\\ &\qquad\qquad 排序f(\bold x_i)\\ &\qquad\qquad \bar{\bold x}\leftarrow\frac{1}{n}\sum_{i=1}^{n}{\bold x_i}~\qquad\text{(确定重心)}\\ &\qquad\qquad g(a)\leftarrow\bar{\bold x}+a(\bar{\bold x}-\bold x_{n+1})\\ &\qquad\qquad 交换\bold x_{n+1}或者\bold x_{i}~~\text{(单纯形运算[a][b][c]...)}\\ &\bold {until}\quad \max_{2\leq i\leq n+1} \left| \left|\bold x_{i}-\bold x_{1} \right| \right|\leq \varepsilon_{x}~~ \bold{or}~~f(\bold x_{n+1})- f(\bold x_{1})\leq \varepsilon_{f} \\\hline \end{align}$

单纯形算法通过不断迭代进行，直到收敛判据达成。单纯形沿着最优方向游走，不过并不能完全保证收敛，也可能会收敛在一个非最优的点。不过实操时，单纯形法往往有很好的结果，而且收敛速度也很快。由于它高鲁棒性，算法又简单，是一个非常常用的算法。

参考文献：

Numerische Optimierung und modellprädiktive Regelung (WS 2019/2020), A. Völz, K. Graichen, Lehrstuhl für Regelungstechnik, Friedrich-Alexander-Universität Erlangen-Nürnberg

学习笔记：数值最优和模型预测控制(四)无约束静态最优化(二)确定下降方向

善道

4.1 梯度法

4.2 共轭梯度法

4.3 Newton法

4.4 Quasi-Newton法

4.5 其他数值方法

为你推荐

Webots+Matlab：使用Simulink搭建RHex控制器（1）

IMU之磁力计校准&地磁场&计算磁航向

视觉SLAM十四讲学习笔记——ch13 设计SLAM 系统

语音信号处理 | 傅里叶变换、短时傅里叶变换、小波变换、希尔伯特变换、希尔伯特黄变换

一看就懂的LSTM+Attention，此处用softmax求概率

状态估计03. 机器人状态估计(概率视角)

关于作者

善道

32

0

0

2

现代控制理论线性系统入门(一)状态方程描述下的动态系统

现代控制理论线性系统入门(八)最优控制——LQR控制器

德国人怎么学电机——浅谈电机模型(十三)：异步电机：鼠笼电机

相关推荐

Webots+ROS学习记录（6）——在ROS中控制你的Webots仿真

经典控制理论-控制系统

Robocup 仿真2D 学习笔记（二）球队代码编译和上场

EKF SLAM学习笔记01

Ardupilot之Gazebo仿真实现及控制

【自动驾驶】运动规划丨速度规划丨时间维度

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

学习笔记：数值最优和模型预测控制(四)无约束静态最优化(二)确定下降方向

善道

4.1 梯度法

4.2 共轭梯度法

4.3 Newton法

4.4 Quasi-Newton法

4.5 其他数值方法

为你推荐

Webots+Matlab：使用Simulink搭建RHex控制器（1）

IMU之磁力计校准&地磁场&计算磁航向

视觉SLAM十四讲学习笔记——ch13 设计SLAM 系统

语音信号处理 | 傅里叶变换、短时傅里叶变换、小波变换、希尔伯特变换、希尔伯特黄变换

一看就懂的LSTM+Attention，此处用softmax求概率

状态估计03. 机器人状态估计(概率视角)

评论（0）

关于作者

善道

32

0

0

2

现代控制理论线性系统入门(一)状态方程描述下的动态系统

现代控制理论线性系统入门(八)最优控制——LQR控制器

德国人怎么学电机——浅谈电机模型(十三)：异步电机：鼠笼电机

相关推荐

Webots+ROS学习记录（6）——在ROS中控制你的Webots仿真

经典控制理论-控制系统

Robocup 仿真2D 学习笔记（二） 球队代码编译和上场

EKF SLAM学习笔记01

Ardupilot之Gazebo仿真实现及控制

【自动驾驶】运动规划丨速度规划丨时间维度

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

Robocup 仿真2D 学习笔记（二）球队代码编译和上场

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板