协方差矩阵自适应调整的进化策略(CMA-ES)

关于CMA-ES，其中 CMA 为协方差矩阵自适应(Covariance Matrix Adaptation)，而进化策略（Evolution strategies, ES）是一种无梯度随机优化算法。CMA-ES 是一种随机或随机化方法，用于非线性、非凸函数的实参数（连续域）优化。

作者Nikolaus Hansen于2016年在Machine Learning上发布了关于CMA-ES详细教学。
在这里插入图片描述

原文链接：The CMA Evolution Strategy: A Tutorial
CMA-ES讲座Slide：cma-es.key (polytechnique.fr)
更多教学内容查看：Talks (seminars, tutorials,… most including slides)
CMA-ES源码：https://cma-es.github.io
更多内容请查看作者主页：Homepage of Nikolaus Hansen (polytechnique.fr)
在这里插入图片描述

1. 前言

1.1 黑盒优化

优化就是计算一个函数的最大值或者最小值的问题。假设函数f(x)的具体表达式是未知的，把它看作一个黑盒函数，我们只能通过向盒子输入得到输出。它可能存在局部最小点和全局最小点，很显然进行坐标点穷举然后对比出最小值的方法是不可行的，这时就需要我们根据策略一步步地向最小值逼近，不同策略就对应着不同的优化算法。

在机器学习的过程中，搭建的模型并不是一开始就能根据输入获得我们想要的结果，所以就需要对我们的模型进行优化，以使误差函数值（loss）达到最小或者适应度函数值（fitness）达到最大。

所谓的黑盒优化就是指寻找黑盒函数的全局最优解。非形式化的来说，一个黑盒函数F可理解为从输入 $X (x 1, x 2, x 3...)$ 到输出的一个映射。但是映射关系F的具体表达式及梯度信息均未知，我们只能通过不断地将数据输入到黑盒函数中然后通过得到的输出值来猜测黑盒函数的结构信息。下图表示一个黑盒问题的映射关系。
在这里插入图片描述

1.2 Why Evolution Strategies?

ES是一种无梯度随机优化算法，具有较好的并行扩展性(scalability), 不变性(invariance under some transformations), 和较为充分的理论分析，在中等规模（变量个数在3~300范围内）的复杂优化问题上具有较好的效果。

这里不得不提一下 OpenAI上的这篇文章Evolution Strategies as a Scalable Alternative to Reinforcement Learning 由于具有良好的并行性，ES用很短的时间完成了模型的训练。这篇文章所引起对ES的关注可能比其他论文加起来都多。

1.3 ES进化策略的基本思想

进化策略(Evolution Strategies, ES)做黑箱优化（Black box optimization）的主要思路，即通过反复迭代调整一个正态分布进行搜索。进化策略中迭代的正态分布一般写成 ${m}_{t}},\sigma _{t}^{2}{ {C}_{t}})$ ,包含三个参数 ${m}_{t}},{ {\sigma }_{t}},{ {C}_{t}}$ ,而正态分布参数所起的作用为：

• ${ {m}_{t}}$ 均值，决定分布的中心位置。在算法中，决定搜索区域；

• ${\sigma }_{t}}$ 步长参数，决定分布的整体方差(global variance)。在算法中，决定搜索范围的大小和强度。

• ${ {C}_{t}}$ 协方差矩阵，决定分布的形状。在算法中决定变量之间的依赖关系，以及搜索方向之间的相对尺度(scale).

ES算法设计的核心就是如何对这些参数进行调整，尤其是步长参数和协方差矩阵的调整，以达到尽可能好的搜索效果。对这些参数的调整在ES算法的收敛速率方面有非常重要的影响。一般的，ES调整参数的基本思路是，调整参数使得产生好解的概率逐渐增大（沿好的搜索方向进行搜索的概率增大）。

一般的，进化策略在搜索中反复迭代以下步骤：

Sampling：采样产生一个或者一组候选解(candidate solutions);
Evaluation：对新产生的解计算对应的目标函数值；
Selection：依据目标函数值选择部分或者全部解；
Update：使用选择的解更新分布参数.

在进化算法中，一次完整的迭代称为一代（generation），一个候选解称为一个个体，计算目标函数值的过程称为评估。每次迭代产生的新的候选解称为子代（offspring），通过选择得到的用于产生子代的解称为父代（parent）。

CMA-ES 调整参数的基本思路是，调整参数使得产生好解的概率逐渐增大（沿好的搜索方向进行搜索的概率增大）。
在这里插入图片描述

图1：CMA-ES的进化过程

1.4 进化策略的分类

1.4.1 不可重组的进化策略

ES中，一个新解是通过在 ${m}_{t}},\sigma _{t}^{2}{ {C}_{t}})$ 采样产生的。一般的，一个新解可以写成 ${m}_{t}}+{ {\sigma }_{t}}y,y\sim N(0,{ {C}_{t}})$

根据产生解和选择解的方式的不同，算法可以分为不同的类型。主要包含以下三种类型：

(1+1)-ES：每次迭代只产生一个新解，通过和父代进行比较，较好的一个成为下一次迭代的父代，否则直接舍去或淘汰，并相应地调整分布参数。

Step1: 选择一个初始解x和变异强度 $\sigma$
Step2: 通过变异创建新的解：y=x+N(0, $\sigma$ )
Step3：如果f(y)<f(x),则将x替换成y
Step4: 如果满足终止条件，算法停止，否则执行Step2

形式简单，更易于理论分析；
性能良好，某些变异个体代表精英；
集中在局部搜索；

$\mathbf{(\mu + \lambda)}$ -ES：引入种群的方法，使用多个父代和子代，初始化 $\mu$ 个初始解，通过初始解和变异强度 $\sigma$ 创建 $\lambda$ 个变异解，在子代中选择最优个体与父代合并

Step1: 初始化具有 $\mu$ 个解的初始种群和变异强度 $\sigma$
Step2：创建 $\lambda$ 个变异解，生成子代时从 $\mu$ 个父代中随机选择:y^(j)=x⁽ⁱ⁾+N(0, $\sigma$ )
Step3: 将父代与子代合并形成一个新的种群集合P，在P中选择最优的 $\mu$ 个解，以确保种群大小不变。
$P=\left( \cup _{j=1}^{\lambda }\left\{ { {y}^{(j)}} \right\} \right)\cup \left( \cup _{i=1}^{\mu }\left\{ { {x}^{(i)}} \right\} \right)$
Step4: 如果满足终止条件，算法停止，否则执行Step2

引入种群的思想，易于并行化；
围绕最优点进行搜索，可能会长时间陷入某个局部范围；
当前主要用于多目标优化;

注： $(\mu + \lambda)$ -ES和(1+1)-ES 被称为精英算法，指算法集中在当前所找到的最优解附近进行搜索。

$\mathbf{(\mu,\lambda)}$ -ES: 每次迭代产生 $\lambda$ 个新解，其中较好的 $\mu$ 个成为下一次迭代的父代，其他的直接舍去，并相应的调整分布参数。

所有解都只存活一代，避免长时间陷入某个范围；
$(\mu,\lambda)$ -ES每次只保留产生的最好的解，这种常用于理论分析。

该算法包含两种变体：

(1) 选择后代中最好的一个作为分布均值

$m\leftarrow \arg { {\min }_{ { {x}_{i}}}}f({ {x}_{i}})$

(2) 以最佳µ个子代的加权平均值作为分布均值(CMA采用的策略)

$m\leftarrow \sum\limits_{i=1}^{\mu }{ { {w}_{i}}}{ {x}_{i:\lambda }}$

1.4.2 可重组的进化策略

在可重组进化策略中，首先选择一组父代个体进行重组以寻找一个新解，之后对该解采用之前介绍的变异操作。重组时并不是选择两个父代或所有父代，而是随机选择 $\rho \in [1,\mu ]$ 个父代，当 $\rho =1$ 时说明没有重组。重组方式主要有两种：中间和离散。在中间重组算子中$\rho $个选择的平均解向量计算如下：

$y=\frac{1}{\rho }\sum\limits_{i=1}^{\rho }{ { {x}^{(i)}}}$

可重组ES： $(\mu /\rho +\lambda )-\text{ES}$

Step1:初始化具有μ个解${ {x}^{(i)}},i=1,2,\ldots ,\mu $的初始种群，和变异强度σ

Step2:创建λ个变异解，每个解使用从μ个父代中随机选择 $\rho$ 个按如下方式：

通过 $\rho$ 个父代个体的中间重组或离散重组，计算重组解y
对重组解进行变异： ${y}^{(j)}}={ {y}^{(i)}}+N(0,\sigma )$

Step3:将父代和子代合并成一个新的父代种群P，从P中选择最好的μ个解，以保证种群大小不变:
$P=\left( \cup _{j=1}^{\lambda }\left\{ { {y}^{(j)}} \right\} \right)\cup \left( \cup _{i=1}^{\mu }\left\{ { {x}^{(i)}} \right\} \right)$

Step4:如果满足终止条件，算法停止，否则执行Step2。

而对于 $(\mu /\rho ,\lambda )-\text{ES}$ 中，在上述算法的Step3中，只使用子代种群来创建新种群。

2. 准备知识

2.1 正定矩阵的特征分解

对于任意一个正定矩阵 $C\in { {R}^{n\times n}}$ ，都有特征向量的标准正交基 ${b}_{1}},\ldots ,{ {b}_{n}}]}^{T}}$ 其对应的特征值为 $d_{1}^{2},\ldots ,d_{n}^{2}>0$ ，也就是说对于每个 $b_{i}$ 都有 $C{ {b}_{i}}=d_{i}^{2}{ {b}_{i}}$ ，C的正交分解为： $\text{C=B}{ {\text{D}}^{\text{2}}}{ {\text{B}}^{\text{T}}}$ ，其中B是正交矩阵，满足 ${ {B}^{T}}B=B{ {B}^{T}}=I$ , $B$ 的列向量构成一个标准正交基的特征向量， $D^{2}$ 是对角矩阵，其主对角元素为矩阵C的特征值。

$\left. { {\text{C}}^{-1}}={ {\left( \text{B}{ {\text{D}}^{2}}{ {\text{B}}^{\text{T}}} \right)}^{-1}}={ {\text{B}}^{\text{T}}}^{-1}{ {\text{D}}^{-2}}{ {\text{B}}^{-1}}=\text{B}{ {\text{D}}^{-2}}{ {\text{B}}^{\text{T}}}=\text{B}\left[ \begin{matrix} \frac{1}{d_{1}^{2}} & \cdots & \cdots & \cdots \\\vdots & \frac{1}{d_{2}^{2}} & \cdots & \cdots \\ \vdots & \vdots & \ddots & \vdots \\\vdots & \vdots & \cdots & \frac{1}{d_{n}^{2}} \\\end{matrix} \right. \right]{ {\text{B}}^{\text{T}}}$

${C}^{\frac{1}{2}}}=BD{ {B}^{T}}$

${C}^{-\frac{1}{2}}}=B{ {D}^{-1}}{ {B}^{T}}=B\text{diag}(\frac{1}{ { {d}_{1}}},\cdots ,\frac{1}{ { {d}_{n}}}){ {B}^{T}}$

其中 ${\text{D}}^{\text{2}}}\text{=DD=diag}{ {({ {\text{d}}_{\text{1}}},\ldots \ldots ,{ {\text{d}}_{\text{n}}})}^{\text{2}}}\text{=diag}(\text{d}_{\text{1}}^{\text{2}},\ldots \ldots ,\text{d}_{\text{n}}^{\text{2}})$ , $d_{i}$ 是特征值的平方根,协方差矩阵是半正定的矩阵。

2.2 多元正态分布

多元正态分布N(m, C)，其中m是均值，C是协方差。

对于一个二维向量x和一个正定实对称矩阵C，方程 $x^{T}Cx = D$ ,其中D是常量，描述了一个中心在原点的椭圆。中心在原点的椭圆协方差矩阵的几何解释如下图：椭圆的主轴对应协方差的特征向量，主轴长度对应协方差的特征值的大小。

特征分解： $\text{C=B}{ {\text{D}}^{\text{2}}}{ {\text{B}}^{\text{T}}}$

如果 $\text{D=}\delta \text{I}$ ，此时如下图左所示为一个圆；如果B=I， $C = D^{2}$ ，此时如图中间所示，进行了一定程度的拉伸，椭圆的主轴与坐标轴垂直；右图进行了一定方向的旋转，更加接近于最优解的方向。
在这里插入图片描述

图2：椭圆体描绘了不同正态分布的等密度线

正态分布N(m,C)可以写成以下形式：

$\begin{aligned} \mathcal{N}(\boldsymbol{m},\boldsymbol{C})& \thicksim m+\mathcal{N}(0,C) \\ &\sim m+C^{\frac12}\mathcal{N}(0,\mathbf{I}) \\ &\sim m+BD\underbrace{B^{\mathsf{T}}\mathcal{N}(\mathbf{0},\mathbf{l})}_{\sim\mathcal{N}(\mathbf{0},\mathbf{l})} \\ &\sim m+B\underbrace{DN(0,\mathbf{I})}_{\sim\mathcal{N}(\mathbf{0},\mathbf{D}^2)}, \end{aligned}$

2.3 黑箱随机优化

考虑一个黑箱搜索情景，想要最小化代价函数，目标是寻找一个或者多个候选解x,使函数f(x)尽可能的小。而黑箱搜索所能提供的信息只有函数f(x)。搜索点可以自由的选择,但是同时意味着大的搜索信息量。

$\begin{matrix}f\colon\mathbb{R}^n\to\mathbb{R}\\x\mapsto f(x)\end{matrix}$

一个随机优化的流程如下：

初始化分布参数 $\theta$
迭代次数g: 0,1,2,…
从分布中采样 $\lambda$ 个独立的点 $P\left( x|\theta^{(g)} \right) \rightarrow x_{1},{\ldots,x}_{\lambda}$
利用f(x)评估样本 $x_{1},{\ldots,x}_{\lambda}$
更新参数 ${\theta }^{(g+1)}}={ {F}_{\theta }}({ {\theta }^{(g)}},({ {x}_{1}},f({ {x}_{1}})),\ldots ,({ {x}_{\lambda }},f({ {x}_{\lambda }})))$
中断条件满足，结束

在CMA进化算法中，分布函数P是一个多元正态分布。在给定均值和协方差后，正态分布具有最大的熵。

2.4 Hessian矩阵和协方差矩阵

一个凸二次目标函数 ${f}_{H}}:x\to \frac{1}{2}{ {x}^{\text{T}}}Hx$ , 其中，H是Hessian矩阵为正定矩阵，简单理解为二阶偏导数组成的方阵，形式如下:

$\mathrm{H(f)=}\begin{bmatrix}\frac{\partial^2f}{\partial x_1^2}&\frac{\partial^2f}{\partial x_1\partial x_2}&\cdots&\frac{\partial^2f}{\partial x_1\partial x_n}\\\frac{\partial^2f}{\partial x_2\partial x_1}&\frac{\partial^2f}{\partial x_2^2}&\cdots&\frac{\partial^2f}{\partial x_2\partial x_n}\\\vdots&\vdots&\ddots&\vdots\\\frac{\partial^2f}{\partial x_n\partial x_1}&\frac{\partial^2f}{\partial x_n\partial x_2}&\cdots&\frac{\partial^2f}{\partial x_n^2}\end{bmatrix}$

在我们搜索的分布函数正态分布N(m, C)中,C与H有相近的关系。前面推导中: ${\text{B}}^{\text{T}}}{ {\text{C}}^{-1}}\text{B}={ {\text{D}}^{2}},{ {\text{D}}^{2}}$ 是个对角阵,假如H=C=I, ${ {f}_{H}}$ 等同于优化函数 ${f}_{H}}:x\to \frac{1}{2}{ {x}^{\text{T}}}Hx$ ，设置 $C^{- 1} = H$ ,在凸二次规划，设置搜索分布的协方差矩阵等于Hession矩阵的逆矩阵等同于把一个椭球函数缩放到一个球面上。因此认为协方差矩阵优化等同于Hessian矩阵逆矩阵的优化。进一步选择协方差矩阵对于搜索空间是等价的，因为对于所有满秩的n阶矩阵A，我们都能找到一个正定Hession矩阵。

$\frac{1}{2}{ {\left( \text{Ax} \right)}^{\text{T}}}\text{Ax}=\frac{1}{2}{ {\text{x}}^{\text{T}}}{ {\text{A}}^{\text{T}}}\text{Ax}=\frac{1}{2}{ {\text{x}}^{\text{T}}}\text{Hx}$

3. CMA-ES理论

相关符号说明：
在这里插入图片描述

3.1 采样

CMA-ES 算法的基本特点有：

无梯度优化，不使用梯度信息。
局部搜索中无梯度算法通常比梯度算法慢，通常需要 O(n) 倍的评估。
在复杂优化问题如 $n o n - se p a r ab l e, i ll - co n d i t i o n e d, orr ugg e d / m u lt i - m o d a l$ 上表现良好。

CMA-ES作为一种随机搜索算法是通过运用高斯正态分布随机产生 $\lambda$ 个样本点作为优化过程中的初始种群。首先生成一组多元正态分布 $N\left( { {m}^{(g)}},{ {C}^{(g)}} \right)$ ，对其进行线性变化转成标准正态分布的一个变形：

$\begin{aligned} N\big(m^{(g)},C^{(g)}\big)& \sim m^{(g)}+N\Big(0,C^{(g)}\Big) \\ &\sim m^{(g)}+C^{\frac{1}{2}}N(0,I) \\ &\sim m^{(g)}+BDB^{T}N(0,I) \\ &\sim m^{(g)}+BDN(0,I) \end{aligned}$

得到粒子采样的基本公式为： $x_{k}^{(g+1)}\sim{ {m}^{(g)}}+{ {\sigma }^{(g)}}N\left( 0,{ {C}^{(g)}} \right),k=1,\ldots ,\lambda$

进一步可以得到粒子采样的展开式为： ${x}^{(g+1)}}+{ {\sigma }^{(g)}}BDN(0,I),k=1,\ldots ,\lambda$
其中 $x_{k}^{(g+1)}\in { {R}^{n}}$ 是第g+1代的第k个子代（搜索点）， ${m}^{(g)}}\in { {R}^{n}}$ 表示均值，是第g代搜索分布的中心位置 (也称为期望）， ${\sigma }^{(g)}}\in R$ 是第g代的全局步长， ${C}^{(g)}}\in { {R}^{n\times n}}$ 表示第g代的协方差矩阵, $\lambda$ ≥2是样本大小（种群大小）

从粒子采样的基本公式可以看出，CMA-ES 算法的种群突变主要是通过控制均值m，步长 $\sigma$ 以及协方差矩阵C实现的，因此，这三个参数是决定算法性能好坏的重要因素。

3.2 选择与重组：更新均值

均值m^(g+1)通过采用数据 $\text{x}_{\text{1}}^{(\text{g+1})},\ldots \ldots ,\text{x}_{\lambda }^{(\text{g+1})}$ 的加权均值来更新。上面的公式中，从λ个后代中选取μ个权重最大的作为更新均值的样本数据。

$\begin{matrix} { {m}^{(g+1)}} & = & \sum\limits_{i=1}^{\mu }{ { {w}_{i}}}\mathbf{x}_{i:\lambda }^{(g+1)} \\\end{matrix}$
$\sum_{i=1}^{\mu}w_i=1,\quad w_1\geq w_2\geq\cdots\geq w_{\mu}>0$

后代方差有效性选择的数量 $\mu_{\text{eff}}$ 计算 $\leq \mu_{\text{eff}} \leq \mu)$ ，通常 ${\mu }_{\text{eff}}}\approx \mu /4$ 是一个合理的值。
均值 ${ {m}^{(g+1)}}$ 的更新公式为： ${\text{m}}^{(\text{g+1})}}\text{=}{ {\text{m}}^{(\text{g})}}\text{+}{ {\text{c}}_{\text{m}}}\sum\limits_{\text{i=1}}^{\mu }{ { {\omega }_{\text{i}}}}\left( \text{x}_{\text{i}:\lambda }^{(\text{g+1})}\text{-}{ {\text{m}}^{(\text{g})}} \right)$

3.3 协方差矩阵自适应

3.3.1 估计协方差矩阵

在整个算法的更新机制中协方差矩阵C的更新是至关重要的，接下来看一下协方差矩阵的更新。在最初估计协方差的时候，假设总体包含足够多的可以用于准确估计协方差矩阵的信息，为了方便，我们假定步长 $\sigma^{(g)}$ =1,可以根据粒子采样的基本公式估计原始协方差矩阵，得到经验协方差矩阵为：
$C_{emp}^{(g+1)}=\frac{1}{\lambda -1}\sum\limits_{i=1}^{\lambda }{\left( x_{i}^{(g+1)}-\frac{1}{\lambda }\sum\limits_{j=1}^{\lambda }{x_{j}^{(g+1)}} \right)}{ {\left( x_{i}^{(g+1)}-\frac{1}{\lambda }\sum\limits_{j=1}^{\lambda }{x_{j}^{(g+1)}} \right)}^{T}}$

经验协方差矩阵 $C_{\text{emp}}^{(g + 1)}$ 是协方差矩阵 $C^{(g)}$ 的无偏估计,其中经验协方差的无偏估计量为1/ $\lambda$ -1，现考虑一种不同的方式获得 $C^{(g)}$ 的估计量。

$C_{\lambda }^{(g+1)}=\frac{1}{\lambda }\sum\limits_{i=1}^{\lambda }{\left( x_{i}^{(g+1)}-{ {m}^{(g)}} \right)}{ {\left( x_{i}^{(g+1)}-{ {m}^{(g)}} \right)}^{T}}$

协方差矩阵 $C_{\lambda}^{(g + 1)}$ 也是协方差矩阵 $C^{(g)}$ 的无偏估计。上述两式的显著差异主要在于参考均值的不同，对于 $C_{\text{emp}}^{(g + 1)}$ 来说，它是使用采样点 ${x_{i}}^{(g + 1)}$ 来进行估计，而对于 $C_{\lambda}^{(g + 1)}$ 来说，它使用的是采样分布的均值 $m^{(g)}$ 进行估计的。

可以根据以上式子重新估计协方差矩阵，为了得到更好的协方差矩阵，可使用加权选择机制进行更新，得到如下：

$\mathbf{C}_{\mu}^{(g+1)}=\sum_{i=1}^{\mu}w_{i}\left(x_{i,\lambda}^{(g+1)}-m^{(g)}\right)\biggl(x_{i,\lambda}^{(g+1)}-m^{(g)}\biggr)^{\mathsf{T}}$

我们将更新后的协方差矩阵与多元正态算法EMNA估计进行比较，而EMNA中的协方差矩阵类似于如下：

$\mathbf{C}_{\text{EMN}{ {\text{A}}_{global}}}^{(g+1)}=\frac{1}{\mu }\sum\limits_{i=1}^{\mu }{\left( x_{i:\lambda }^{(g+1)}-{ {m}^{(g+1)}} \right)}{ {\left( x_{i:\lambda }^{(g+1)}-{ {m}^{(g+1)}} \right)}^{T}}$
图3：椭圆体描绘了不同正态分布的等密度线

图3：椭圆体描绘了不同正态分布的等密度线

以上是两种协方差矩阵更新的可视化图，等值线表示策略应向右上方移动。左侧：λ=150 N(0,I)分布点的样本。中间：µ=50个选候样本点，用于确定估算方程的条目。右侧：搜索下一代（实心椭球）的分布。

3.3.2 协方差矩阵的Rank- $\mathbf{\mu}$ 更新

上面提出了一个最初的协方差矩阵估计, 但仍然不能得到一个特别好的协方差矩阵，为了得到更好的协方差矩阵，可以利用之前多代的信息进行补偿。例如，在足够多的代数之后, 估计协方差矩阵的均值为：

${C}^{(g+1)}}=\frac{1}{g+1}\sum\limits_{i=0}^{g}{\frac{1}{ { {\sigma }^{ { {(i)}^{2}}}}}}C_{\mu }^{(i+1)}$

此时是一个可靠的估计, 为了比较不同代的，合并不同的 $\sigma^{(i)}$ 。在上式中所有生成步骤的权重相同，为了给近几代分配更高的权重，引入了指数平滑。令初始矩阵 $C^{(0)} = I$ 则矩阵写为：

${C}^{(g+1)}}=\quad (1-{ {c}_{\mu }}){ {\mathbf{C}}^{(g)}}+{ {c}_{\mu }}\frac{1}{ { {\sigma }^{(g)}}^{2}}\mathbf{C}_{\mu }^{(g+1)}$

其中: 0≤ $c_{\mu}$ ≤1,是协方差矩阵C的学习率

(1)如果 $c_{\mu}$ =1,则没有保留之前的信息，此时 ${C}^{(g+1)}}=\frac{1}{ { {\sigma }^{ { {(g)}^{2}}}}}C_{\mu }^{(g+1)}$

(2)如果 $c_{\mu}$ =0,则没有发生学习，此时 ${ {C}^{(g+1)}}={ {C}^{(0)}}$

一般地，另 ${c}_{\mu }}\approx \min (1,{ {\mu }_{\text{eff}}}/{ {n}^{2}})$ 是比较合理的，其中 $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{ {m}^{(g)}})/{ {\sigma }^{(g)}}$ ， $z_{i:\lambda }^{(g+1)}={ {C}^{ { {(g)}^{-1/2}}}}y_{i:\lambda }^{(g+1)}$ ，由于上式中的外部乘积之和的秩为min( $\mu$ ,n), 所以此时的更新方式称为协方差矩阵秩 $\mu$ 更新。

最后，我们将上式推广到 $\lambda$ 权重值，这些值既不需要和为1，也不再是非负。

$\begin{aligned}C^{(g+1)}&=(1-c_\mu\sum w_i)\mathbf{C}^{(g)}+c_\mu\sum_{i=1}^\lambda w_i\mathbf{y}_{i.\lambda}^{(g+1)}\mathbf{y}_{i.\lambda}^{(g+1)^\intercal}\\\\&=\mathbf{C}^{(g)1/2}\bigg(\mathbf{I}+c_\mu\sum_{i=1}^\lambda w_i\left(\mathbf{z}_{i.\lambda}^{(g+1)}\mathbf{z}_{i.\lambda}^{(g+1)\intercal}-\mathbf{I}\right)\bigg)\mathbf{C}^{(g)1/2}\end{aligned}$

其中 ${w}_{1}}\ge \cdots \ge { {w}_{\mu }}>0\ge { {w}_{\mu +1}}\ge { {w}_{\lambda }}$ ，并且通常 $\sum\limits_{i=1}^{\mu }{ { {w}_{i}}}=1$ ， $\sum\limits_{i=1}^{\lambda }{ { {w}_{i}}}\approx 0$

3.3.3 协方差矩阵的Rank-one更新

之前使用所有选定的搜索步生成协方差矩阵, 现在使用一个选定的搜索步在生成序列中重复更新协方差矩阵。首先, 给出一组向量 ${y}_{1}},\cdots ,{ {y}_{g}}\in { {R}^{n}},{ {y}_{g}}\ge n$ 令N(0,I)表示独立的正态分布随机数，则

$\mathcal{N}(0,1){ {y}_{1}}+\cdots +\mathcal{N}(0,1){ {y}_{g}}\sim\mathcal{N}\left( 0,\sum\limits_{i=1}^{ { {g}_{ {}}}}{ { {y}_{i}}}y_{i}^{T} \right)$

令上式协方差矩阵公式的和仅由一个被加数组成，将 $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{ {m}^{(g)}})/{ {\sigma }^{(g)}}$ 代入得到：

${\mathbf{C}}^{(g+1)}}=(1-{ {c}_{1}}){ {\mathbf{C}}^{(g)}}+{ {c}_{1}}y_{ {}}^{(g+1)}y_{ {}}^{(g+1)T}$

式子右边的加数和的秩为1 ，并把最大似然添加到协方差矩阵 $C^{(g)}$ 中, 因此在下一代产生 $y^{(g + 1)}$ 的概率变大了。使用选定的步骤 $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{ {m}^{(g)}})/{ {\sigma }^{(g)}}$ 去更新协方差矩阵，因为 $y{ {y}^{T}}=-y{ {(-y)}^{T}}$ ，所以相关步的符号与协方差矩阵的更新无关, 也就是说,在计算协方差矩阵时会丢失符号信息。为了引入符号信息，构建了演化路径。演化路径是一系列连续代的变异步长之和，这个和叫做累积，利用演化路径可有效的去除随机化。要构建演化路径，可以忽略步长。例如，可以通过求和来构建三个搜索步的演化路径

$\frac{ { {m}^{(g+1)}}-{ {m}^{(g)}}}{ { {\sigma }^{(g)}}}+\frac{ { {m}^{(g)}}-{ {m}^{(g-1)}}}{ { {\sigma }^{(g-1)}}}+\frac{ { {m}^{(g-1)}}-{ {m}^{(g-2)}}}{ { {\sigma }^{(g-2)}}}$

在实践中，为了构造演化路径 ${p}_{\text{c}}}\in { {\mathbb{R}}^{n}}$ ，我们使用指数平滑，并且从 $p_{\text{c}}^{(0)}=0$ 开始，则有如下：

$p_{\text{c}}^{(g+1)}=(1-{ {c}_{\text{c}}})p_{\text{c}}^{(g)}+\sqrt{ { {c}_{\text{c}}}(2-{ {c}_{\text{c}}}){ {\mu }_{\text{eff}}}}\frac{ { {m}^{(g+1)}}-{ {m}^{(g)}}}{ { {c}_{\text{m}}}{ {\sigma }^{(g)}}}$

它描述了分布均值的移动，并且将每次迭代中移动方向 $\frac{ { {m}^{(g+1)}}-{ {m}^{(g)}}}{ { {\sigma }^{(g)}}}$ 做加权平均，使得这些方向中相反的方向分量相互抵消，相同的分量则进行叠加。

这类似于神经网络优化中常用的 Momentum。在神经网络中 momentum 起什么作用呢？因此，进化路径代表了最好的搜索方向之一。

当 $c_{c} = 1$ 和 $\mu_{\text{eff}} = 1$ 时，上式变为： $p_{c}^{(g+1)}=\frac{x_{i:\lambda }^{(g+1)}-{ {m}^{(g)}}}{ { {\sigma }^{(g)}}}$ ，此时利用演化路径更新协方差矩阵C的秩1公式为：

${C}^{(g+1)}}=(1-{ {c}_{1}}){ {C}^{(g)}}+{ {c}_{1}}p_{\text{c}}^{(g+1)}p_{\text{c}}^{(g+1)T}$

注：这里面的系数因子是按照如下方式设计

• 因子 $\mu_{\omega} = \frac{1}{\sum_{i = 1}^{\mu}{\omega_{i}}^{2}}$ 的设计是根据 $\sqrt{\mu_{\omega}}\frac{m_{t - 1} - m_{t}}{\sigma_{t}}\sim N(0,C_{t})$ ，这是因为 $\sqrt{\mu_{\omega}}\frac{m_{t - 1} - m_{t}}{\sigma_{t}} = \sqrt{\mu_{\omega}}\sum_{i = 1}^{\mu}{\omega_{i}y_{i:\lambda}}$ ，因此可以看成是一个从上述分布采样得到的随机向量（确切的说，如果 ${x}_{i:\lambda }}$ 是随机选择的）

• 因子 $\sqrt{c(2-c)}$ 的设计原理是 ${(1-c)}^{2}}+{ {(\sqrt{c(2-c)})}^{2}}=1$ ，这两条被称为平稳性条件，使得 $p_{\text{c}}^{(g+1)}$ 本身看起来像一个从当前分布 $N(0,C_{t})$ 产生的搜索方向 $p_{\text{c}}^{(g+1)}$ ∼ $N(0,C_{t})$ 。所以 $p_{\text{c}}^{(g+1)}$ 像一个mutation一样用来更新协方差矩阵。

• 变化率/学习率c的设计原理是 ${c}^{-1}}\propto n$ ，即学习率与所调整的变量自由度（参数个数）成反比。

3.3.4 协方差矩阵结合

将以上协方差矩阵秩 $\mu$ 与秩1结合得到更新后的组合如下：

$\begin{array}{rcl}\mathbf{C}^{(g+1)}&=&\underbrace{(1-c_1-c_\mu\sum_{\mu}w_j)}_{\text{can be close or eqnal to }0}\mathbf{C}^{(g)}+c_1\underbrace{p_{\mathbf{c}}^{(g+1)}p_{\mathbf{c}}^{(g+1)}}_{\text{rank-cone update}}+c_\mu\underbrace{\sum_{i=1}^{\lambda}w_iy_{\mathbf{i}\lambda}^{(g+1)}\left(y_{\mathbf{i}\lambda}^{(g+1)}\right)^{\mathsf{T}}}_{\text{rank-}\mu\text{update}}\end{array}$

如果 $c_{1} = 0$ 则为协方差矩阵秩 $\mu$ 更新，如果 $c_{\mu} = 0$ 则为协方差矩阵秩1更新其中： ${c}_{1}}\approx 2/{ {n}^{2}}$ ， ${c}_{\mu }}\approx min({ {\mu }_{\text{eff}}}/{ {n}^{2}},1-{ {c}_{1}})$ ， $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{ {m}^{(g)}})/{ {\sigma }^{(g)}}$ , $\sum{ { {w}_{j}}}=\sum\limits_{i=1}^{\lambda }{ { {w}_{i}}}\approx -{ {c}_{1}}/{ {c}_{\mu }}$

学习率 c_1，c_µ的设计原理和上面一样，也就是 ${c}_{1}}\approx \frac{2}{ { {n}^{2}}}\text{,}{ {c}_{\mu }}\approx \frac{ { {\mu }_{w}}}{ { {n}^{2}}}$ ，即学习率与所调整的变量自由度（参数个数）成反比。

• 秩1更新有效的利用了连续两代均值的偏差关系
• 秩 $\mu$ 更新利用了 $\mu$ 个样本相对于均值m的偏差，使用的是当前代选出的 $\mu$ 个样本的统计信息来更新矩阵，更充分的利用了种群中的信息
• 前者适用于小种群，后者信息全面适用于大种群，结合秩1 更新与秩 $\mu$ 更新可以更好地利用有用信息

3.4 步长控制

步长的调节在演化策略中也是非常重要的，步长不宜过大也不宜过小：

• 步长过大容易跳过最优点
• 步长过小会过多的浪费时间
• 因此步长的调整需要动态地随问题的变化而调整

CMA-ES 默认使用累积式步长调整 (Cumulative step size adaptation，CSA) 。CSA 是当前最成功、用的最多的步长调整方式。CSA 的原理可以理解为：相继搜索的方向应该是共轭的。

当演化路径太短时，搜索步之间会相互抵消，此时步长需要减小
当演化路径较长时，每个搜索步之间的方向相似，搜索路径可由指向相同的少量长路径来代替, 此时应增加步长
当演化路径较长，理想情况下单个步骤的方向大致垂直时，各搜索步是不相关的，此时是理想步长

图4：进化路径

与前面的进化路径相似，构造另一个进化路径（有些文献里面称为共轭路径 conjugate evolution path）

$\begin{array}{rcl}p_\sigma^{(g+1)}&=&(1-c_\sigma)p_\sigma^{(g)}+\sqrt{c_\sigma(2-c_\sigma)\mu_{\mathrm{eff}}}B\sum_{i=1}^{\mu}w_iz_{i:\lambda}\end{array}$

或者写成：

$\begin{array}{rcl}p_{\sigma}^{(g+1)}&=&(1-c_{\sigma})p_{\sigma}^{(g)}+\sqrt{c_{\sigma}(2-c_{\sigma})\mu_{\mathrm{eff}}}C^{(g)^{-\frac{1}{2}}}\frac{m^{(g+1)}-m^{(g)}}{c_{\mathrm{m}}\sigma^{(\mathrm{g})}}\\\end{array}$

其中： ${c}_{\sigma }}<1,\sqrt{ { {c}_{\sigma }}\left( 2-{ {c}_{\sigma }} \right){ {\mu }_{eff}}}$ 是归一化常数

• 更新项 $B\sum\limits_{i=1}^{\mu }{ { {w}_{i}}}{ {z}_{i:\lambda }}$ = ${C}^{(g)}}^{-\frac{1}{2}}\frac{ { {m}^{(g+1)}}-{ {m}^{(g)}}}{ { {c}_{\text{m}}}{ {\sigma }^{(g)}}}$ ，而 ${C}^{(g)}}^{-\frac{1}{2}}$ $BD^{- 1}B^{T}$ 。因此，这个方向实际上是去掉尺度因子 D 之后的搜索方向。

• 考虑另一种解释. 在上述路径中取 ${c}_{\sigma }}$ = 1 ，即不进行累积。这时候实际上是"平均搜索方向"，并且"大致"服从标准正态分布。在 ${c}_{\sigma }}$ < 1 情况下的累积则代表通过历史平均来消除或减小随机性。

为了更新步长, 我们把 $\left\| p_{\sigma }^{(g+1)} \right\|$ 与它的期望步长 ${\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}$ 进行比较，有：

$\ln { {\sigma }^{(g+1)}}=\ln { {\sigma }^{(g)}}+\frac{ { {c}_{\sigma }}}{ { {d}_{\sigma }}}\left( \frac{\|\mathbf{p}_{\sigma }^{(g+1)}\|}{\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}-1 \right)$

其中, $d_{\sigma}$ ≈1 , 是阻尼参数, $c_{\sigma}$ 表示步长的学习率, 为服从标准正态分布 $N (0, I)$ 的欧几里得范数的期望。

因为 ${\sigma }^{(g)}}>0$ ，则上式可以写成：

${\sigma }^{(g+1)}}={ {\sigma }^{(g)}}\exp \left( \frac{ { {c}_{\sigma }}}{ { {d}_{\sigma }}}\left( \frac{\|\mathbf{p}_{\sigma }^{(g+1)}\|}{\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}-1 \right) \right)$

在平稳性条件下有 $p_{\sigma }^{(g+1)}$ ∼ N(0, I) ，即搜索路径可以看成是一个 n 维标准正态分布的随机向量，因此其模长服从卡方分布 $\left\| p_{\sigma }^{(g+1)} \right\|\sim\chi (\text{n})$ ,并且 ${\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}$ ，而且 ${\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}=\sqrt{n}$ ，因此，如果模长大于平均值，则指数上是正的，步长变大，否则指数上是负的，步长减小。

确定步长的长度，只需将路径的长度与其在随机选择下的预期长度进行比较即可，因为连续步之间相互独立，所以它们是不相关的，也就是说：

• 如果演化路径比预期的长，则步长增加
• 如果演化路径比预期的短, 则步长减小

• 在理想的条件下，选择不会偏向演化路径的长度，并且该长度等于随机选择下的预期长度 ${c}_{\sigma }}$ , ${d}_{\sigma }}$ 是调整步长变化幅度的控制参数，通常设置为 ${c}_{\sigma }}\propto \frac{1}{n},{ {d}_{\sigma }}>1$ ，此外从实验上来说，算法对 ${c}_{\sigma }}$ 的设置不敏感，可以取到 ${c}_{\sigma }}\propto \frac{1}{\sqrt{n}}$ 以进行快速调整，大部分情况下效果相差不大。

注：在如果每次迭代步长几乎不变，大致有 $\|{ {s}_{t+1}}\|\sim\sqrt{n}$ ,那么会有如下近似： ${\left( { {m}_{t}}-{ {m}_{t-1}} \right)}^{T}}C_{t}^{-1}\left( { {m}_{t+1}}-{ {m}_{t}} \right)\approx 0$
即相继的搜索方向关于协方差矩阵的逆 $C_{t}^{- 1}$ 是共轭的，而在二次函数上，这个 $C_{t}^{- 1}$ 收敛于 Hessian
矩阵（相差一个标量因子）。从这个角度来说， $p_{\sigma }^{(g+1)}$ 被称为共轭进化路径。这个是很好的性质。