Abracadabra

Variational Discreminator Bottlenect [ICLR 2019 Peng et al.]

简介

对抗学习方法今年来被广泛应用于各领域中,但其训练过程极不稳定。由于判别器过于准确将会使得其产生的梯度包含的信息过少从而不能有效地对生成器进行训练,因而有效地平衡判别器以及生成器的性能至关重要。在这篇文章中,作者提出了一个简单但通用的方式来对判别器接收到的信息流采用信息瓶颈进行约束。通过对判别器的内部状态以及输入的原始数据之间的互信息施加约束可以有效地控制判别器的准确度从而使得其产生的梯度能够包含对生成器训练更加具有指导意义的信息。作者提出的变分判别器瓶颈能够显著提升模仿学习以及逆强化学习算法的特性,当然由于其通用性,任何对抗生成模型均可从中受益。

变分信息瓶颈

我们从监督学习中的变分信息瓶颈出发。对于监督学习中一个分类任务,存在以下优化目标:
$$
\min_q \mathbb{E}_{x,y\sim p(x,y)}\left[ -\log q(y|x) \right].
$$
然而,优化上述目标容易使得训练出的模型过拟合。引入信息瓶颈可以使得模型只关注于输入数据中更加具有判别性的特征。首先我们一如一个编码器$\mathbb{E}(z|x)$将输入数据$x$映射到一个隐含分布中,然后对于编码后的数据以及原数据之间的互信息$I(X,Z)$的上界施加约束,即可得到下面的优化目标:
$$
\begin{align}
J(q,E)=&\min_{q,E} \;\;\mathbb{E}_{x,y \sim p(x,y)} \left[ \mathbb{E}_{z \sim E(z|x)} \left[ -\log q(y|z) \right] \right] \nonumber \\
&\text{s.t.}\;\;\;\;I(X,Z) \leq I_c.
\end{align}
$$
我们可以通过变分方法引入互信息的上界,从而推导出上述优化目标的上界,最后通过拉格朗日乘子法将上述带约束的优化问题转变为一个无约束的优化问题,具体推导过程见下图:

推导过程

推导过程

变分判别器瓶颈

接着我们将上述变分信息瓶颈引入到一个标准的生成对抗网络的判别器损失函数上:

变分判别器瓶颈

由于一些生成对抗模仿学习以及对抗逆强化学习算法均采用以上的生成对抗框架,因而可以引入以上变分判别器瓶颈来增强性能。

讨论

为何引入变分判别器瓶颈可以提高生成对抗模型的性能呢?在生成对抗学习中,如果真实数据分布与生成数据分布具有不相交的支撑集时,一个最优的判别器能够完美分辨两个分布并且其梯度几乎处处为零。因而,当判别器收敛到最优性能时,用以训练生成器的梯度会因此消失。目前一种解决此问题的方法是对判别器的输入数据增加一些连续的噪声,因而使得两个分布在任何地方都拥有连续的支撑集。但是实际上,如果两个分布的距离很大时,增加噪声几乎没有影响。而引入变分判别器瓶颈时,首先编码器将输入映射到一个嵌入空间中并对嵌入表示施加信息瓶颈约束,使得两个分布不仅具有共享的支撑集而且分布之间存在明显的重合(距离不大),同时由于引入信息瓶颈与引入噪声部分等同,使得上述问题得以解决。