PP电子「中国」平台网站

您好,欢迎进入PP电子有限公司网站!

咨询热线:

13706139936

GAN已死?GAN万岁!布朗康奈尔新作爆火一夜PP电子 游戏碾压扩散模型

发布时间:2025-01-12 15:02人气:

  GAN已死?不,它卷土重来了!布朗大学和康奈尔大学的研究者刚刚提出了R3GAN,充分利用现代架构设计,彻底摒弃临时技巧,一半参数就能碾压扩散模型。网友惊呼:游戏规则要改变了!

  此前曾掀起AI圈巨大风暴的GAN,后来却逐渐沉寂了,甚至有人发出了「GAN已死」的论调。

  原因有很多,比如人们普遍觉得GAN很难训练,文献中的GAN架构也充斥着经验技巧。

  论文中,作者提出了一种突破性的新型GAN架构——R3GAN(Re-GAN),其最大核心亮点在于,引入了全新的正则化相对性损失函数。

  这一突破,使得模型能够摒弃传统GAN中必须依赖的各种技巧,转而采用了更加现代化的深度学习架构。

  结果证明,一个不使用任何技巧的极简GAN,能够以一半的模型参数,以及单步生成的方式达到与EDM(扩散模型)相当的性能。

  围观网友们表示,这绝对是改变游戏规则的一项研究——如果能正确地训练GAN,那简直就是一场噩梦。

  因为GAN非常适合需要速度的专门任务,而Transformer则适用于其他所有任务。智能体就可以使用GAN,来加速部分流程,或做出时间关键的决策。

  还记得2014年,当Goodfellow等人首次提出GAN时,整个AI界都为之震动。

  对于研究人员来说,他们担忧的是害怕模型训练随时会「暴走」,或者生成的图像千篇一律,失去了应有的多样性。

  尽管这些年,GAN的目标函数不断改进,但在具体实践中,这些函数的问题是始终如影随形,一直以来对GAN研究产生了持久的负面影响。

  随后,2019年,著名的StyleGAN架构诞生了。它就像是一个「补丁大师」,为了提高稳定性,使用了梯度惩罚的非饱和损失;同时又为了增加样本多样性,又不得不采用小批量标准差的技巧。

  更有趣的是,如果去除这些技巧,StyleGAN的骨干网络竟和2015年的DCGAN惊人地相似!

  这就不禁让人思考:为什么其他生成模型,比如扩散模型,都能得到快速改进,而GAN却似乎停滞不前?

  在扩散模型中,多头自注意力等等现代计算机视觉技术,以及预激活ResNet、U-Net和视觉Transformer(iT)等骨干网络已成为常态。

  考虑到这些过时的骨干网络,人们普遍认为GAN在FID等定量指标方面无法扩展,也就不足为奇了。

  好消息是,布朗大学和康奈尔大学的研究人员在这个领域取得了重大的突破。他们提出了一个创新性的解决方案,包含两个关键要素:

  将相对配对GAN损失(RpGAN)与零中心梯度惩罚相结合,提高了稳定性。他们在数据上证明了,带梯度惩罚的RpGAN,享有与正则化经典GAN相同的局部收敛性。

  摒弃StyleGAN反锁技巧,转而采用简洁而高效的现代架构设计。结果发现,适当的ResNet设计、初始化和重采样,同时加上分组卷积和无归一化,就能达到甚至超越StyleGAN的性能。

  总的来说,新论文首先从数学上论证了通过改进的正则化损失,让GAN的训练不必那么棘手。

  然后,在实验中开发了一个简单的GAN基准,在不使用任何技巧的情况下,在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上,其FID表现优于StyleGAN、其他最先进的GAN和扩散模型。

  为了在这两个方面都取得进展,团队将一个稳定的方法与一个基于理论的简单正则化器相结合。

  传统GAN是在判别器D_

  和生成器G_θ之间的极小极大博弈中形成的。给定真实数据x ∼ p_D和G_θ生产的虚假数据x ∼ p_θ,GAN最一般的形式可以表示为:

  实践已经证明,当p_θ可以直接优化时,该方程具有凸性质。然而,在实际实现中,经验GAN损失通常会将虚假样本推到D设定的决策边界之外,而不是直接更新密度函数 p_θ。

  这种偏差导致了一个显著更具挑战性的问题,其特征是容易出现两种普遍的失败情况:模式崩塌/丢失和不收敛。PP电子 游戏

  这时,研究人员采用了由Jolicoeur Martineau团队提出的一种略有不同的极小极大博弈,称为相对配对GAN(RpGAN),用于解决模式丢失问题。

  虽然方程2(RpGAN)和方程1(传统GAN)看起来只有细微差别,但评估这种判别器差异对损失函数L的整体形态有根本性影响。

  RpGAN通过耦合真实和虚假数据,引入了一个简单的解决方案,即通过将虚假样本相对于真实样本的真实性来进行评判,这有效地在每个真实样本的邻域中维持了一个决策边界,从而防止了模式丢失。

  尽管RpGAN的景观结果,让研究人员能够解决模式丢失的问题,但RpGAN的训练动态还有待研究。

  等式2的最终目标是找到平衡点(θ^∗,

  ^∗),使得p_θ^∗ = p_D且D

  ^∗在p_D上处处为常数。

  命题 I.(非形式化表述):使用梯度下降法时,未正则化的RpGAN并不总是收敛。

  命题 II.(非形式化表述):在与Mescheder等人类似的假设条件下,使用R_1或R_2正则化的RpGAN能够实现局部收敛。

  对于第一个命题,他们通过分析表明,对于某些类型的p_D,比如接近于delta分布,RpGAN是不会收敛的。因此,为了构建一个表现良好的损失函数,进一步的正则化是必要的。

  对于第二个命题,研究的证明类似地分析了在点(θ^∗,

  ^∗)处正则化RpGAN梯度向量场的雅可比(Jacobian)矩阵特征值。他们证明了所有特征值都具有负实部;因此,对于足够小的学习率,正则化RpGAN在(θ^∗,

  ^∗)的邻域内是收敛的。

  如下图1展示了,使用R_1正则化的传统GAN损失函数,会快速发散。虽然从理论上来说,仅使用R_1正则化的RpGAN足以实现局部收敛,但它也会表现不稳定并且会快速发散。

  如下表1所示,在稳定的情况下,可以看到传统GAN存在模式丢失问题,而RpGAN则实现了完整的模式覆盖,并将D_KL从0.9270降低到0.0781。

  作为对比,StyleGAN使用小批量标准差技巧来减少模式丢失,在StackedMNIST数据集上将模式覆盖从857提高到881,但在D_KL上几乎没有改善。

  精心设计的RpGAN+R_1+R_2损失缓解了GAN的优化问题,使研究者能够以最新的网络骨干进展为基础,构建一个极简的基准模型——R3GAN。

  在这项工作中,研究者并不是简单地陈述新方法,而是从StyleGAN2基准模型出发绘制路线图。

  该模型包括生成器 (G) 的GG风格骨干网络、判别器 (D) 的ResNet结构、一系列促进基于风格生成的技术,以及许多弥补弱主干网络缺陷的技巧。

  随后,他们移除了StyleGAN2的所有非必要特性,应用了所提出的损失函数,并逐步对网络骨干进行现代化改造。

  所有配置的网络容量大致保持相同——生成器 (G) 和判别器 (D) 的可训练参数均约为2500万。

  每种配置的训练均持续到判别器 (D) 处理了500万张真实图像。除非另有说明,训练的超参数(例如优化器设置、批大小、EMA衰减长度)均沿用自配置A。

  研究者移除了所有StyleGAN2的特性,仅保留原始的网络骨干和基础的图像生成能力。

  遵循以上做法,研究者将z的维度降低至64。由于移除了均衡学习率,学习率需进一步降低,从原来的2.5×10⁻降至5×10⁻⁵。

  尽管与配置A相比,简化后的基线模型的FID更高,但它仍能生成质量较好的样本,并实现稳定的训练效果。

  a) 使用R1正则化的收敛训练目标。 b) 较小的学习率,避免使用带动量的优化器。 c) 在生成器 (G) 和判别器 (D) 中均不使用归一化层。 d) 通过双线性插值进行正确的重采样,而非使用步幅(反卷积)操作。 e) 在G和D中使用leaky ReLU激活函数,G 的输出层中不使用tanh。 f) G使用4×4常量输入,输出跳跃连接,D使用ResNet结构。

  违反a)、b) 或 c),通常会导致训练失败。前人研究表明,负动量可以改善 GAN的训练动态。

  然而,由于负动量的最优设置是一个复杂的超参数,因此研究者选择不使用任何动量,以避免恶化GAN的训练动态。

  研究表明,归一化层对生成模型有害。批归一化通常会由于跨多个样本的依赖性而破坏训练,并且与假设每个样本独立处理的R_1、R_2或 RpGAN不兼容。

  早期的GAN虽然可能违反a)和c),但仍能成功,这或许是因为它们对方程1提供了一个满秩解。

  违反d)或e)虽然不会显著影响训练的稳定性,但会对样本质量产生负面影响。

  不正确的反卷积可能导致棋盘伪影,即使使用子像素卷积或精心调整的反卷积也无法解决,除非应用低通滤波器。

  所有后续配置均遵守a)到e)。f)的违反是可以接受的,因为它涉及到 StyleGAN2的网络骨干,在配置D和配置E中已经现代化。

  表现良好的损失函数(配置C):研究者采用第2节提出的损失函数,将 FID降低到11.65。他们推测,配置B的网络骨干是性能的限制因素。

  通用网络现代化(配置D):研究者首先将1-3-1瓶颈ResNet 架构应用于G和D。该架构是所有现代视觉骨干网络的直接前身。

  图 2:架构对比。在图像生成中,生成器 (G) 和判别器 (D) 通常都是深度卷积网络 (ConvNets),且架构部分或完全对称。(a) StyleGAN2的生成器 (G) 使用一个网络将噪声向量z映射到中间风格空间W。(b) StyleGAN2的构建模块层次复杂,但其本质仍然简单,采用了2015年的卷积网络架构。(c) 研究者去除了各种技巧并对架构进行了现代化设计,如更干净的层次结构,更强大的卷积网络架构

  研究者还结合了从配置B中发现的原则,以及ConvNeXt的各种现代化设计。他们将ConvNeXt的发展路线分为以下几类:

  研究者计划将i)中的改进应用于他们的模型,特别是针对经典ResNet应用的i.3 和i.4,而i.1和i.2则留待配置E。

  生成器(G)和判别器(D)的设计完全对称,参数量均为2500万,与配置A相当。

  - 基础层:类似于StyleGAN,使用4×4可学习特征图,通过线性层调制z。

  - 分类头:使用全局4×4深度卷积去除空间维度,然后通过线性层生成D的输出。

  研究者在StackedMNIST数据集上重复了早期的1000模态收敛实验,但这次使用了更新后的架构,并与当前最先进的GAN和基于似然的方法进行了比较(见表3和图5)。

  研究者在FFHQ数据集上,以256×256 分辨率训练Config E模型,直至收敛,并使用了优化的超参数和训练计划(见表4,图4和图6)。

  为了直接与EDM进行比较,研究者在FFHQ数据集上以64×64分辨率评估了模型。

  研究人员在CIFAR-10数据集上训练Config E模型,直至收敛,并使用了优化的超参数和训练计划(见表6,图8)。

  研究人员在ImageNet-32数据集(条件生成)上训练Config E模型,直至收敛,并使用了优化的超参数和训练计划。

  研究人员在ImageNet-64数据集上评估了新模型,以测试其扩展能力。

  研究人员又在每个数据集上评估了模型的召回率,以量化样本的多样性。总体而言,新模型达到了与扩散模型相似或略差的召回率,但优于现有的GAN模型。

  Yiwen Huang(Nick Huang)目前是布朗大学计算机科学博士生。他曾于2023年获得了布朗大学硕士学位。PP电子 app


13706139936