当前位置：首页 >

【预训练GAN】Projected GANs Converge Faster

发布时间：2024/1/1 59 豆豆

生活随笔收集整理的这篇文章主要介绍了【预训练GAN】Projected GANs Converge Faster 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

收敛更快的投影GAN

PDF：https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf

Supplementary ：https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf

code： GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster

一、本文做了什么？

（1）Projected GANs主要的贡献是多尺度判别器，多尺度判别器主要的改进是两部分：CCM（跨通道混合）和CSM（跨尺度混合），

（2）而生成器G它没有自己设计而是使用的FastGAN的生成器G,（作者测试了styleGAN2和FastGAN，但是发现FastGAN表现更好）

GANs面临各种挑战：如学习不稳定、巨大的计算成本和超参数调整：

在这篇文章中，通过在Discriminator中使用预训练模型稳定GAN的训练，提高了生成图像的质量、采样效率和收敛速度，并显示出比StyleGAN2-ADA和FastGAN 更好的结果。（本文是首次利用预训练表示学习模型在Unconditional的图像生成的任务中使用，并且讨论了如果只是直接用很强的预训练模型，D将会主宰GAN的训练，也不能达到很好的效果。）

为了克服这一难点，本文提出

Feature pyramids 利用多判别器的多尺度反馈；

Random Projection更好的利用预训练网络的深层特征

二、Projected GANs

GAN由一个生成器 G 和一个判别器 D 组成。

其中 G 是一个从简单分布（通常是正态分布）中取样的潜在向量 z，以产生相应的样本G（z），D也被训练来区分真实样本也被训练来区分真实样本 x~ 和生成样本和生成样本G(z)~ 。

在这种情况下，GAN的目标函数由以下公式表示：

在所提出的方法中，即投影GAN，我们引入了一组特征投影器（这里的Projection其实就是判别器的特征提取网络），将真实的和生成的图像转化为判别器的输入空间。在这种情况下，上述的目标函数被以下的方程式所取代，这里，是对应于中不同特征投影仪的判别器集合，从这里也能看出本文是基于多判别器的方法：

在实际过程中是固定的，只更新和。但还是要求满足：(1) differentiable；(2) preserve important information;

1、Model：多尺度判别器（Multi-Scale Discriminators）

正如介绍中所解释的，Projected GAN使用一个预训练模型的表征作为判别器。

具体来说，我们从预先训练好的网络 F 的四层（分辨率分别为 L1 = , L2 = , L3 = , L4 = ）获得特征。然后我们将每个分辨率的特征通过一个特征投影仪，并引入一个简单的卷积结构作为相应的判别器。大致上，结构如下：

Figure 3: CSM(红色虚线箭头)添加了随机3×3卷积和双线性上采样，混合不同分辨率的特征。

该图所示，对于每个层的表示，L1,.,L4的预训练模型通过特征投影仪并输入到相应的判别器D1,...,D4.同时，判别器都被设置为4x4的输出分辨率（通过调整下采样层的数量），这些对数被加起来计算出总的损失。鉴别器的结构如下

关于表格，DB(DownBlock)由内核大小为4、步长为2的卷积、BatchNorm和LeakyReLU（斜率为0.2）组成。同时，光谱归一化被应用于所有卷积层。

2、随机投影（Random Projections）

实验观测到，越是深层的特征越难cover到，所以提出两种策略来缓释重要的特征（CCM 和 CSM），从而让判别器都能均衡的利用所有可用信息。这两种策略的共同点是，它们使用固定的可微随机投影混合特征，即在随机初始化后，这些层的参数不被训练。

特征投影由两部分组成，CCM（跨通道混合）和CSM（跨尺度混合）。这些都是随机的和固定的，在训练期间不更新（只有生成器和鉴别器在训练期间更新）。

1）、Cross-Channel Mixing（CCM）：跨通道特征混合

通过对从预训练模型中获得的特征进行随机的1x1卷积运算，在通道层面混合特征。这与下图中的蓝色箭头相对应

Figure 2: CCM(蓝色虚线箭头)使用带有随机权值的1×1卷积。

2）、Cross-Scale Mixing（CSM）：跨尺度的特征混合

Figure 3: CSM(红色虚线箭头)添加了随机3×3卷积和双线性上采样，混合不同分辨率的特征。

3、Pretrained Feature Networks：预训练特征网络

有各种可能的预训练模型用于特征提取，但在原始论文的实验中，使用了以下模型：

EfficientNet（EfficientNet lite0-4）。
ResNet(ResNet-18,ResNet-50,R50-CLIP)
变压器(ViT-Base,DeiT)

其中，EfficientNet(lite1)的效果最好，所以在没有提到的情况下，采用了EfficientNet(lite1)。

三、Experiments and Ablation Study

（用来探索上述所提的strategies最好的config，所以放在实验部分之前也不奇怪）

1、Feature Space Fréchet Distances（特征空间距离）

Q1：Feature Network的哪一层是最具有信息量的？

表中结论：浅层的特征更应该被利用，且随着层数的叠加，网络的性能反倒会下降。

Q2：Pretrained features应该怎么样被利用？

表中结论：CCM+CSM+四个判别器

2、哪一个特征提取网络是最有效的？

Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.

结论：生成效果跟准确率是没有关系的，Efficient-Lite1是我们后续实验选用的P。

3、Comparison to SOTA

1、相同训练时间下，表现更好（更高的FID）

Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.

2、 Convergence Speed and Data efficiency：

Training Properties.

Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.

supplement：k是千、万是10k、M是兆（即百万）。

个人理解：将预训练的表示能力用来提升判别器，从而给生成器提供更好的反馈是一个很好的思路，但是如果是很强的预训练网络，就会让判别器过强，自然能够很简单的对生成数据和真实数据进行判别，尤其是笔者的研究方向：GANs under limited data而言，判别器显然会在预训练的加持下，过拟合的更严重。所以有没有可能在利用预训练提升D的判别特征学习能力的同时，也让G更懂得如何生成D难以判别的图片，这一点值得思考。

NeurIPS`21 性能爆炸且速度极快的图像生成|Projected GANs Converge Faster - 知乎

总结

以上是生活随笔为你收集整理的【预训练GAN】Projected GANs Converge Faster的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。