欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

【预训练GAN】Projected GANs Converge Faster

发布时间:2024/1/1 59 豆豆
生活随笔 收集整理的这篇文章主要介绍了 【预训练GAN】Projected GANs Converge Faster 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

收敛更快的投影GAN

PDF:https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf

Supplementary :https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf

code: GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster


一、本文做了什么? 

(1)Projected GANs主要的贡献是多尺度判别器,多尺度判别器主要的改进是两部分:CCM(跨通道混合)和CSM(跨尺度混合),

(2)而生成器G它没有自己设计而是使用的FastGAN的生成器G,(作者测试了styleGAN2和FastGAN,但是发现FastGAN表现更好)

GANs面临各种挑战:如学习不稳定、巨大的计算成本和超参数调整:

在这篇文章中,通过在Discriminator中使用预训练模型稳定GAN的训练,提高了生成图像的质量、采样效率和收敛速度,并显示出比StyleGAN2-ADA和FastGAN 更好的结果。(本文是首次利用预训练表示学习模型在Unconditional的图像生成的任务中使用,并且讨论了如果只是直接用很强的预训练模型,D将会主宰GAN的训练,也不能达到很好的效果。)

为了克服这一难点,本文提出

  • Feature pyramids 利用多判别器的多尺度反馈;
  • Random Projection更好的利用预训练网络的深层特征
  • 二、Projected GANs

    GAN由一个生成器 G 和一个判别器 D 组成。

    其中 G 是一个从简单分布(通常是正态分布) 中取样的潜在向量 z,以产生相应的样本G(z),D也被训练来区分真实样本也被训练来区分真实样本 x~ 和生成样本和生成样本G(z)~ 。

    在这种情况下,GAN的目标函数由以下公式表示:

    在所提出的方法中,即投影GAN,我们引入了一组特征投影器  (这里的Projection其实就是判别器的特征提取网络),将真实的和生成的图像转化为判别器的输入空间。在这种情况下,上述的目标函数被以下的方程式所取代,这里, 是对应于  中不同特征投影仪 的判别器集合,从这里也能看出本文是基于多判别器的方法:

     在实际过程中是固定的,只更新  和  。但还是要求  满足:(1) differentiable;(2) preserve important information;

    1、Model:多尺度判别器(Multi-Scale Discriminators)

    正如介绍中所解释的,Projected GAN使用一个预训练模型的表征作为判别器。

    具体来说,我们从预先训练好的网络 F 的四层(分辨率分别为 L1 = , L2 = , L3 = , L4 = )获得特征。然后我们将每个分辨率的特征通过一个特征投影仪,并引入一个简单的卷积结构作为相应的判别器。大致上,结构如下:

     Figure 3: CSM(红色虚线箭头)添加了随机3×3卷积和双线性上采样,混合不同分辨率的特征。

    该图所示,对于每个层的表示,L1,.,L4的预训练模型通过特征投影仪并输入到相应的判别器D1,...,D4.同时,判别器都被设置为4x4的输出分辨率(通过调整下采样层的数量),这些对数被加起来计算出总的损失。鉴别器的结构如下

     关于表格,DB(DownBlock)由内核大小为4、步长为2的卷积、BatchNorm和LeakyReLU(斜率为0.2)组成。同时,光谱归一化被应用于所有卷积层。

    2、随机投影(Random Projections)

    实验观测到,越是深层的特征越难cover到,所以提出两种策略来缓释重要的特征(CCM 和 CSM),从而让判别器都能均衡的利用所有可用信息。这两种策略的共同点是,它们使用固定的可微随机投影混合特征,即在随机初始化后,这些层的参数不被训练。

    特征投影由两部分组成,CCM(跨通道混合)和CSM(跨尺度混合)。这些都是随机的和固定的,在训练期间不更新(只有生成器和鉴别器在训练期间更新)。

    1)、Cross-Channel Mixing(CCM):跨通道特征混合

    通过对从预训练模型中获得的特征进行随机的1x1卷积运算,在通道层面混合特征。这与下图中的蓝色箭头相对应

     Figure 2: CCM(蓝色虚线箭头)使用带有随机权值的1×1卷积。

    2)、Cross-Scale Mixing(CSM):跨尺度的特征混合

     Figure 3: CSM(红色虚线箭头)添加了随机3×3卷积和双线性上采样,混合不同分辨率的特征。

    3、Pretrained Feature Networks:预训练特征网络

    有各种可能的预训练模型用于特征提取,但在原始论文的实验中,使用了以下模型:

    • EfficientNet(EfficientNet lite0-4)。
    • ResNet(ResNet-18,ResNet-50,R50-CLIP)
    • 变压器(ViT-Base,DeiT)

    其中,EfficientNet(lite1)的效果最好,所以在没有提到的情况下,采用了EfficientNet(lite1)。

    三、Experiments and Ablation Study

    (用来探索上述所提的strategies最好的config,所以放在实验部分之前也不奇怪)

    1、Feature Space Fréchet Distances(特征空间距离)

    Q1:Feature Network的哪一层是最具有信息量的?

    表中结论:浅层的特征更应该被利用,且随着层数的叠加,网络的性能反倒会下降。

    Q2:Pretrained features应该怎么样被利用?

    表中结论:CCM+CSM+四个判别器

    2、哪一个特征提取网络是最有效的?

     Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.

    结论:生成效果跟准确率是没有关系的,Efficient-Lite1是我们后续实验选用的P。

    3、Comparison to SOTA

    1、相同训练时间下,表现更好(更高的FID)

     Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.

    2、 Convergence Speed and Data efficiency:

    Training Properties.

     Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
    Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.

    supplement:k是千、万是10k、M是兆(即百万)。

    个人理解:将预训练的表示能力用来提升判别器,从而给生成器提供更好的反馈是一个很好的思路,但是如果是很强的预训练网络,就会让判别器过强,自然能够很简单的对生成数据和真实数据进行判别,尤其是笔者的研究方向:GANs under limited data而言,判别器显然会在预训练的加持下,过拟合的更严重。所以有没有可能在利用预训练提升D的判别特征学习能力的同时,也让G更懂得如何生成D难以判别的图片,这一点值得思考。

    NeurIPS`21 性能爆炸且速度极快的图像生成|Projected GANs Converge Faster - 知乎

    总结

    以上是生活随笔为你收集整理的【预训练GAN】Projected GANs Converge Faster的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。