SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读
题目:Segattingan:关注分割的文本到图像生成
时间:2020.5
作者:苟玉川,吴千城,李明浩,龚柏,韩梅
被 CVPR 2020 的 AI 内容创作研讨会录取
Abstract
在本文中,我们提出了一种新的生成网络(SegAttnGAN),它利用额外的分割信息来完成文本到图像的合成任务。由于引入到模型中的分割数据为生成器训练提供了有用的指导,因此与以往的先进方法相比,该模型可以生成更逼真的图像,并具有更高的量化度量。我们在CUB数据集和Oxford-102数据集上的初始得分分别为4.84和3.52。此外,我们还测试了self-attenting SegAttnGAN,它使用生成的分割数据而不是来自数据集的masks来进行注意,并获得了类似的高质量结果,这表明我们的模型可以适用于文本到图像的合成任务。
1.Introduction
(1)我们提出了一种新的生成网络,它利用文本和空间注意来生成真实的图像。
(2)我们验证了在GAN中加入空间注意机制可以通过调节物体形状和图像布局显著提高视觉真实感。
(3)我们构建了一个自注意网络,首先生成分割masks,然后使用它生成图像。基于定性结果,自注意模型也能很好地约束对象的形状。
2.Related Work
3.SegAttnGAN for text-to-image synthesis
3.1SegAttnGAN architecture
文本到图像的生成模型通常将整个句子的文本描述编码为一个条件向量。AttnGAN还提出了一个单词注意模型,该模型有助于根据单词生成不同的图像。如图2所示,我们在SegAttnGAN采用了这种机制和一个LSTM文本编码器来提取单词特征和句子特征。句子特征与随机潜在向量连接,单词特征被用作单词级注意。
3.2Segmentation attention module
其中BN()是批规范化函数,而Conv()是卷积函数。该函数的核心是保留分割模板的空间信息。这与超分辨率任务中的注意力模块非常相似。该模型采用从粗到精的策略,在每个上采样图中引入语义图注意,从而避免了纯上采样层对语义的消除。
3.3Segmentation mask strategies
3.4Objective
其中,x表示来自真实数据分布的图像,z表示驱动伪数据生成的随机潜在向量。t和s分别指文本和分割输入。
其中,第一项是确定图像是真是假的无条件损失,而第二项是条件丢失,确定生成的图像是否与文本描述匹配。
其中前两项对应于优化鉴别器的无条件损失,而后两项对应于条件损失。
3.5Implementation details
如图2所示,SegAttnGAN中的生成器输出64∗ 64, 128 ∗ 128, 256 ∗ 256的图片。首先,我们将分割mask处理成标签图(每个通道包含不同的对象)。在生成器的每个上采样层,我们将分割标签图映射降采样为与生成器中当前隐藏特征相同的分辨率张量。然后,在之前的上采样操作之后,我们应用了注意模块。文本和图像编码器采用了来自AttnGAN的相同实现。对于自注意SegAttnGAN,自注意的生成器没有单词特征。文本嵌入维度设置为256,损失权重λ设置为5.0。生成器和鉴别器使用beta_1=0.5且学习率为0.0002的ADAM解算器。
4.Experiments
4.1Dataset
我们使用CUB和Oxford-102数据集来评估我们提出的方法。CUB数据集包含200个类别的不同鸟类的图像。我们使用该数据集中的8841张图像进行训练,2947张图像进行测试。Oxford-102是另一个由花的图像组成的数据集。从这个数据集中,我们选择6141张图像进行训练,2047张图像进行测试。
4.2Evaluation metrics
我们使用两种定量测量来评估生成的图像。
第一个指标是初始分数,它已被广泛用于评估生成图像的质量。
另一个指标是R-精度,作为文本到图像合成任务的补充评估指标,以确定生成的图像是否良好地依赖于给定的文本描述。
4.3Quantitative results
初始分数:我们用生成的图像计算初始分数,并将其与其他最先进的方法进行比较。CUB和Oxford-102数据集的比较如表1所示。我们的模型SegAttnGAN 在CUB和Oxford-102数据集上都获得了最高的初始分数。与基线模型AttnGAN相比,我们的SegAttnGAN 将CUB数据集的初始得分从4.36提高到4.82。此外,我们的自注意SegAttnGAN 在CUB和Oxford-102上分别获得了4.44分和3.34分。
R-精度分数:如表2所示,我们的SegAttnGAN和自注意SegAttnGAN与AttnGAN相比也获得了良好的R-精度分数。SegAttnGAN分数几乎与AttnGAN的分数相同,表明SegAttnGAN可以生成与输入文本描述一致的图像。MirrorGAN的R-精度得分最高,因为它包含一个用于提高语义一致性的模块。
4.4Qualitative results
在图3(a)中,我们展示了AttnGAN和我们的模型生成的一些样本。如图所示,与基线模型AttnGAN相比,我们的SegAttnGAN生成的结果具有更好的对象形状。尽管自注意SegAttnGAN使用生成的分割masks,但它可以约束对象的形状,生成比AttnGAN更好的图像。图3(b)显示了示例,说明了形状和文本如何约束CUB和Oxford-102数据集上SegAttnGAN的输出图像。如图所示,与颜色相关的单词,如红色和紫色,会导致不同颜色的结果。生成的图像中与输入masks匹配的对象形状表明,分割图可以很好地控制对象形状。
4.5Limitation and discussion
与其他方法相比,SegAttnGAN表现良好,初始得分最高,但该模型在推理阶段需要分段输入。我们的自注意SegAttnGAN只需要在训练阶段使用分割数据,并且在对象形状约束的帮助下,与其他模型相比,它获得了更好的视觉效果。但它的初始评分显示,它的结果得到了与AttnGAN的图像客观性和多样性。
5.Conclusion
总结
以上是生活随笔为你收集整理的SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 知云文献翻译登录时不显示二维码,显示二维
- 下一篇: Cascade EF-GAN: Prog