
许多内容制作项目需要将简单的草图转换为逼真的图片,这涉及到图像到图像的转换(image-to-image translation),它利用深度生成模型来学习给定输入的自然图像的条件分布。
图像到图像转换的基本概念是利用预训练的神经网络来捕捉自然图片流形(manifold)。图像转换类似于遍历流形和可行的输入语义点。该系统使用许多图片对合成网络进行预训练,从其潜在空间的任何采样中提供可靠的输出。用户输入通过预训练的合成网络调整为模型的潜在表征。
多年来,我们在任务中看到了许多具体的方法 SOTA 但目前的解决方案仍难以创建实际使用的高保真图片。

在最近的一篇论文中,香港科技大学和微软亚洲研究所的研究人员认为,从图像到图像的转换是预训练 All you need。在过去,该方法需要特殊的架构设计,并从零开始训练单个转换模型,因此很难高质量地生成复杂的场景,特别是当配对训练数据不足时。
并结合归一化指导采样,提高生成质量。并与归一化指导采样结合以提升生成质量。
最后,研究者在 ADE20K、COCO-Stuff 和 DIODE 在具有挑战性的基准上,对各种任务进行了广泛的实证比较,表明 PITI 合成图像显示出前所未有的真实感和忠诚度。

论文链接:https://arxiv.org/pdf/2205.12952.pdf项目主页:https://tengfei-wang.github.io/PITI/index.htmlGAN 已死,扩散模型永存
作者在特定领域没有使用最好的表现 GAN,相反,扩散模型被用来合成各种图片。其次,它应该从两种潜在代码中生成图片:一种描述视觉语义,另一种调整图像波动。语义和低维潜力对下游任务至关重要。否则,模式输入就不可能转换为复杂的潜在空间。有鉴于此,它们被使用 GLIDE 作为预训练的生成先验,数据驱动模型可以生成不同的图片。 GLIDE 使用允许语义潜在空间的潜在文本。
扩散和基于分数的方法显示了跨基准的生成质量。类别条件 ImageNet 上,这些模型在视觉质量和采样多样性方面与基于 GAN 方法相当。最近,大规模文本图像配对训练的扩散模型显示出惊人的能力。训练有素的扩散模型可以为合成提供一般的生成先验。

框架
作者可以使用前置(pretext)预训练大量数据,开发一个非常有意义的潜在空间来预测图像统计。
对于下游任务,他们有条件地微调语义空间,以映射特定于任务的环境。该机器根据预先训练的信息创建可信的视觉效果。
作者建议使用语义输入对扩散模型进行预训练。他们使用文本条件和图像训练 GLIDE 模型。Transformer 网络编码文本输入,输出扩散模型 token。文本嵌入空间有意义。

上图是作者的作品。与从头开始的技术相比,预训练模型提高了图片的质量和多样性。 COCO 数据集有许多类别和组合,因此基本的方法不能通过引人注目的架构提供美丽的结果。他们的方法可以为困难的场景创造丰富的语义细节。图片显示了他们方法的多功能性。
实验及影响
表 1 结果表明,该研究所提到的方法性能始终优于其他模型。 OASIS 从掩码到图像合成,PITI 在 FID 这方面有了显著的改进。此外,该方法在草图到图像、几何到图像合成的任务中也表现出良好的性能。

图 3 它显示了该研究在不同任务中的可视化结果。实验表明,预训练模型显著提高了生成图像的质量和多样性,而不是从零开始训练的方法。该研究使用的方法可以产生生动的细节和正确的语义,即使是具有挑战性的生成任务。

该研究还在 Amazon Mechanical Turk 上的 COCO-Stuff 对从掩码到图像合成的用户进行了研究 20 名参与者的 3000 票。参与者一次会得到两张照片,并被要求选择更真实的投票。如表所示 2 建议的方法在很大程度上优于从零开始的模型和其他基线。

合格的图像合成可以创建合格的高质量图像。它被用来创建和操作计算机视觉和图形领域的信息。大规模预训练改进了图像分类、对象识别和语义分割。未知的是大规模预训练是否有利于一般生成任务。
能源使用和碳排放是图像预训练的关键问题。预训练耗能,但只需一次。条件微调允许下游任务使用相同的预训练模型。预训练允许使用较少的训练数据来生成模型。当数据因隐私问题或注释成本高而受到限制时,图像合成效果可以提高。







