热文:多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述

来源:腾讯网 时间:2022-08-22 15:53:05

机器之心专栏


(相关资料图)

机器之心编辑部

本篇综述通过对现有的多模态图像合成与编辑方法的归纳总结,对该领域目前的挑战和未来方向进行了探讨和分析。

近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。

近日,来自马普所和南洋理工等机构的研究人员对多模态图像合成与编辑这一大领域的研究现状和未来发展做了详细的调查和分析。

论文地址:https://arxiv.org/pdf/2112.13592.pdf

项目地址:https://github.com/fnzhan/MISE

在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。

在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导(比如 语义图,关键点图,边缘图),文字引导,语音引导,场景图(scene graph)引导和相应模态数据的处理方法以及统一的表示框架。

在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于 GAN 的方法,自回归方法,扩散模型方法,和神经辐射场(NeRF)方法。

由于基于 GAN 的方法一般使用条件 GAN 和 无条件 GAN 反演,因此该论文将这一类别进一步分为模态内条件(例如语义图,边缘图),跨模态条件(例如文字和语音),和 GAN 反演(统一模态)并进行了详细描述。

相比于基于 GAN 的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的 Transformer 模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为 token 序列,然后自回归式地建模 token 的分布。由于文本和语音等数据都能表示为 token 并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

以上方法主要聚焦于 2D 图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D 感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D 感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化 NeRF,生成式 NeRF 和 NeRF 反演的三种方法对现有工作进行了分类与总结。

随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于 GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而 NeRF 在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。

在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及 3D 感知的发展方向。

在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

WAIC 2022 · AI 开发者日重磅登场

2021 图灵奖得主、中外院士领衔 40+ 重磅嘉宾,开发者论坛、技术 Workshop、云帆奖、黑客马拉松 4 大精彩版块…… 9 月 3 日,「WAIC 2022 · AI 开发者日」将重磅登场, 以「 AI 开发者所真正关注的」为主题,集中展示本年度人工智能领域最前沿技术成果和最新实践应用进展,为开发者呈现一场集学习、实战、社交为一体的技术嘉年华。

AI 开发者论坛观众报名已经开启,扫描下图二维码即刻报名。

X 关闭

dnf在哪分解时装?dnf怎么分解时装划算?

dnf在哪分解时装?dnf时装分解位置及方法分解地点:西海岸的达芙妮。分解方法:1、装扮栏都被时装填满时,游戏会提醒大家物品栏空间不足。2

2023-06-26

暗黑3牧牛杖怎么做?暗黑破坏神3牧牛杖有什么用?

暗黑3牧牛杖怎么做?牧牛杖是暗黑3中一个很神器的装备,在2 0之前没有彩虹哥布林的情况,玩家想进入彩虹关只能依靠这个牧牛杖,但是现阶段进

2023-06-26

王者荣耀荣耀战令怎么获取?王者荣耀怎么赠送战令?

王者荣耀荣耀战令怎么获取?打开战令系统进入王者游戏首页后,在右侧列表打开战令。点击获取 购买在战令系统首页,点击上方的获取或购买。做

2023-06-26

魔兽世界t6哪里换?魔兽t6套装如何换?

魔兽世界t6哪里换?魔兽世界游戏中T6兑换的位置如下所示:1 游戏玩家进入游戏后,首先到达海加尔峰,然后找到中间的大圆台。2 游戏玩家找到后

2023-06-26

原神男角色颜值排名是什么?原神全角色身高排名是什么?

原神男角色颜值排名是什么?迪卢克作为一个内测角色,从游戏公测开始卢老爷就一直是最受欢迎的角色之一,一头红色的长发,一身黑色的衣服,

2023-06-26

前沿热点:山东南部49县(区市)出现降雨 鲁中、半岛局地仍有暴雨

齐鲁网·闪电新闻6月25日讯,25日,山东南部出现降雨,费县、滕州等地

2023-06-26

全球快讯:请牢记!自6月29日起,今年山东高考共有7次志愿填报时间

高考成绩公布后,对于考生最重要的事情就是志愿填报。首先要牢记志愿填

2023-06-26

山东今年高考分数线划定,30.8万余考生上了一段线

山东高考特招线520一段线4436月25日下午,省教育厅举行普通高考新闻发

2023-06-26

重磅!山东高考一分一段表来了|环球速看料

6月25日,山东省招考院发布山东2023高考成绩一分一段表。详情如下:来

2023-06-26

山东3市最新人事任免

潍坊市潍坊市人民代表大会常务委员会公告(第25号)昌乐县人民代表大会

2023-06-26

联系方式:291 32 36@qq.com

Copyright © 1998-2015 by 微圈汇游戏网版权 所有 京ICP备12018864号-8

营业执照公示信息