微软提出两种文字转图像新技术:GAN的升级模型CVPR2019

编辑: wenxiang

时间: 2019-06-23

分类: 微软资讯

AI 科技评论按:目前基于描述的绘图机器人在图像生成质量以及包含多个目标和丰富关系的更复杂场景中生成图像仍然存在较大挑战。来自微软人工智能研究院 、JD 人工智能研究院及纽约州立大学奥尔巴尼分校的众多相关学者正在开发一项新的人工智能技术,相关机器人可以从类似于说明的日常场景描述文本中生成图像,其显著提高了生成图像的质量,相关成果发表在微软官网博客上, AI 科技评论编译如下。


如果你被要求画这样一张图片——几个穿着滑雪服的人站在雪地里,你很可能会先在画布中间合理位置画出三四个人的轮廓,然后继续画他们脚下的滑雪板。虽然没有具体说明,但你可能会决定给每个滑雪者都增加一个背包,以配合他们预期的运动。最后,你会仔细地填充细节,也许把他们的衣服涂成蓝色,围巾涂成粉色,把所有的背景都涂成白色,让这些人看起来更真实,并确保他们周围的环境符合描述。最后,为了使场景更加生动,你甚至可以用一些棕色的石头与白雪对比突出表示这些滑雪者在山里。


现在有一个机器人可以做到这一切。


微软研究院正在开发的新的人工智能技术可以理解自然语言描述,绘制图像布局草图,合成图像,然后根据提供的布局和单个词汇细化细节。换句话说,这个机器人可以从类似于说明的日常场景描述文本中生成图像。根据于加利福利亚州长滩市举行的 CVPR 2019 上发表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述,标准测试结果表明,相对于前一代最先进的复杂日常场景文本转图像技术,上述机器人有成熟的机制,可显著提高生成图像的质量。该论文是微软人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao,微软的 Lei Zhang,JD 人工智能研究院的 Xiaodong He,以及纽约州立大学奥尔巴尼分校 Wenbo Li、Siwei Lyu(Wenbo Li 曾在微软人工智能研究院实习)合作的成果。


基于描述的绘图机器人面临两个主要挑战。第一个挑战是在日常场景中会出现很多种类的物体,机器人应该能理解所有种类的物体并将其画出来。前述文本转图像生成方法使用图像—说明对,这些方法仅为生成单个目标提供非常粗粒度的监督信号,限制了它们对物体的图像生成质量。在这项新技术中,研究人员使用了 COCO 数据集,该数据集包含 80 个常见目标分类里面 150 万个目标实例的标签和分割图,使得机器人能够学习这些目标的概念和外观。这种用于目标生成的细粒度监督信号显著提高了这些常见目标类型的生成质量。


第二个挑战是理解和生成一个场景中多个目标之间的关系。在几个特定领域,例如人脸、鸟类和常见目标,在生成只包含一个主要目标的图像方面已经取得了巨大的成功。然而,在文本转图像的生成技术中,在包含多个目标和丰富关系的更复杂场景中生成图像仍然是一个重大的挑战。这个新的绘图机器人从 COCO 数据集共现模式中学会了生成目标的布局,然后根据预先生成的布局生成图像。

 

目标驱动的专注图像生成

 

微软人工智能研究院的绘图机器人核心是一种被称为生成式对抗网络( GAN)的技术。GAN 由两个机器学习模型组成:一个是根据文本描述生成图像的生成器,另一个是根据文本描述判断生成图像可靠性的鉴别器。生成器试图让假照片通过鉴别器,而鉴别器不希望被愚弄。两者共同工作,鉴别器推动生成器趋向完美。


绘图机器人在一个包含 10 万幅图像的数据集上进行训练,每个图像都有突出的目标标签和分割图,以及五个不同的标题,允许模型构思单个目标和目标之间的语义关系。例如,GAN 在比较有狗和没有狗的描述的图像时,学习狗应该是什么样子。


GANs 在生成只包含一个突出目标,例如人脸、鸟类或狗的图像时表现很好,但是在生成更复杂的日常场景时,图像生成的质量就会停滞不前,比如描述为「一个戴头盔的女人正在骑马」的场景(参见图 1)。这是因为这类场景包含了多个目标(女人、头盔、马),这些目标之间有着丰富的语义关系(女人戴头盔、女人骑马)。机器人首先必须理解这些概念,并将它们放在具有意义的布局的图像中。然后,需要一个更强的监督信号来教 GANs 进行目标生成和布局生成,从而完成语言理解与图像生成任务。


微软文字转图像技术又进化,提出两种GAN的升级模型|CVPR2019(1)
 

图 1:具有多个目标和关系的复杂场景
 

当人类绘制这些复杂的场景时,我们首先决定绘制的主要目标,并通过在画布上为这些目标设置边框来进行布局。然后,通过反复检查该目标相应的描述来实现对每个目标的聚焦。为了捕捉人类的上述特点,研究人员创造了一种被他们称为目标驱动的专注 GAN,或 ObjGAN,来对人类以目标为注意力中心的行为进行数学建模。ObjGAN 通过将输入文本分解成单独的单词并将这些单词与图像中的特定目标进行匹配,从而实现上述人类的特点。


人类通常会从两个方面来改进绘图:单个目标的真实感和图像补丁的质量。ObjGAN 通过引入两个鉴别器来模拟这种行为---智能目标鉴别器和智能补丁鉴别器。智能目标鉴别器试图确定生成的目标是否真实,以及该目标是否与语句描述一致。智能补丁鉴别器试图判断这个补丁是否真实,以及这个补丁是否与语句描述一致。

 

相关工作:故事可视化

 

最先进的文本转图像模型能够基于单一语句描述生成真实的鸟类图像。然而,文本转图像生成技术可以远远不止基于单一语句合成单一图像。由微软研究院 Jianfeng Gao,微软动态 365 人工智能研究员 Zhe Gan、Jingjing Liu 和 Yu Cheng,杜克大学 Yitong Li、David Carlson 和 Lawrence Carin,腾讯人工智能研究院 Yelong Shen,以及卡耐基梅隆大学 Yuexin Wu 所著的论文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更进一步的提出了一个称之为故事可视化的新任务。给定一个多语句段落,该段落构成的完整故事可以被可视化,即生成一系列的图像,且每个语句对应一个图像。这是一个具有挑战性的任务,因为绘图机器人不仅需要想象一个适合故事的场景,为故事中出现的不同角色之间的交互建模,而且还必须能够在动态场景和角色之间保持全局一致性。这一挑战还没有任何单一图像或视频生成方法能够解决。


研究人员提出了一种基于序列条件 GAN 框架新的故事-图像-序列生成模型,称之为 StoryGAN。该模型的独特之处在于,它由一个可以动态跟踪故事流的深层上下文编码器和两个故事与图像层级的鉴别器组成,从而增强图像质量和生成序列的一致性。StoryGAN 还可以自然地扩展为交互式图像编辑,其可以根据文本指令按顺序编辑输入的图像。在这种情况下,一系列用户指令将作为「故事」输入。因此,研究人员修改了现有的数据集,创建了 CLEVR-SV 和 Pororo-SV 数据集,如图 2 所示。


微软文字转图像技术又进化,提出两种GAN的升级模型|CVPR2019(2)
 

图 2:简单图像生成 VS 故事可视化

 

实际应用——一个真实的故事


在实际应用中,文本转图像生成技术可以作为画家和室内设计师的素描助手,也可以作为声控照片编辑工具。随着计算能力的提高,研究人员设想了一种基于剧本生成动画电影的技术,能使动画制作者的工作产量变大,同时省去一些手工劳动。


目前,生成的图像与照片的真实感相差甚远。生成的图像中单个物体几乎都会暴露出缺陷,比如模糊的人脸或变形的公交车。这些缺陷清楚地表明,该图像是电脑生成而非人类创造。尽管如此,ObjGAN 图像的质量明显好于以前同类中最好的 GAN 图像,并且在通往通用人工智能的道路上起到了里程碑作用。


人工智能和人类要共享同一个世界,就必须要有一种与他人互动的方式。语言和视觉是人类和机器相互作用最重要的两种方式。文本转图像生成技术是语言视觉多模态智能研究的重要内容之一。


ObjGAN 和 StoryGAN 的开源代码请在 GitHub 上查看。


via:Microsoft blog


ObjGAN:https://arxiv.org/pdf/1902.10740.pdf


StoryGAN:https://arxiv.org/abs/1812.02784


AI 科技评论编译整理。

相关教程

  • 微软拼音输入法输入特殊字符的详细操作步骤
    微软拼音输入法输入特殊字符的详细操作步骤

    时间:2020-03-20 编辑:yongzhi

    当我们使用微软拼音移除了软键盘,在输入特殊符号的时候,显得不太方便,但也并非无法输入,那么具体该如何操作呢?下面小编就和大家分享下使用微软拼音输入特殊字符的具体操作方法!

  • 近日传闻:索尼微软都会有2款新主机
    近日传闻:索尼微软都会有2款新主机

    时间:2020-03-05 编辑:yongzhi

    新世代的主机还有几个月就要和玩家们见面了,微软的新主机Xbox Series X已经公布了新造型和12TFs的浮点性能,可是索尼这边的PS5却只公布了一个Logo,主机造型性能报价都没有公布。据之前《真人快打》系列总监Ed Boon之前的调查,玩家最关心新主机的还是价格,那么近日又出现了一则传闻,索尼微软都有2款新主机,高配600美元(约合人民币4155元)。

  • 微软正测试Xbox One新功能
    微软正测试Xbox One新功能

    时间:2020-02-25 编辑:qiaobin

    微软Xbox One游戏主机终于可以通过按击游戏手柄上的按钮来弹出光盘了。根据部分参与Xbox Insider项目的用户在Reddit社区上爆料,在Xbox手柄上按“X”按钮能够弹出光盘。

  • 微软公布了次世代主机Xbox Series X配置和之前传闻一致
    微软公布了次世代主机Xbox Series X配置和之前传闻一致

    时间:2020-02-25 编辑:yongzhi

    昨晚微软毫无预警地公布了次世代主机Xbox Series X的更多细节,确认Xbox Series X的GPU使用了AMD第二代 Radeon DNA架构(RDNA 2),提供12TF性能,和之前的传闻一致。

  • 快看,《微软飞行模拟》公布新截图
    快看,《微软飞行模拟》公布新截图

    时间:2020-02-24 编辑:qiaobin

    《微软飞行模拟》今天公布了一批alpha版的游戏截图。此前他们通过视频展示过世界各地的机场,而今天的截图主要展示的则是空中俯瞰的景观,有城市、有岛屿也有山脉。《微软飞行模拟》将允许玩家驾驶飞机在真实世界场景中飞行,不仅景色逼真,而且还提供完整的昼夜交替和实时天气情况。

  • 微软承认win10五月版本18362.329存在cpu方面bug
    微软承认win10五月版本18362.329存在cpu方面bug

    时间:2019-09-03 编辑:cuizheng

    近期,微软发布了2019 Windows 10更新五月版18362 329正式补丁更新,用户在Windows Update中点击“检查更新”按钮即可获取该KB4512941补丁更新,然后单击新的“立即下载并安装”选项,该选项已用于可选更新或功能更新。

继续阅读

  • 原神2.7版本活动有哪些 活动时间表一览
    原神2.7版本活动有哪些 活动时间表一览

    时间:2022-06-22 编辑:fubiao

    原神2 7版本最近就要更新了,除了很多新内容,新角色,新装备。而且最近官方还推出了2 7版本的预告直播,与玩家密切相关的活动内容也有所透露。那么原神2 7的活跃度如何?现在就让大家和小编一起去寻找答案吧!准备领福利!

  • 《凡人修仙传:人界篇》如何将IP的力量发挥得淋漓尽致
    《凡人修仙传:人界篇》如何将IP的力量发挥得淋漓尽致

    时间:2022-06-22 编辑:fubiao

    《凡人修仙传:人界篇》就是一款拥有正版授权,改编自同名IP《凡人修仙传》小说的游戏。在这种IP游戏的开发和制作过程中,如何在IP粉丝心中还原小说中那如梦如幻的东方世界,已然成为制作游戏时需要克服的第一道障碍。此前,游戏在硬核渠道进行第一次测试,笔者在进行了一番深度体验后,不得不说,不愧是百亿制作人的匠心出品,可以说是凡人IP天花板级别的游戏

  • 幻塔灰域灾星怎么做 任务完成流程攻略
    幻塔灰域灾星怎么做 任务完成流程攻略

    时间:2022-06-22 编辑:fubiao

    在幻塔里,灰域灾星任务是只有完成前置任务才可以解锁的后置任务,总体而言是要求我们去击败灾星。具体怎么做呢?下面就为大家带来关于幻塔灰域灾星怎么做的详细攻略,一起来看看吧。

  • 阴阳师万羽落怎么过 残局得胜第二关选择攻略
    阴阳师万羽落怎么过 残局得胜第二关选择攻略

    时间:2022-06-22 编辑:fubiao

    残局得胜作为阴阳师的正规复刻版,相信你阴阳师不会对游戏玩法有任何怀疑。是一个不使用自己本尊和护魂的玩法,通过对比自己对游戏的理解就能轻松过关。今天给大家带来的是阴阳师的攻略!

  • 深空之眼黑10怎么过 低练打法攻略
    深空之眼黑10怎么过 低练打法攻略

    时间:2022-06-22 编辑:fubiao

    在深空之眼中,相信很多玩家发现黑区10在游戏中通关困难,减少暗伤和怒气习得。明星满满的不容易。那么深空之眼黑10怎么样?下面给大家一个低练攻略,希望能提供一些帮助!

游戏榜单