第一句子大全,网罗天下好句子,好文章尽在本站!

CVPR 2019:微软最新提出ObjGAN 输入一句话秒生成图片

时间:2023-01-22

不会PS还想做图?可以的!近期,由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求:只需要输入一句话,就可以生

友情提示:本文共有 2298 个字,阅读大概需要 5 分钟。

新智元报道

来源:microsoft

编辑:金磊

【新智元导读】微软和京东最近出了一个黑科技:说一句话就能生成图片!在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

不会PS还想做图?可以的!

近期,由纽约州立大学奥尔巴尼分校、微软研究院和京东AI研究院合作的一篇文章就可以实现这个需求:只需要输入一句话,就可以生成图片!

输入:

输出:

在这项研究中,研究人员提出了一种新的机器学习框架——ObjGAN,可以通过关注文本描述中最相关的单词和预先生成的语义布局(semantic layout)来合成显著对象。

此外,他们还提出了一种新的基于Fast R-CNN的关于对象(object-wise)鉴别器,用来提供关于合成对象是否与文本描述和预先生成的布局匹配的对象识别信号。

论文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

这项工作已经发表在计算机视觉和模式识别领域顶会CVPR 2019。

这篇论文的合著作者表示,与之前最先进的技术相比,他们的方法大大提高了图像质量:

我们的生成器能够利用细粒度的单词和对象级(object-level)信息逐步细化合成图像。

大量的实验证明了ObjGAN在复杂场景的文本到图像生成方面的有效性和泛化能力。

一句话秒生成图片!

根据文本的描述来生成图像,可以说是机器学习中一项非常重要的任务。

这项任务需要处理自然语言描述中模糊和不完整的信息,并且还需要跨视觉和语言模式来进行学习。

自从GAN提出后,这项任务在结果上取得了较好的成绩,但是目前这些基于GAN的方法有一个缺点:

大多数图像合成方法都是基于全局句子向量来合成图像,而全局句子向量可能会丢失单词级别(word-level)的重要细粒度信息,从而阻碍高质量图像的生成。

大多数方法都没有在图像中明确地建模对象及其关系,因此难以生成复杂的场景。

图1 顶部:AttnGAN及其网格注意力可视化;中部:修改前人工作的结果;底部:ObjGAN及其对象驱动的注意力可视化

举个例子,如果要根据“几个人穿滑雪服的人在雪地里”这句话生成一张图片,那么需要对不同的对象(人、滑雪服)及其交互(穿滑雪服的人)进行建模,还需要填充缺失的信息(例如背景中的岩石)。

图1的第一行是由AttnGAN生成的图像,虽然图像中包含了人和雪的纹理,但是人的形状是扭曲的,图像布局在语义上是没有意义的。

为了解决这个问题,首先从文本构造语义布局,然后通过反卷积图像生成器合成图像。

从图1的中间一行可知,虽然细粒度的word/objectlevel信息仍然没有很好的用于生成。因此,合成的图像没有包含足够的细节让它们看起来更加真实。

本研究的目标就是生成具有语义意义(semantically meaningful)的布局和现实对象的高质量复杂图像。

为此,研究人员提出了一种新颖的对象驱动的注意力生成对抗网络(Object-driven Attentive Generative Adversarial Networks,Obj-GAN),该网络能够有效地捕获和利用细粒度的word/objectlevel信息进行文本到图像的合成。

ObjGAN由一对儿对象驱动的注意力图像生成器和object-wise判别器组成,并采用了一种新的对象驱动注意机制。

图2 对象驱动的注意力图像生成器

图3 Object-wise判别器

该图像生成器以文本描述和预先生成的语义布局为输入,通过多阶段由粗到精的过程合成高分辨率图像。

在每个阶段,生成器通过关注与该边界框中的对象最相关的单词来合成边界框内的图像区域,如图1的底部行所示。

更具体地说,它使用一个新的对象驱动的注意层,使用类标签查询句子中的单词,形成一个单词上下文向量,如图4所示,然后根据类标签和单词上下文向量条件合成图像区域。

图4 对象驱动的注意力

Object-wise判别器会对每个边界框进行检查,确保生成的对象确实与预先生成的语义布局是匹配的。

同时,为了有效地计算所有边界框的识别损失,object-wise判别器基于一个Fast-RNN,并且每个边界框都有一个二院交叉熵损失。

实验结果

研究人员在实验过程中采用的数据集是COCO数据集。它包含80个对象类,其中每个图像与对象注释(即,边界框和形状)和5个文本描述相关联。

在评价指标方面,研究人员采用 Inception score(IS)和Frechet Inception distance(FID) score作为定量评价指标。结果如下表所示:

表1

接下来,是采用不同方法生成图像的结果与实际图像的对比结果:

图5 整体定性比较。所有图像都是在不使用任何ground-truth的情况下生成的。

图6 与P-AttnGAN w/ Lyt进行定性比较

图7 与P-AttnGAN的定性比较。 每个方法的注意力图显示在生成的图像旁边。

参考链接:

论文地址:

https://www.microsoft.com/en-us/research/uploads/prod/2019/06/1902.10740.pdf

VB博客地址:

https://venturebeat.com/2019/06/17/microsoft-researchers-use-gans-to-generate-images-and-storyboards-from-captions/

本文如果对你有帮助,请点赞收藏《CVPR 2019:微软最新提出ObjGAN 输入一句话秒生成图片》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
自然语言处理基础:上下文词表征入门解读

自然语言处理基础:上下文词表征入门解读

...特定于在自身特有上下文中的 token)。在我们之前的示例句子中,be 的两个实例就会有不同的向量,因为一个出现在 will 和 signed 之间,另一个则位于 we"ll 和 able 之间。现在看来,通过独立于上下文地表征 word type 实际上会让问...

2020-09-12 #经典句子

Keras文本分类实战(上)

Keras文本分类实战(上)

...载数据:结果如下:使用此数据集,可以训练模型来预测句子的情绪,下面可以考虑如何预测数据。一种常见方法是计算每个句子中每个单词的频率,并将此计数与数据集中的整个单词组相关联。首先从创建词汇开始,收集好的...

2023-01-22 #经典句子

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

...。针对大脑语义和语法表征的问题,我们利用计算模型将句子中的语义和语法特征区分开,使用分离的语义和语法特征来研究大脑对应的神经基础。图1基于解纠缠特征的人脑表征研究的计算框架论文方法针对上述问题,中科院...

2023-01-05 #经典句子

3分钟看懂自然语言处理之特征提取

3分钟看懂自然语言处理之特征提取

内容导读自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。下面我们仅仅从单词角度来看问题来说说两种常见的特征表示的方法。最神奇的是,词向量还存在可以加减性,例如:“小猫”-“猫”+...

2023-01-22 #经典句子

何索引数以十亿计的文本向量?

何索引数以十亿计的文本向量?

...方法,下一步就是将它们组合成文本向量(也称为文档或句子向量)。一种简单而常见的方法是对文本中所有单词的向量求和(或求平均值)。图 1:查询向量我们可以通过将两个文本片段(或查询)映射到向量空间并计算向量...

2023-01-22 #经典句子

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

...预测某个单词序列的概率,通常在单个集成模型中对整个句子进行建模。凭借神经网络的强大功能,神经网络机器翻译已经成为翻译领域最强大的算法。这种最先进的算法是深度学习的一项应用,其中大量已翻译句子的数据集用...

2023-02-05 #经典句子

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

...一个。我喜欢这类电影,但是不喜欢这一个。这样的两句句子经过词向量平均以后已经送入单层神经网络的时候已经完全一模一样了,分类器不可能分辨出这两句话的区别,只有添加n-gram特征以后才可能有区别。因此,在实际应...

2023-10-09 #经典句子

干货:2019年湖北技能高考文化综合考试大纲

干货:2019年湖北技能高考文化综合考试大纲

...记基础上高一级的能力层级。要求能够领会并解释词语、句子、段落等的意思。C.分析综合:指分解剖析和归纳整理,是在识记和理解的基础上进一步提高了的能力层级。要求能够筛选材料中的信息,分解剖析相关现象和问题...

2023-10-23 #经典句子

两篇AAAI论文 揭示微信如何做文章质量评估

两篇AAAI论文 揭示微信如何做文章质量评估

...献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模...

2023-05-22 #经典句子