第一句子大全,网罗天下好句子,好文章尽在本站!

如何让电脑成为看图说话的高手?计算机视觉顶会ICCV论文解读

时间:2023-05-27

作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平

友情提示:本文共有 1930 个字,阅读大概需要 4 分钟。

阿里妹导读:ICCV,被誉为计算机视觉领域三大顶级会议之一。作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在今年的大会上有多篇论文入选,本篇所解读的论文是阿里iDST与多家机构合作的入选论文之一,目标是教会机器读懂图片并尽量完整表达出来。

精准描述商品:计算机视觉和自然语言处理的联合

近年来,随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究,实现一些在过去看来非常困难的任务,例如“视觉-语义联合嵌入(Visual-SemanticEmbedding)”。该任务需要将图像及语句表示成一个固定长度的向量,进而嵌入到同一个矢量空间中。这样,通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。

视觉语义联合嵌入的一个典型应用就是图像标题生成(Image Captioning):对于任意输入的一张图像, 在空间中找到最匹配的一句话, 实现图像内容的描述。在电商场景下, 淘宝卖家在发布一件商品时, 该算法可以根据卖家上传得图片, 自动生成一段描述性文字, 供卖家编辑发布使用。再比如,视觉语义联合嵌入还可以应用于“跨模态检索(Cross-mediaRetrieval)”:当用户在电商搜索引擎中输入一段描述性文字(如“夏季宽松波希米亚大摆沙滩裙”、“文艺小清新娃娃领飞飞袖碎花A字裙”等), 通过文字-图像联合分析, 从商品图像数据库中找到最相关的商品图像返回给用户。

之前的不足:只能嵌入较短的语句简单描述图片

以往的视觉语义联合嵌入方法往往只能对比较短的句子进行嵌入,进而只能对图像做简单而粗略的描述,然而在实际应用中,人们更希望得到对图像(或图像显著区域)更为细致精确的描述。如图1所示,我们不仅想知道谁在干什么,还想知道人物的外表,周围的物体,背景,时间地点等。

图1 现有方法的问题

现有方法:“A girl is playing a guitar.”

我们提出的方法:“a young girl sitting on a benchis playing a guitar with a black and white dog nearby.”

为了实现这个目标,我们提出一个框架:第一步从图像中找出一些显著性区域,并用具有描述性的短语描述每个区域;第二步将这些短语组合成一个非常长的具有描述性的句子,如图2所示。

图2 我们的提出的框架

为此,我们在训练视觉语义联合嵌入模型时不仅需要将整个句子嵌入空间,更应该将句子中的各种描述性短语也嵌入空间。然而,以往的视觉语义联合嵌入方法通常采用循环神经网络模型(如LSTM(Long short-term memory)模型)来表示语句。标准的LSTM模型有一个链式结构(Chain structure):每一个单元对应一个单词,这些单词按出现顺序排成一列,信息从第一个单词沿该链从前传到最后,最后一个节点包含了所有的信息,往往用于表示整个句子。显然,标准的LSTM模型只适合表示整个句子,无法表示一句话中包含的短语,如图所示。

图3 链式结构的问题

论文创新方法:提出层次化的LSTM模型

本文提出一种多模态、层次化的LSTM模型(Hierarchical Multimodal LSTM)。该方法可以将整个句子、句子中的短语、整幅图像、及图像中的显著区域同时嵌入语义空间中,并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系。这样一来,我们生成了一个更为稠密的语义空间,该空间包含了大量的描述性的短语,进而可以对图像或图像区域进行更详细和生动的描述,如图所示。

图4 本文提出的多模态层次结构

本文方法的创新性在于提出了一个层次化的LSTM模型,根节点对应整句话或整幅图像,叶子节点对应单词,中间节点对应短语或图象中的区域。该模型可以对图像、语句、图像区域、短语进行联合嵌入(Joint embedding),并且通过树型结构可以充分挖掘和利用短语间的关系(父子短语关系)。其具体网络结构如下图所示

图5 网络结构

其中为每一个短语和对应的图像区域都引入一个损失函数,用于最小化二者的距离,通过基于结构的反向传播算法进行网络参数学习。

在图像-语句数据集上的比较

可见本文方法在几个公开数据集上都获得了很好的效果

在图像区域-短语数据集上的对比

我们提供了一个带有标注的图像区域-短语数据集MS-COCO-region,其中人工标定了一些显著性物体,并在这些物体和短语之间建立了联系。

下图是我们方法的可视化结果,可见我们的短语具有很强的描述性

此外,我们可以学习出图像区域和短语的对应关系,如下

本文如果对你有帮助,请点赞收藏《如何让电脑成为看图说话的高手?计算机视觉顶会ICCV论文解读》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
统编小学语文一年级上册第六单元课文教学资源

统编小学语文一年级上册第六单元课文教学资源

统编小学语文一年级上册第六单元课文教学资源5 影子1.看图学词。2.游戏:看一看,想一想,说一说。观察一下校园,想一想校园里都有些什么,各自的位置在哪里,用“ 在 的 边”句式说一说。比如,“教学楼在操场的前边。...

2023-12-09 #经典句子

统编小学语文一年级上册第七单元课文教学资源

统编小学语文一年级上册第七单元课文教学资源

...学语文一年级上册第七单元课文教学资源9 明天要远足1.看图学词。2.游戏:看一看,说一说。下面这些事物分别是什么颜色的?用学过的表示颜色的词语说一说。3.活动:“开火车”读句子(带拼音)。翻过来,翻过去。跑过来...

2023-09-08 #经典句子

一年级语文上册 第三单元测试题 练一练

一年级语文上册 第三单元测试题 练一练

...里打“√”。(6分)五、拼一拼,连一连。(12分)六、看图读音节,并分类写下来。(8分)七、读拼音,找出正确的生字,并涂上喜欢的颜色。(8分)读写天地八、看图选择正确的拼音句子。(填序号)(6分)①dà xiónɡ mā...

2023-07-28 #经典句子

一份剑桥少儿英语等级考试全攻略

一份剑桥少儿英语等级考试全攻略

...符,重点考察能力为能够阅读短句,识别单词。单元2:看图和句子写出“yes”或“no”,重点考察能力为能够看图及读句子,判断对错。单元3:排列字母顺序,写出物品名称,重点考察能力为正确拼写单词。单元4:选出正确的...

2023-12-31 #经典句子

一年级语文上册第三单元测试卷 题目并不简单 值得研究每一道题

一年级语文上册第三单元测试卷 题目并不简单 值得研究每一道题

...下面的整体认读音节和韵母带回家、看谁填得又对又快、看图读音节,在正确的音节后面画“√”、读一读,连一连、看图拼一拼,连一连、拼一拼,写一写、选择恰当的音节补充句子、秋游的时候,你想带什么?在前面打“√...

2023-05-01 #经典句子

剑桥少儿英语考试第一级真题详解与考试指南——才聪考研

剑桥少儿英语考试第一级真题详解与考试指南——才聪考研

...分为5个单元,每个单元有5道问题,共25个问题。(一)看图读短语,识别单词1.试题示例与分析【试题示例】Look and read. Put a tick (√) or a cross (×) in the box.There are two examples.Examples:【试题分析】①生接收的信息:每道题1个图片...

2023-01-13 #经典句子

小学英语健康和习惯每日一练含答案解析

小学英语健康和习惯每日一练含答案解析

...致,正确。5. Sara能用Maomao的钢笔。与原文一致,正确。3.看图读句子,选择与句子意思相符的图片并标号。1. Tom is going to write a report.2. The children are going to read stories.3. The children are going to find the city on the map.4. Jimmy is going to collect ...

2023-05-21 #经典句子

将游戏 认知 英语启蒙完美融合在一起的经典翻翻书

将游戏 认知 英语启蒙完美融合在一起的经典翻翻书

... mommy, Sally. Spot has gone. Where’s Spot?(指书名)翻开书,在看图读原文的基础上,我会适当加入一些关于描绘情境的话。比如,第一个跨页,先指着Sally说:Is this Spot?No. She is Sally, Spot’s mommy. It"s time for supper. Spot’s mommy is lookingf...

2023-09-14 #经典句子