百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

CVPR 2022 | 马普所和北邮提出富含视觉信息的类别语义嵌入

yuyutoo 2024-10-13 00:31 5 浏览 0 评论

机器之心专栏

作者:北京邮电大学、马普所

来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。

零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征的向量,能够实现知识在类别间的转移,因而在零样本学习中发挥着不可替代的作用。

如上图所示,由于属性(attributes)能够被不同类别共享,促进了知识在类别间的转移,因此是使用最广泛的类别嵌入。并在其他计算机视觉任务(如面部识别、细粒度分类、时尚趋势预测)中被广泛用作辅助信息。

然而属性标注过程需要大量人力投入和专家知识,限制了零样本学习在新数据集上的拓展。此外,受限于人类的认知局限,其标注的属性无法遍历视觉空间,因而图像中一些具有辨别性的特征无法被属性捕捉,导致零样本学习效果不佳。

针对以上问题,来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络(Visually-Grounded Semantic Embedding Network, VGSE),本文主要回答了两个问题:(1)如何从可见类图像中自动发掘具有语义和视觉特征的类别嵌入;(2)如何在没有训练样本的情况下,为不可见类别预测类别嵌入。

  • 论文链接: https://arxiv.org/abs/2203.10444
  • 代码链接: https://github.com/wenjiaXu/VGSE

为了充分挖掘不同类别之间共享的视觉特征,VGSE 模型将大量局部图像切片按其视觉相似度聚类形成属性簇,从图像底层特征中归纳不同类别实例所共享的视觉特征。此外 VGSE 模型提出类别关系模块,在少量外部知识源的辅助下学习类别关系,能够将知识从源类别转移到目标类别,为没有训练图像的目标类别预测其类别嵌入。相较于其他基于语料自动挖掘而获得的属性,VGSE 模型在 CUB、SUN、AWA2 等零样本分类数据集上取得非常有竞争力的结果。如下图所示,本文能够发掘与人工标注属性互补的视觉特征,提高类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。本论文已被 CVPR 2022 录用。

类别嵌入发掘模型

类别嵌入发掘模型 VGSE 的算法流程如下所示,该模型主要由两个模块组成:(1)切片聚类模块(Patch Clustering, PC)以训练数据集为输入,将图像切片聚类成不同的簇。(2)类别关系模块(Class Relation, CR)用于预测不可见类的语义嵌入。


切片聚类模块

由于属性通常出现在图像的局部区域,例如动物的身体部位、场景中物体的形状和纹理等,因此本文提出利用图像局部切片的聚类来发掘视觉属性簇。为了获得覆盖整个语义图像区域(例如动物头部)的图像块,切片聚类模块通过无监督紧凑分水岭分割算法 [4] 将图像分割成规则形状的区域,然后利用图像切片的视觉相似性进行聚类。

切片聚类模块是可微分的深度神经网络,给定图像切片,网络首先提取图像的特征,之后通过聚类层

预测该特征被预测到每一个属性簇中的概率:

本文基于视觉相似性的聚类损失函数训练该聚类网络。强制图像切片

及其相似切片集被聚类到同样的属性簇:


为了增强类别嵌入的可辨别性,使其能够分辨类别之间的显著性差异,本文提出加入可辨别性信息,通过学习全连接层,将每张图片的预测映射为其类别预测概率,然后使用交叉熵损失训练模型:

本文旨在学习类别之间共享的属性簇,促进知识在类别之间的转移,因此鼓励属性簇蕴含类别之间的语义联系。为实现这个目标,通过学习全连接层S,将每张图片的嵌入映射为类别的语义标签(此处使用类别名称的 w2v 向量)。然后通过回归损失训练模型,以加强类别嵌入的语义联系:

最终,完整图像的图像嵌入是通过平均该图像中的所有切片的嵌入来计算得到:

而类别

的嵌入由该类的所有图像嵌入平均而得:

类别关系模块

可见类的类别嵌入可以由切片聚类模块预测得到。但现实情况中存在着大量不可见类,其类别嵌入无法通过图像进行预测。由于语义相关的类别通常共享部分属性,例如熊猫和斑马共享 “黑白相间“属性,麋鹿和公牛都包含“角” 这一属性。本节提出学习可见类与不可见类之间的语义相似性,并通过语义相关的可见类来预测不可见类的嵌入。任何外部语义知识,例如 w2v、glove 等类别语义嵌入或人工标注的属性,都可以用来学习两个类之间的关系。下文以 w2v 为例说明所提出的类别关系发掘模块。

给定可见类的 w2v 语义标签,和不可见类别的语义标签,本节学习了相似性映射,其中表示目标类和第个源类别之间的相似性。相似性映射通过以下优化问题学习:

其中,目标类别的属性值是所有源类别属性值的加权和。

实验结果

本文在三个通用零样本分类数据集(CUB、AWA2、SUN)上验证所提出方法的效果。

下图展示了在 AWA2 数据集中学习得到的属性簇。我们将 10,000 个图像切片的嵌入利用 t-SNE 映射到二维空间。本文采样了几个属性簇 (用相同颜色的点) 并在图中标记了来自该属性簇的图像切片。

图中数据说明了以下几点:首先,可以观察到同一簇中的图像切片倾向于聚集在一起,且传达了一致的视觉信息,这表明图像嵌入提供了可辨别性信息。此外,几乎所有属性簇都包含来自多个类别的图像切片。例如,来自不同动物的条纹,虽颜色略有不同但纹理相似。这一现象表明本文学习的类别嵌入包含类间共享的信息。另一个有趣的观察是,本文提出的模型能够发现被人类标注忽略的视觉属性,可以增强人类标注属性的视觉完备性。

Table 1 展示了本文提出的类别嵌入 VGSE-SMO 与类别的 w2v 向量在三个数据集上的表现。为测试两种类别嵌入的能力,我们 f-VAEGAN-D2[5]等五种零样本分类模型上进行实验,结果表明本文提出的类别嵌入能够大幅度超越 w2v 向量的性能。

Table 2 在零样本分类任务上对比了本文提出的类别嵌入和其他几种语料挖掘属性方法的效果,结果表明本文的方法在仅使用 w2v 向量的情况下,效果要优于其他使用在线语料库的方法。

如前所述,本文提出的类别关系模块可以使用多种外部语义知识学习类别相似度,Table 4 展示了使用不同语义知识的效果。

本文进行用户调查探究所挖掘的类别嵌入的语义一致性和视觉一致性。随机挑选 50 个属性簇,并展示聚类中心的 30 张图片。用户首先被要求观察属性簇的示例图片。然后回答如下问题衡量属性簇的效果。

结果表明,在 88.5% 和 87.0% 的情况下,用户认为本方法所挖掘的属性簇传达出一致的视觉和语义信息。

总结

为减少零样本学习所需的人工标注,提高类别嵌入的语义和视觉完备性,本文提出一个自动的类别嵌入发掘网络 VSGE 模型,能够利用图像切片的视觉相似性发掘类别嵌入。在三个数据集上的结果表明,本文提出的类别嵌入方案能够有效地提高语义嵌入的质量,并且可以挖掘出人类难以标注的细粒度属性。除了在零样本学习中发挥重要作用,本文所提出的类别嵌入也能够为其它属性相关研究提供新思路。

参考文献:

[1] Al-Halah, Ziad, and Rainer Stiefelhagen. "Automatic discovery, association estimation and learning of semantic attributes for a thousand categories." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[2] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Proceedings of the Advances in neural information processing systems. 2013.

[3] Wang, Xiaolong, Yufei Ye, and Abhinav Gupta. "Zero-shot recognition via semantic embeddings and knowledge graphs." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

[4] Neubert, Peer, and Peter Protzel. "Compact watershed and preemptive slic: On improving trade-offs of superpixel segmentation algorithms." Proceedings of the IEEE International Conference on Pattern Recognition. 2014.

[5] Xian, Yongqin, et al. "f-vaegan-d2: A feature generating framework for any-shot learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.

相关推荐

自卑的人容易患抑郁症吗?(自卑会导致抑郁吗)

Filephoto[Photo/IC]Lowself-esteemmakesusfeelbadaboutourselves.Butdidyouknowthatovert...

中考典型同(近)义词组(同义词考题)

中考典型同(近)义词组...

WPF 消息传递简明教程(wpf messagebox.show)

...

BroadcastReceiver的原理和使用(broadcast-suppression)

一、使用中注意的几点1.动态注册、静态注册的优先级在AndroidManifest.xml中静态注册的receiver比在代码中用registerReceiver动态注册的优先级要低。发送方在send...

Arduino通过串口透传ESP 13板与java程序交互

ESP13---是一个无线板子,配置通过热点通信Arduino通过串口透传ESP13板与java程序交互...

zookeeper的Leader选举源码解析(zookeeper角色选举角色包括)

作者:京东物流梁吉超zookeeper是一个分布式服务框架,主要解决分布式应用中常见的多种数据问题,例如集群管理,状态同步等。为解决这些问题zookeeper需要Leader选举进行保障数据的强一致...

接待外国人英文口语(接待外国友人的英语口语对话)

接待外国人英文口语询问访客身份:  MayIhaveyourname,please?  请问您贵姓?  Whatcompanyareyoufrom?  您是哪个公司的?  Could...

一文深入理解AP架构Nacos注册原理

Nacos简介Nacos是一款阿里巴巴开源用于管理分布式微服务的中间件,能够帮助开发人员快速实现动态服务发现、服务配置、服务元数据及流量管理等。这篇文章主要剖析一下Nacos作为注册中心时其服务注册与...

Android面试宝典之终极大招(android面试及答案)

以下内容来自兆隆IT云学院就业部,根据多年成功就业服务经验,以及职业素养课程部分内容,归纳总结:18.请描述一下Intent和IntentFilter。Android中通过Intent...

除了Crontab,Swoole Timer也可以实现定时任务的

一般的定时器是怎么实现的呢?我总结如下:1.使用Crontab工具,写一个shell脚本,在脚本中调用PHP文件,然后定期执行该脚本;2.ignore_user_abort()和set_time_li...

Spark源码阅读:DataFrame.collect 作业提交流程思维导图

本文分为两个部分:作业提交流程思维导图关键函数列表作业提交流程思维导图...

使用Xamarin和Visual Studio开发Android可穿戴设备应用

搭建开发环境我们需要做的第一件事情是安装必要的工具。因此,你需要首先安装VisualStudio。如果您使用的是VisualStudio2010,2012或2013,那么请确保它是一个专业版本或...

Android开发者必知的5个开源库(android 开发相关源码精编解析)

过去的时间里,Android开发逐步走向成熟,一个个与Android相关的开发工具也层出不穷。不过,在面对各种新鲜事物时,不要忘了那些我们每天使用的大量开源库。在这里,向大家介绍的就是,在这个任劳任怨...

Android事件总线还能怎么玩?(android实现事件处理的步骤)

顾名思义,AndroidEventBus是一个Android平台的事件总线框架,它简化了Activity、Fragment、Service等组件之间的交互,很大程度上降低了它们之间的耦合,使我们的代码...

Android 开发中文引导-应用小部件

应用小部件是可以嵌入其它应用(例如主屏幕)并收到定期更新的微型应用视图。这些视图在用户界面中被叫做小部件,并可以用应用小部件提供者发布。可以容纳其他应用部件的应用组件叫做应用部件的宿主(1)。下面的截...

取消回复欢迎 发表评论: