从0单排:学风侏儒——零样本学习3篇论文-程序员宅基地

技术标签: 人工智能  数据结构与算法  

Zero shot learning

主要是zero-shot learning相关论文的阅读,主要关注于视频方面。
零样本问题现在处理视频的很少,主要是因为零样本自身就有不少的急需解决的问题:

  1. domain shift
  2. Hubness problem
  3. semantic gap

详情可以看这篇文章 零次学习(Zero-Shot Learning)入门

1. 15. Objects2action:Classifying and localizing actions without any video example

ICCV上面的文章,引用大概77。

  • 问题:识别视频动作而无需案例
  • 挑战:无需案例
  • 创新:不需要属性分类器和类别-属性映射的设计,用一个skip-gram模型涵盖了数千种目标类别的语义词语集成 semantic word embedding。基于convex combination 凸组合来编码视频的动作和目标。这个模型包含3个主要特征:
    1. 提出一个利用多词语的动作和目标描述 multiple-word descriptions of actions and objects 机制
    2. 吸纳每个动作中自动选择的最具响应目标 most reponsive objects
    3. 在这种零样本方法上扩展到动作时空定位

1492311-20190713105703836-1063411768.png
1492311-20190713105714743-1157269214.png

看它的pipeline,就是把动作识别分为了目标检测和语义集成两个方面,在上方的先验中获得两个比较重要的内容:1 通过图片和目标类别的训练,获得目标集成(就类似于目标检测 2 通过语料库和目标类别的训练,得到每个目标类别在语料库中语义集成, 然后利用这两个先验获得下面两个部分: 1 获得测试集中动作类别的语义信息,既每个类别和那些目标类别有关系 2 获得测试视频中出现的目标编码, 然后用这两个内容得到一个测试视频与类别的关系(视频 —— 目标 —— 类别)

  • 实验:实验主要对比了两种不同的语义集成方式:average word vector 和 fisher word vector,以及两种sparse translation 稀疏迁移中采用的方法:action sparsity 和 video sparsity,实验中 fisher word vector 和 action sparsity 是效果最好的。

2. 16. Multi-Task Zero-Shot Action Recognition with Prioritised Data Augmentation

eccv,21。

  • 挑战:在原本的监督学习中,训练数据和测试数据是从同一个分布中获得。从而导致因为假设辅助类别和目标类别具有相同的映射,现存的ZSL方法都会面临辅助-目标 auxiliary-target 的领域迁移domain shift问题。
  • 创新:通过使用具有更好泛化属性的方法和优先相关于目标类别的辅助数据的动态数据re-权重建立一个视觉-语义映射,提升了ZSL在model-和data-centric方法中领域迁移的泛化能力。
    1492311-20190713105739134-603580400.png
    1. 多任务视觉-语义映射,通过约束语义映射参数提升泛化能力(具有更好泛化性的更鲁棒的回归模型):大部分的zsl模型学习语义和视觉元素集成是独立的,这种策略容易导致在训练类别上过拟合,因为它将在语义集成中标签的每个维度独立对待,尽管标签本身是在非同一的流形并且许多独立的映射导致大量参数需要学习(single task learning)。多任务学习 Multi-Task Learning 回归器方法,具有以下优点:
      1. 利用了响应变量(集成标签的维度)的关系
      2. 减少了总的训练参数量
    2. 通过用额外的与目标域相关的实例权重扩展辅助数据池的针对域迁移的优先数据增强方法:将优先数据增加作为一个通过最小化辅助域与目标域间的边缘分布差异的领域自适应问题,通过一个重要性权重策略来重新衡量每个辅助实例的权重来最小化差异。扩展了 Kullback-Leibler Importance Estimation Procedure 算法在ZSL问题。
  • 实验:实验部分首先比较了在使用MTL和latent matching使用有无的性能,提升不算多,大概1个点。随后比较了数据优先的数据增强方法飞来的提升,KLIEP数据对齐带来的提升大于标签对齐带来的,而全对齐的提升是最多的,大概有4个点,甚至Naive DA都会带来响应的提升,说明domain shift问题确实很严重。

3. 18. Visual Data Sythesis via GAN for Zero-Shot Video Classification

IJCAI, 3。

  • 问题:大多数现存的方法利用了 seen-unseen的相关, 通过学习视觉与语义空间的映射(projection,这种projection方法并不能充分利用数据分布中隐含的辨识信息 discriminative information,所以会遭到因“异构性鸿沟 heterogeneity gap”导致的信息退化
    1. 视频数据包含更多噪音,需要ZSL模型有更好的鲁棒性
    2. 视频特征同时描述了空间和视频信息,它的流形更复杂
    3. 视频内容包含大量可变的姿势与外观,导致更容易长尾
  • 挑战:
    1. 如何对视频特征和语义知识的联合分布鲁棒的建模,并且确保生成特征的辨识性特征
    2. 如何减轻异构性的影响和最大程度迁移语义
  • 创新:通过GAN搭建了一个虚拟数据合成框架,语义知识和视觉分布被利用于合成未知类别的视频特征,ZSL用合成特征转变为监督问题。通过对抗学习,可以对高维视觉特征和语义知识的联合分布进行建模。
    1492311-20190713105809024-637536548.png
    1. 多级语义推断,用于加速视频特征合成:包含两个由对抗学习驱动的生成程序,语义-视觉,视觉-语义两个分支
    2. 匹配感知的公共信息相关性 Matching-aware Mutual Information Corelation 来解决信息退化问题:将有用的指导信号提供给程序用以克服信息退化,包含了匹配和未匹配的视觉-语义对用于语义知识迁移。
  • 实验:实验可以看出,相比较于SVM作为最后分类器,NN会有hubness problem,所以SVM性能远好于NN。有趣的地方在于,平均的测试结果中,Fisher vector得到的视觉特征用于生成学习的效果比Deep Feature(使用VGG-19得到的)好。
    1492311-20190713105821848-174156666.png
    但是在消融实验中,却不是如此,DF远好于FV,也没有提及消融实验的结果是否为平均结果。消融实验中可以看到公共信息相关性对于效果的提升十分明显,远多于多级语义推断。

转载于:https://www.cnblogs.com/LeeGoHigh/p/11179793.html

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dilaoyu8794/article/details/102382772

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签