type
status
date
slug
summary
tags
category
icon
password
论文PDF: Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks
动机
当前计算机视觉系统的构建通常依赖于预训练或随机初始化的特征提取器作为骨干网络, 而选择合适的骨干网络是一个困难的问题, 因此需要一个方法来比较不同的预训练模型, 以帮助从业者做出明智的选择.
方法
本文提出一种名为 Battle of the Backbones 的方法, 通过对一系列预训练模型进行基准测试, 包括视觉-语言模型, 自监督学习模型和稳定扩散骨干等, 涵盖了从分类, 目标检测到 OOD 泛化等各种计算机视觉任务. 通过对1500多次训练运行的全面分析, 揭示了现有方法的优势和不足, 并为研究社区指明了前进的方向.
type
status
date
slug
summary
tags
category
icon
password
1. 行为识别 Human Action Recognition (HAR)
- 行为识别模型有两个方向: 第三人称动作识别和第一人称动作识别.
- 使用的各方向和对应的方法大致如下图, 本篇文章只介绍第三人称动作识别 RGB 模态.
- 详细可以参考调研论文. [1]
2. 第三人称动作识别 RGB 模态
第三人称动作识别 RGB 模态方面的研究很多, 因为二维的视频数据相对来说更容易获得.