位置: IT常识 - 正文

CVPR2022 多目标跟踪(MOT)汇总(cvpr2020目标跟踪)

编辑:rootadmin
CVPR2022 多目标跟踪(MOT)汇总 一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》

推荐整理分享CVPR2022 多目标跟踪(MOT)汇总(cvpr2020目标跟踪),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:cvpr2020目标检测,cvpr2020目标跟踪,cvpr目标跟踪,cvpr目标跟踪,cvpr2021 目标跟踪,cvpr2021 目标跟踪,cvpr2020目标检测,cvpr2022多目标跟踪,内容如对您有帮助,希望把文章链接给更多的朋友!

作者: Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo The University of Hong Kong, Carnegie Mellon University, ByteDance Inc

论文链接:https://arxiv.org/pdf/2111.14690.pdf Github:https://github.com/DanceTrack/DanceTrack

1、摘要

当前的多目标跟踪采用检测器来进行目标定位,并用ReID模型来实现数据关联。然而在现在的MOT Challenge数据集中,目标的外观是具有足够的区分性的,而这种区分性使得ReID模型很容易区分目标,实现数据关联。此外,当前的数据集中目标的运动模式比较简单,目标运动都可以被近似为匀速线性运动。而这种目标与现实场景中的数据关联是存在一些bias的,我们实际中通常跟踪的目标具有相同的外观表征,同时其运动姿态也会更多样。为此,本文作者提出了一个“DanceTrack”的数据集,希望其能提供一个更好的平台来开发更多的MOT算法,更少地依赖于视觉辨别,更多地依赖于运动分析。

2、方法

在上述中,已经提到了DanceTrack的提出动机,下图也是数据集中的一些示例。 以下是DanceTrack与MOT Challenge数据集的比较。 🔺在论文中也给出了很详细地分析,这个数据集的提出也说明了未来多目标跟踪研究的一个趋势,会去关注运动更加复杂,目标外观更相似的场景(后续的SoccerNet也有相似的Motivation)。

二、《SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos》

作者: Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck University of Li`ege, KAUST, Baidu Research

论文链接:https://arxiv.org/pdf/2204.06918.pdf Github:www.soccer-net.org

1、摘要

在足球视频中跟踪物体对于收集球员和球队的统计数据非常重要,无论是估计总距离、控球还是队形。视频处理可以帮助自动提取这些信息,而不需要任何携带型传感器,因此适用于任何体育场上的任何球队。然而,当前的数据集来测评这个问题是比较困难的。因此,在本项工作中,我们提出了一个新的多目标跟踪数据集,由200个序列组成,每个序列30秒,代表具有挑战性的足球场景,和一个完整的45分钟的半场用于测评长期跟踪。该数据集完成了目标框和轨迹ID的完成标注,允许各种方法在各基准上做测评。该数据集也验证了当前MOT方法在这种快速运动和严重遮挡的领域中并没有很好的解决。因此作者也希望通过该数据集的提出来促进该部分研究的进行。

2、方法

SoccerNet的数据集示例如图所示。

以下是SoccerNet与MOT数据集的比较。

三、《MeMOT: Multi-Object Tracking with Memory》

作者: Jiarui Cai,Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto University of Washington,AWS AI Labs

论文链接:https://arxiv.org/pdf/2203.16761.pdf

1、摘要

我们提出了一种在线跟踪算法,在一个公共框架下执行对象检测和数据关联,能够在长时间跨度后链接对象。这是通过保留一个大的时空内存来存储被跟踪对象的ID Embeddings,并根据需要自适应地从内存中引用和聚合有用的信息来实现关联。该模型称为MeMOT,由三个主要模块组成,它们都是基于Transformer的:1)、假设生成(Hypothesis Generation),在当前视频帧中生成目标proposals;2)、内存编码(Memory Encoding),从每个被跟踪对象的内存中提取核心信息;3)、内存解码(Memory Decoding),同时解决目标检测和数据关联任务,进行多目标跟踪。当在广泛采用的MOT基准数据集上进行评估时,MeMOT观察到非常具有竞争性的性能。

2、方法

🔺这篇文章的特点是通过Transformer的结构搭建了一个端到端的MOT框架,不需要后处理,性能和当前的SOTA比不是很高,但是具有一定的竞争力。作者在文中没有提到推理速度,感觉这个框架速度应该是一弱项。

要理解这个框架,主要是了解作者提出的三个模块。

1)假设生成(Hypothesis Generation):该模块通过Transformer的Encoder和Decoder生成一组proposal embeddings。这组embeddings有两个作用,一个是表示当前帧新出现的一些目标,另一个是为已经在跟踪状态的目标提供新的位置信息和外观信息。

2)内存编码(Memory Encoding):这个模块通过Cross-Attn Module来维护每一个instance的两个特征,一个关注短时信息,一个关注长时信息,最后把他们concat在一起去提取每一个instance的特征。长时特征是做了动态更新的,但是作者在文中没有说明更新的方式。 3)内存解码(Memory Decoding):将track的embedding和embedding proposal拼接起来,作为Q,并用当前帧的特征做K和V,通过一个Solver直接预测出Bounding Box,Objectness Score和Uniqueness Score。并通过这些值的组合直接获得最后的检测和数据关联结果。

CVPR2022 多目标跟踪(MOT)汇总(cvpr2020目标跟踪)

四、《Learning of Global Objective for Network Flow in Multi-Object Tracking》

作者: Shuai Li,Yu Kong,Hamid Rezatofighi Rochester Institute of Technology,Monash University

论文链接:https://arxiv.org/pdf/2203.16210.pdf

1、摘要

这篇工作研究了基于最小代价流公式(MCF)的多目标跟踪问题,并将其视为一个线性规划的实例进行研究。根据给出的计算性推理,MCF的成果跟踪极大地依赖于底层线性的可学习代价函数。以往的研究大多数聚焦于如何在训练过程中考虑两帧信息来学习代价函数,因此学习到的代价函数对于MCF来说是次优的。在推理过程中,必须在多帧上考虑进行数据关联。为了解决这一问题,本文提出了一种新的可微框架,通过解决一个双层优化问题将训练和推理相关联。其中底层解决了一个线性程序关联的问题,上层为一个包含全局跟踪结果的损失函数。可微层通过梯度下降进行反向传播,明确地学习和正则化全局参数化代价函数。通过这种方法,我们能够学习一个更好的全局MCF目标跟踪器。在MOT16、MOT17和MOT20上,与目前最先进的方法相比,本文的跟踪器取得了具有竞争力的性能。

2、方法

在这个方法中,作者先通过已有的网络提取目标定位信息,和每一个目标的外观特征。这些外观的特征会构建一个有向的图(方向和时序方向相同)。一个MLP层用于回归不同目标之间的连接概率。在训练过程中通过全局最优化的方法来构建损失优化MLP的参数,而在推理过程中,可以通过训练好的MLP网络直接预测结果进行tracking。

全文的推理部分比较多,但是全是涉及怎么通过全局最小代价的方法来训练MLP的。需要细致了解该工作可以去看原文。本博客较关心的是作者用了MLP做了什么,输入是什么,最后怎么推理。

MLP主要用于预测两个detection结果之间是否可以关联,如果可以关联会预测出一个概率,其式子如下: 其中eij表示的是两个detection之间的边是如何构建的(包括尺度、中心距离、框的IOU、embedding的距离等),如下式: 在推理的时候,文中提到会利用基于一个长度为50帧~150帧的批次进行跟踪(预测连接概率,算最小代价流)。并用了Gurobi求解器来获得最后的数据关联结果。由于每一个批次都覆盖了重复帧,所以可以把短轨关联成长轨。

在后处理中作者还用了单目标跟踪器。

五、《Global Tracking Transformers》

作者: Xingyi Zhou,Tianwei Yin,Vladlen Koltun,Phillip Kr¨ahenb¨uhl The University of Texas at Austin,Apple

论文链接:https://arxiv.org/abs/2203.13250 代码链接:https://github.com/xingyizhou/GTR

1、摘要

我们提出一种新的基于Transfomer的结构用于全局多目标跟踪。我们的网络把一段短的视频序列作为输入,并预测所有对象的运行轨迹。其核心部分是一个全局tracking transformer,用于操作序列中所有帧中的目标。Transfomer网络对所有帧中的对象特征进行编码,并使用queries将它们分组为轨迹。轨迹的queries是来自单个帧的对象特征,并自然地产生独特的轨迹。我们的全局tracking transformer不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能,有75.3MOTA和59.1HOTA。更重要的是,我们的框架无缝地集成到最先进的大型vocabulary检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明,我们的框架改进了基于成对关联的方法。

🔺本文的Motivation是搭建个网络可以直接从32帧的图像中学习一种匹配结果,而不是逐帧做一个匹配。

2、方法

图中所示的是所提出的Global Tracking Transformer。其中F表示的是多帧的detection结果所提取的特征(其中N表示数量,D表示维度),Q表示用来检索的tracklet的特征(其中M表示数量,D表示维度)。通过Transformer的方式,直接预测获得一个匹配结果G,其中的数值预测每一个轨迹和每一个目标的关联关系,即 git(qk, F) ∈ R表示第t帧第i个目标与该轨迹的关联关系,该值为0表示这个目标与该轨迹没有关联关系。

在获得了G矩阵之后,在每一帧中单独对同一个轨迹的匹配分数做一次Softmax,得到: 通过找最大的概率,可以直接获得一条轨迹。在训练过程中,作者通过最大化PA来让网络学会这种能力。

而在测试过程中,感觉和DeepSort的过程依然比较像,不同的是Deepsort直接用了embedding的距离来构建匹配矩阵,而这个是通过transformer网络所预测出来的PA,之后用Hungarian来保持唯一的匹配结果。

六、《Unified Transformer Tracker for Object Tracking》

作者: Fan Ma,Mike Zheng Shou,Linchao Zhu,Haoqi Fan,Yilei Xu, Yi Yang, Zhicheng Yan ReLER Lab, AAII, University of Technology Sydney,National University of Singapore,Meta AI,Zhejiang University

论文链接:https://arxiv.org/pdf/2203.15175v1.pdf

1、摘要

目标跟踪作为计算机视觉中的一个重要领域,已经形成了两个独立的社区,分别研究单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象的不同,目前的一种跟踪场景的方法不容易适应另一种跟踪场景。虽然UniTrack[45]证明了可以使用具有多个头部的共享外观模型来处理单个跟踪任务,但它没有利用大规模跟踪数据集进行训练,并且在单目标跟踪上表现较差。在这项工作中,我们提出了Unified Transformer Tracker (UTT) ,以解决不同场景下的跟踪问题。我们在UTT中构架了一个Transformer Tracker在SOT和MOT中跟踪目标,利用目标特征和跟踪帧特征之间的相关性来定位目标。我们证明了SOT和MOT任务都可以在这个框架内得到解决,并且该模型可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时进行端到端训练。在SOT和MOT数据集上训练了一个统一的模型,在几个基准测试上进行了广泛的实验。 🔺相比于UniTrack这篇工作解决了在SOT和MOT两个数据集上训练的问题,在SOT任务上提点明显,而MOT上还有一些差距可能是未来Unit类方法可以继续完善的地方。

2、方法

我们首先使用主干Φ来提取帧特征。 Transformer Tracker 有三个输入,包括参考帧和跟踪帧(当前帧),以及参考帧中的目标框。Transformer Tracker的目标是预测当前帧中的目标定位。首先使用Transformer Tracker中的Target Decoder提取目标特征,Proposal Decoder在跟踪帧中产生候选搜索区域。目标特征和搜索特征都被输入Target Tansformer以预测目标定位。

该方法在MOT中还是需要一个额外的detector来完成目标的定位。

本文链接地址:https://www.jiuchutong.com/zhishi/299548.html 转载请保留说明!

上一篇:lodash-es 工具库(es工具类)

下一篇:通过使用html的css样式来达到给背景色添加渐变色的效果(用html语言完成以下内容)

  • 背背佳专卖店实体店地址那个品牌效果好

    背背佳专卖店实体店地址那个品牌效果好

  • vivox70pro怎么分屏(vivox70pro怎么分辨真假)

    vivox70pro怎么分屏(vivox70pro怎么分辨真假)

  • qq怎么查看对方撤回的消息(qq怎么查看对方是否删除自己)

    qq怎么查看对方撤回的消息(qq怎么查看对方是否删除自己)

  • 微信怎么单向删除好友(微信如何单项删除好友)

    微信怎么单向删除好友(微信如何单项删除好友)

  • 夏天充电器发烫怎么办(夏天充电器发热)

    夏天充电器发烫怎么办(夏天充电器发热)

  • 闲鱼提醒收货对方会得到什么消息(闲鱼提醒收货对方怎么显示)

    闲鱼提醒收货对方会得到什么消息(闲鱼提醒收货对方怎么显示)

  • 华为p40呼吸灯怎么设置(华为p40pro呼吸灯)

    华为p40呼吸灯怎么设置(华为p40pro呼吸灯)

  • oppor15录屏为什么没有声音(为什么oppor15录屏录不到声音)

    oppor15录屏为什么没有声音(为什么oppor15录屏录不到声音)

  • 手机怎么删掉抖音视频(手机怎样删除抖音)

    手机怎么删掉抖音视频(手机怎样删除抖音)

  • 如何在微信中拒收一个人的消息(如何在微信中拒绝进群)

    如何在微信中拒收一个人的消息(如何在微信中拒绝进群)

  • 为什么显示屏灯亮却是黑屏(显示屏灯会亮显示屏不亮)

    为什么显示屏灯亮却是黑屏(显示屏灯会亮显示屏不亮)

  • 拼多多买东西几天到货(拼多多买东西几天到)

    拼多多买东西几天到货(拼多多买东西几天到)

  • 已丢失网络连接什么意思(已丢失网络连接safari)

    已丢失网络连接什么意思(已丢失网络连接safari)

  • 微信辅助注册有风险吗(微信辅助注册有效期多久)

    微信辅助注册有风险吗(微信辅助注册有效期多久)

  • ios13迅雷闪退(iphone迅雷闪退)

    ios13迅雷闪退(iphone迅雷闪退)

  • thinkpad怎么开机(联想电脑thinkpad怎么开机)

    thinkpad怎么开机(联想电脑thinkpad怎么开机)

  • 抖音短视频怎么截图(抖音短视频怎么赚钱的)

    抖音短视频怎么截图(抖音短视频怎么赚钱的)

  • 手机画面乱跳怎么解决(手机画面老是跳动咋回事)

    手机画面乱跳怎么解决(手机画面老是跳动咋回事)

  • 华为ouik是什么软件(华为kozal00是什么型号)

    华为ouik是什么软件(华为kozal00是什么型号)

  • soul能查到手机号(soul能查到手机联系人吗)

    soul能查到手机号(soul能查到手机联系人吗)

  • 如果在XP系统中QQ音乐听不了怎么办?

    如果在XP系统中QQ音乐听不了怎么办?

  • mac开启safari开发模式的方法(safari开发者工具)(safari浏览器开发者模式)

    mac开启safari开发模式的方法(safari开发者工具)(safari浏览器开发者模式)

  • windows不能打开帮助和支持怎么办(windows不能打开exe文件)

    windows不能打开帮助和支持怎么办(windows不能打开exe文件)

  • 卸载TensorFlow1.14,安装2.1(卸载的应用怎么找回来)

    卸载TensorFlow1.14,安装2.1(卸载的应用怎么找回来)

  • 农产品 税率
  • 小规模进项可以收专票吗
  • 机票的电子发票和行程单有什么区别
  • 本期缴纳前期应纳税额
  • 政府发放的人才补贴,企业可以增加条款要求离职返还吗
  • 公帐一个月能提多少现金出来
  • 房地产企业土地使用权入什么科目
  • 房产税从租计征12%是年税率吗
  • 仓储企业的成本有哪些
  • 非同一控制下用什么法
  • 实物投资没有发票咋办
  • 存货可变现净值与成本孰低 考虑销量吗
  • 股东放弃本企业股权
  • 实物返利缴纳所得税吗?
  • 建筑施工企业印花税计税依据
  • 旅游业是一个怎样的产业
  • 工业企业该怎样建账?
  • 其他应收款借方表示增加吗
  • 货物返利怎么做分录
  • 农产品增值税免税政策
  • 购车保险属于什么费用
  • 盈亏平衡点的计算公式字母
  • 企业核销应收账款需要什么资料
  • 母公司计提子公司投资收益
  • 合同取得成本和增量成本有什么区别
  • win10更新21h1后很卡
  • vue slot标签
  • php字符串变量
  • 股权处置的形式
  • 劳务公司社保手续办理
  • 低值易耗品报废账务处理
  • 公司员工的社保怎么查询
  • vite vuex
  • 福利费可以抵扣进项吗?
  • 水利建设基金计税依据
  • 公司给员工餐补计入
  • 用jsp实现用户登录验证
  • php环境怎么搭
  • php for break
  • php wechat
  • 其他科技推广服务业可以加计扣除吗
  • 织梦图片集如何调用
  • 帝国cms移动端
  • 销售熟食卤制品怎么做
  • 投资性房地产如何折旧
  • mysql error!
  • 公司缴纳的残保金是什么
  • 暂估入库跨年账务危险
  • 一般纳税人销售自己使用过的物品
  • 增值税附加税的税收优惠政策
  • 预付一年房租费的会计分录
  • 收到的专项资金怎么入账
  • 个人怎么缴纳五险一金
  • 出售固定资产如何缴纳增值税
  • 进项税额转出可以在所得税前扣除吗
  • 季度盈利弥补以前年度亏损的账务处理
  • 未实际收到的投资收益
  • 专家咨询费支付标准
  • 三大财务报表英文
  • 复式记账法主要有
  • sql server数据库怎么使用
  • MySQL5.7 windows二进制安装教程
  • sql将查询的结果拼接
  • win8安装虚拟机的步骤
  • win10系统如何添加隐藏wifi
  • quicktimeplayer.exe - quicktimeplayer是什么进程 有什么用
  • gcc编译选项详解
  • cocos creatorapi
  • nginx react
  • shell脚本 定义变量
  • Node.js中的包管理工具是什么
  • uil的简单常用操作
  • node中的ejs
  • js的scrolltop
  • html5 jquery
  • java 视频教程
  • 电子税务局在手机上能登录吗
  • 河源市人民医院上班时间
  • 怎么删除天眼查诉讼信息
  • 刚注册了一家深圳公司
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设