位置: IT常识 - 正文

【深度估计】单目深度估计(深度计算公式)

编辑:rootadmin
【深度估计】单目深度估计 文章目录什么是深度估计?什么是视差深度估计与三维重建单目深度估计研究历程单目深度估计方法传统方法基于线索线性透视聚焦/散焦度天气散射阴影纹理遮挡高度运动线索基于物体自身运动基于摄像机的运动基于机器学习参数学习方法开创性工作改进加入语义信息条件随机场 (Conditional Random Field,CRF)非参数学习方法第一个里程的工作进一步完善基于多帧其他非参数学习方法深度学习方法基于有监督的深度学习方法首次应用改进:多尺度网络深度卷积神经场深度残差网络利用分类思想基于无监督的深度学习方法利用立体视图利用相对关系利用视频序列应对动态障碍物Struct2DepthDepth in the WildDepth and motion learning数据集KITTINY UCityScapes论文推荐CVPR 2021什么是深度估计?

推荐整理分享【深度估计】单目深度估计(深度计算公式),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:深度估计应用,深度计算公式,深度估计数据集,深度估计应用,深度估计的意义,深度估计的意义,深度估计应用,深度估计算法,内容如对您有帮助,希望把文章链接给更多的朋友!

深度估计,就是获取图像中的场景里的每个点到相机的距离信息,这种距离信息组成的图称之为深度图 – Depth map

什么是视差

两张图像中相同的物体的像素坐标不同; 较近的物体的像素坐标差异较大,较远的物体的差异较小; 同一个世界坐标系下的点在不同图像中的像素坐标差异,就是视差; 不同图像之间的视差,通过相机参数、两个拍摄点之间的位置信息即可换算出物体和拍摄点之间的距离;

深度估计与三维重建

1、获取深度图以及尺度信息 深度图是三维重建的基础 可以通过激光/双目/相机姿态获取尺度 2、将像素坐标转换到世界坐标 通过内参矩阵、外参矩阵以及尺度关系,得到基于世界坐标系下的点云信息 3、三维重建 得到点云后,再将图像的纹理信息贴到点云上,完成三维重建

单目深度估计研究历程

单目深度估计方法

传统方法基于线索

从图像本身的特征和线索计算图像的深度值。

常用的单日深度线索有:线性透视、聚焦/散焦、大气散射、阴影、纹理、遮挡、相对高度和运动线索。

线性透视

通过检测平行线,识别这些线的会聚点(消失点)来进行深度估计 当距离眼睛更远时,固定尺寸的物体将产生较小的视角 根据消失线和消失点的位置对深度进行适当的分配

聚焦/散焦度

在凸面镜所成的像中,物体只有处在离镜头特定的距离才能够被聚焦,在其他位置都会产生不同程度的模糊现象,模糊程度与其所处的距离有关。

例子:基于聚焦信息构造高阶统计量图,区分出图像中的前景区域和背景区域并对这两个区域进行深度分配。

天气散射

当光线通过大气层传播时,空气中的灰尘微粒对光线具有散射和吸收作用,远处物体相对于近处物体亮度、对比度和色彩饱和度较低,看起来不太清晰。

根据大气散射现象,大脑可以判断不同对比度的物体具有不同的深度。

例子: 通过在输入图像上添加雾面来模拟雾图像,并通过去雾算法中的透射估计方法估计深度图。

阴影

图像中物体表面阴影的变化可以反映物体的形状信息。

SFS(Shape from shading 阴影恢复形状): 利用图像的亮度和表面几何之间的关系,从灰度图像中恢复出物体的三维形状当物体表面的颜色和纹理不属于同一分布的时候,该方法就会失效。

纹理

根据表面纹理标记的提示来估计表面的形状。 距离一个物体越近时,越能清楚地看到物体表面的纹理细节,对于距离较远的物体看不清。 通常仅限于特定类型的图像。

遮挡

当一个物体遮挡住另一个物体时,它比被遮挡的物体距离观看者更近一般认为轮廓线连续平滑的物体是遮挡物体,即距离观察者更近。

例子:通过对遮挡的明确推理,恢复了场景中独立结构的深度排序。

高度

靠近图像底部的物体通常比图片顶部的物体更近,主要包含在户外和景观场景中要提取出这个深度线索,通常要识别出水平线,将图像分成从左边界到右边界的条纹。

例子:应用线追踪算法来恢复最优分割线,并进一步采用深度优化方法来提高最终深度图的质量。

运动线索基于物体自身运动

利用运动视差近大远小的原理,通过对视频序列的前后帧进行点匹配求得运动视差·只适用于摄像机处于静止的情形,没有运动物体时失效

基于摄像机的运动

运动恢复结构(Structure From Motion,SFM):假定场景静止不变,仅存在摄像机的运动SFM 可以从图像序列中恢复出摄像机的外参和场景的深度信息 1.首先对相机标定。 2.提取图像特征,并计算相邻图像匹配的特征点。 3.根据对极几何得到相机位姿以及深度信息。 缺点 1.要求必须存在相机的运动,运动幅度不能较大。 2.当场景中存在运动物体时,对精度影响很大;速度相对较慢。 3.依赖相邻图像间的特征点匹配,不适用图像纹理较少或相机的运动幅度大的场景。

基于机器学习

将大量训练图像集和对应的深度图输入定义好的模型中,进行有监督的学习。 分为参数学习方法与非参数学习方法。

参数学习方法

参数学习方法是指能量函数中含有未知参数的方法,训练的过程是对这些参数的求解

开创性工作

2005年,斯坦福大学的Saxena等人利用**马尔科夫随机场(Markov RandomField,MRF)**学习输入图像特征与输出深度之间的映射关系。

利用图像中多尺度的纹理、模糊等深度线索,分别构建了高斯和拉普拉斯MRF。

对每个分割图像块的深度进行了建模,同时建立相邻块之间的深度关系。

改进

2007年,在最大化后验概率框架下,以超像素为单元,利用MRF 拟合特征与深度、不同尺度的深度之间的关系,进而实现对深度的估计。

(超像素:把一些具有相似特性的像索“聚合”起来,形成一个更具有代表性的大“元素”)

加入语义信息

通过引入场景中的附加信息,如语义假设和重复纹理等,能有效提高深度估计的精度。

2010年,Liu 等人对整个图像的不同区域按照语义标签进行分类。

采用更简单的特征向量作为监督学习的输入,充分利用不同类别之间的深度信息和几何约束。

将语义信息及对应的深度约束结合,构建MRF模型,优化模型得到场景的深度信息。

MRF通常很难进行精确地学习和推理,大多都采用近似计算,导致预测深度的准确率不高,且效率低。

条件随机场 (Conditional Random Field,CRF)

Cheng 等人首先利用遮挡和消失点这两种深度线索获取深度梯度图,构建基于像素的条件随机场。

Zhuo等人提出对深度图的分层表达进行建模,对超像素、区域和布局的不同层融合推理。

J等人研究了超像素标记和深度估计之间的内在关系,提出弹性条件随机场模型Elastic Conditional Random Field,ECRF),利用它们的相互关联来加强彼此。

上述方法需假设RGB图像与深度之间的关系满足某种参数模型,而假设模型难以模拟真实世界的映射关系,预测精度有限

非参数学习方法

非参数学习方法,使用现有的数据集进行相似性检索推测深度。

一种数据驱动算法。

给定一幅测试图像,通过融合RGBD数据库中相似图像的深度得到。

第一个里程的工作

Konrad 等人提出采用最近邻搜索(k Nearest Neighbor,kNN)。

从RGBD训练库中选出与测试图像最相似的幅候选图像。

再将这 K 幅候选图像对应的深度图进行中值融合得到测试图像的深度。

进一步完善【深度估计】单目深度估计(深度计算公式)

Karsch等人采用变形步骤,将候选图像和深度与测试图像对齐,构建了【融合变形后的K幅候选深度图的】 能量最小化方程。

基于多帧

利用视频中时间信息来获得时间上一致的深度估计。

Liu等人将单目深度估计视为离散-连续最优化问题。

通过非参数学习方式在数据库中检索相似的深度图,并利用遮挡信息构建目标函数进行深度推理。

其他非参数学习方法

Henera等人使用基于局部二进制模式的特征来估计相似的图像。采用自适应的方法进行融合得到最终深度。

在此基础上他们又提出了基于聚类的深度提取学习算法。

该方法首先根据结构的相似度将 RGBD 数据库进行聚类处理,分割成数个集合。对于给定的输入图像,先找到最相似的图像集计算出先验的深度图,之后采用基于分割的导向滤波对先验深度进行优化。

优点:非参数化方法不需要设计参数化的模型,同时也没有引入太多的场景假设。

缺点:当数据库中不存在与测试图像相似的图像时,很难恢复理想的深度图;依赖于图像检索,计算量大、耗时高,难以实际应用。

深度学习方法基于有监督的深度学习方法

基于有监督学习的的单目深度估计方法,在模型训练时需要依赖真实深度依赖庞大的数据进行网络模型的训练,数据集一般包括单目图像和对应的深度真值。

基于有监督学习的单目深度估计方法中,网络模型的训练需要依赖真实深度值。真实深度值的获取成本高昂,且范围有限,需要精密的深度测量设备和移动平台采集的原始深度标签通常是稀疏点,不能与原图很好的匹配。

首次应用

2014年,Eigen等人使用Deep CNN估计单幅图像的深度,两个分支以RGB图片作为输入,第一个分支网络粗略预测整张图像的全局信息,第二个分支网络细化预测图像的局部信息原始图片输入粗网络后,得到全局尺度下场景深度的粗略估计将粗网络的输出传递给细网络,进行局部优化,添加细节信息先训练Coarse网络,再固定Coarse网络的训练参数,去训练Fine网络

一种全局+局部的策略,Coarse网络预测整体趋势,Fine网络局部调优。

改进:多尺度网络

2015年,Eigen等人基于上述工作,提出了一个统一的多尺度网络框架。

使用了更深的基础网络VGG,利用第3个细尺度的网络进一步增添细节信息,提高分辨率,scale1网络对整张图片做粗略估计,scale2和scale3 网络对全局预测进行细节优化,将scale1网络的多通道特征图输入 scale2 网络,联合训练前面两个尺度的网络,简化训练过程,提高网络性能。

分别用于深度预测,表面法向量估计和语义分割3个任务,将同一框架独立应用于不同任务,使用不同的数据集训练。

深度卷积神经场

Liu等人(2015)将深度卷积神经网络与连续条件随机场结合,提出深度卷积神经场;

使用深度结构化的学习策略,学习连续CRF的一元势能项和成对势能项;

通过解析地求解函数的积分,可以精确地求解似然概率优化问题。

Li等人(2015)提出多尺度深度估计方法,用深度神经网络对超像素尺度的深度进行回归;

再用多层条件随机场后处理,结合超像素尺度与像素尺度的深度进行优化;

多尺度图片作为输入,有利于学习全局的深度信息。

深度残差网络

Laina 等人(2016)提出一种基于残差学习的全卷积网络(FCN)架构,去掉全连接层,减少参数,不限制图像输入尺寸。

整个网络可以看做是一个encoder-decoder的过程,使用了预训练的ResNet50,网络结构更深。

为了提高输出分辨率同时优化效率,提出一种新的上采样方法。

考虑到深度的数值分布特性,引入逆Huber Loss作为优化函数。

利用分类思想

考虑到场景由远及近的特性,可以利用分类的思想。

Cao等人(2018)将深度估计问题看作像素级的分类问题。

离散化:将深度值投影到对数空间,按照深度范围离散化为类别标签。

训练:深度残差网络预测每个像素对应的类别,损失函数包含信息增益的多项逻辑函数(对离真值越远惩罚越大,网络更加关注难样本)。

后处理:分类可以得出概率分布,便于条件随机场作为后处理优化细节。

基于无监督的深度学习方法

基于有监督学习的单目深度估计方法中,网络模型的训练需要依赖真实深度值。真实深度值的获取成本高昂,且范围有限,需要精密的深度测量设备和移动平台采集的原始深度标签通常是稀疏点,不能与原图很好的匹配。

无监督学习的方法不依赖深度真值,是单目深度估计研究中的热点。

相对于传统算法和有监督学习算法,无监督学习方法在网络训练时只依赖多帧图像,不需要深度真值具有数据集易获得、结果准确率高和易于应用等优点。

根据图像对之间的几何关系重建出对应的图像,通过图像重建损失监督训练。

利用立体视图

Garg等人(2016)提出利用立体图像对实现无监督单目深度估计;

利用左右立体图像对,用预测的深度图重构左图,计算重构损失;

训练时需要左右图像对,预测时只需要一张图;

Godard 等人(2017)对上述方法进一步改进: Monodepth;

利用左右视图的一致性实现无监督的深度预测;

利用对极几何约束生成视差图,再利用左右视差一致性优化性能,提升鲁棒性。

利用相对关系

Zoran等人(2015)关注相对深度关系,利用图像中点对之间的相对关系推断深度信息。(需要少量相对远近的标签,算是弱监督)

网络输出点对之间的相对关系,再利用数值优化方法将稀疏的输出稠密化为最终结果。

优点:比数值回归更加简单;人们能够很容易判断相对关系,训练数据集获取成本低相对关系不受数据的单应变换影响,系统更加鲁棒

整体框架由3部分组成: 第1部分从图像中选择点对。 第2部分估计每一个点对的相对关系,提取相关信息并做三分类。 第3部分将点对之间的相对关系扩展至全局,得到稠密输出。

Chen 等人( 2016)利用相对深度关系构造损失函数通过多尺度的神经网络直接预测像素级的深度。

此损失函数的设计,让网络能够利用相对深度关系作为标签,深度值作为网络的输出结果,将相对深度关系与连续深度值联系了起来。

利用视频序列

SFMLearner Monodepth2 Featdepth

应对动态障碍物

上述方法都基于静态场景假设,如果场景中出现了动态目标,动态目标在两帧中的变化就会很小,可能将近处的物体误判为远处的物体(因为远处的物体误差小)。

Struct2DepthDepth in the WildDepth and motion learning数据集KITTINY UCityScapes论文推荐CVPR 2021

本文链接地址:https://www.jiuchutong.com/zhishi/298600.html 转载请保留说明!

上一篇:yolov3模型训练并部署到K210(零基础也可)(yolov2模型)

下一篇:基于Web Speech API给ChatGPT加上语音功能,距离MOSS又近了一步(基于网络创新形成的大数据的最突出特征是什么?( ))

  • 华为p40支持OTG功能吗(华为p40支持OTG功能怎么打开)

    华为p40支持OTG功能吗(华为p40支持OTG功能怎么打开)

  • 计算器上0123456789叫做什么键(计算器上各个键的名称及功能)

    计算器上0123456789叫做什么键(计算器上各个键的名称及功能)

  • 单反怎么开机(单反怎么开机拍照)

    单反怎么开机(单反怎么开机拍照)

  • ipad mini5什么时候上市的(ipad mini5什么时候发布)

    ipad mini5什么时候上市的(ipad mini5什么时候发布)

  • 华为备用电量怎么开启(华为手机电池备用电量)

    华为备用电量怎么开启(华为手机电池备用电量)

  • 手机壳液态硅胶和硅胶的区别(手机壳液态硅胶是什么)

    手机壳液态硅胶和硅胶的区别(手机壳液态硅胶是什么)

  • spacebar是哪个键(spacebar是哪个键盘)

    spacebar是哪个键(spacebar是哪个键盘)

  • 荣耀9x自带膜需要换吗(荣耀9x自带膜需要撕掉吗)

    荣耀9x自带膜需要换吗(荣耀9x自带膜需要撕掉吗)

  • a1528支持什么网络(a1529支持什么网络)

    a1528支持什么网络(a1529支持什么网络)

  • 平板可以分屏吗(小米平板可以分屏吗)

    平板可以分屏吗(小米平板可以分屏吗)

  • 外卖虚拟号码怎么发短信(外卖虚拟号码怎么弄)

    外卖虚拟号码怎么发短信(外卖虚拟号码怎么弄)

  • 苹果的imessage和短信有什么区别

    苹果的imessage和短信有什么区别

  • 红米k20钢化膜能指纹解锁吗(红米k20钢化膜能撕掉吗)

    红米k20钢化膜能指纹解锁吗(红米k20钢化膜能撕掉吗)

  • iphone11怎么显示电量(iPhone11怎么显示网速)

    iphone11怎么显示电量(iPhone11怎么显示网速)

  • 微信显示交易异常,不能收款,怎么办?(微信显示交易异常多久自动解除)

    微信显示交易异常,不能收款,怎么办?(微信显示交易异常多久自动解除)

  • 5g终端是什么(5g终端是不是5g手机)

    5g终端是什么(5g终端是不是5g手机)

  • 苹果手机提醒事项里面列表内容怎么没有了(苹果手机提醒事项怎么关闭)

    苹果手机提醒事项里面列表内容怎么没有了(苹果手机提醒事项怎么关闭)

  • ios怎么把两张照片合成一张(ios怎么把两张照片p成一张)

    ios怎么把两张照片合成一张(ios怎么把两张照片p成一张)

  • 苹果13.2.3什么时候更新(苹果13.2.3什么时候发布的)

    苹果13.2.3什么时候更新(苹果13.2.3什么时候发布的)

  • 华为p30如何登录两个微信(华为p30如何登录云空间账号)

    华为p30如何登录两个微信(华为p30如何登录云空间账号)

  • 魅族16sPro怎么开启简易模式(魅族16spro怎么开dc调光)

    魅族16sPro怎么开启简易模式(魅族16spro怎么开dc调光)

  • 苹果nfc功能怎么开启(苹果nfc功能怎么用公交卡)

    苹果nfc功能怎么开启(苹果nfc功能怎么用公交卡)

  • 华为手机怎么设置呼叫转移(华为手机怎么设置锁屏密码)

    华为手机怎么设置呼叫转移(华为手机怎么设置锁屏密码)

  • 通知qq图标是干啥的

    通知qq图标是干啥的

  • 怎么让照片小于200k(怎么让照片小于190k)

    怎么让照片小于200k(怎么让照片小于190k)

  • 手机防火墙是什么东西(手机防火墙是什么功能)

    手机防火墙是什么东西(手机防火墙是什么功能)

  • QQ音乐Qplay功能如何使用(qq音乐 qplay)

    QQ音乐Qplay功能如何使用(qq音乐 qplay)

  • 小米9如何截屏快捷键(小米如何截屏长图)

    小米9如何截屏快捷键(小米如何截屏长图)

  • 实现Vue按钮(button)绑定回车(enter)事件(vue怎么让按键启用和禁用)

    实现Vue按钮(button)绑定回车(enter)事件(vue怎么让按键启用和禁用)

  • 如何分辨海关完税凭证的真假?
  • 汇算清缴期间发生的计入当期损益吗
  • 个税系统经营所得如何添加人员信息
  • 印花税购销合同计税金额怎么算
  • 税控盘减免税额转出会计分录
  • 可供出售金融资产和交易性金融资产
  • 科技型中小企业条件
  • 电子商票贴现具备的条件
  • 跨省工程需要什么条件
  • 房地产开发企业预缴增值税
  • 贴现利息可以抵扣吗
  • 税控盘服务费怎么填写申报表
  • 质量保证金的预留比例是多少
  • 工人保险一个月多少钱
  • 砂石开采销售需什么资质
  • 华为股权激励制度
  • 出口企业收到的货款是人民币还是美元
  • 企业注销固定资产处理
  • 农副产品的进项税额
  • 委托贷款利息收入需要缴纳增值税么
  • 华为mate刷机能刷用户锁吗
  • 如何更改文件的创建时间
  • php json转对象
  • php入门基础教程
  • php的教程
  • 深入理解llvm
  • 强化学习之stable_baseline3详细说明和各项功能的使用
  • 应付款项怎么填列
  • 小规模企业应交税费
  • 残保金补申报后处罚会自动取消吗
  • 帝国cms灵动标签下拉框
  • 织梦内容页模板修改
  • 挂靠的公司替我们交的税款如何记账?
  • 投资收益交增值税税率是多少
  • 金蝶利润表为什么只有累计数没有本月数
  • 企业所得税会计利润
  • 什么是国家限制企业或行业
  • 开增值税发票规格是否可以不用填?
  • 企业跨区变更地址迁入地核验码怎么查询
  • 金税四期何时上线
  • 工会经费到底怎么算
  • 实收资本印花税属于什么税目
  • 差旅费退回怎么做账
  • 联通里的话费可以拿来干嘛
  • 预收账款退款的会计处理
  • 企业买期货账务处理
  • 餐饮行业纸巾入库流程
  • 长期待摊费用的最新账务处理
  • 维修费收入怎么结转销售成本
  • 收银员长款短款什么意思
  • 税金及附加是什么账户
  • 工会经费征收项目是什么
  • 中小企业会计建议和意见
  • 企业建账要求
  • 材料物资核算应由谁负责
  • 如何动态修改mysql的全局参数
  • window怎么操作
  • win2003好用吗
  • win10h2版本
  • xp系统如何更改开机启动项
  • icloud怎么加密码
  • win7打开
  • linux命名命令
  • 装系统无法选择
  • win7系统的电脑能装win10吗
  • windows8快捷键
  • win8自启动
  • unity控制相机
  • unity血条slider
  • opengl详解
  • div li
  • css浮动和清除浮动
  • unity调用c++封装的dll
  • javascriptcsdn
  • jquery给元素添加属性值
  • python如何做网站
  • ssh远程执行命令返回结果存成本地变量
  • jQuery基本选择器
  • 广东省行业税负率表
  • 怎么登录吉林省公务员网络培训学院
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设