位置: IT常识 - 正文

3DResNet 学习记录(3d representation)

编辑:rootadmin
3DResNet 学习记录

推荐整理分享3DResNet 学习记录(3d representation),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:3d representation,3d resnet网络结构,3d resnet pytorch,resnet训练,3d resnet pytorch,3d representation,3d resnet网络结构,3d resnet pytorch,内容如对您有帮助,希望把文章链接给更多的朋友!

近期同时在进行的两个深度学习项目都需要用到3DResNet模型,本着不做调包侠的心态,还是要好好把模型的原理看一看的。

1、ResNet结构理解

首先先理解一下二维的ResNet吧。

ResNet又名残差结构,残差连接等。何恺明大佬提出这个概念是为了解决深层网络的梯度消失和梯度爆炸的问题,以及收敛深层网络的“退化”问题,从而可以使得网络层数变得更深。(常见层数有18-34-50-101-152层)相较于之前的层数大多在10~20层的网络来说,无疑是在层数上有了非常大的突破。

残差结构的原理,主要是把输入输出的映射从F(x)转换到了H(x)=F(x)+x上,这样做的目的,个人理解是:在网络层数足够深的情况下,在接近网络输出端的层结构中,其上一层的输出x很可能已经无限逼近于最优解,这个时候对于此层的参数调整,就可以给网络一种选择:即把F(x)置0,或者赋予很小的权重,让此层的结构发挥的作用是将上一层的输出完好地送至下一层,保留最佳输出的结果,也就是所谓的“恒等映射”。(identity mapping)

而,传统的卷积层结构来说,要调整至这样一种“不怎么改变输入的”参数结构,显然是不如直接将F(x)置为0来的容易的。本质上这是一种模型复杂度的降低(来自李沐老师的观点),即给网络以一个比较“手动”的引导,去让网络的参数能够逼近于你想要的结构。个人认为,这是残差连接能够加深网络层数的一个比较可以解释得通的理由。

另外,这样一种“学习恒等映射”的方法,它的F(x)也未必一定要完全是0,在输入足够趋近最优解的情况下,可以理解为一种“小幅的,进一步促进输出逼近最优的作用”,像是在训练的尾声阶段把lr调的非常小,那种意思。

2、3DCNN的理解

ResNet3D = ResNet+3DConv 所以有必要先理解一下3DConv的基础知识

3DResNet 学习记录(3d representation)

3DConv与2DConv的区别,首先就体现在了卷积核的参数上。

2DConv的卷积核尺寸一般为:[in_channels,out_channels,W,H]

3DConv的卷积核尺寸一般为:[in_channels,out_channels,W,H,T] T在这里一般是指,需要连续考虑多少帧的参数。

以下图为例:

3DConv的shape讨论:对于3DConv来说,他的输入、特征图都从2DConv的单张featuremap变成了一个在时序上堆叠起来的“series feature map”,而每一个“通道”可以理解为图中的一整“块”,如C2中就可以说是有“两个通道”,因为C2是由H1经过了两个不同的卷积核而输出的。而这一个“通道”中,包含的是一个“series”的feature map,比如第一层3DCNN层中,卷积核的WHT参数分别为[7,7,3],表示卷积核的尺寸为7*7,且每一次需要考虑三个帧的信息。H1中一个特征为7帧,那么经过7*7*3的WHT参数的卷积核之后,就会输出一个54*54*5的特征map,所以这样就可以理解,C2中的54*34*23*2的尺寸的来由。

同样地,对于第二层7*6*3的卷积层,三个不同的卷积核分别卷积S3层的feature series map,得到13*6的shape,注意这里,输出的通道数和卷积核的个数是不相等的,这点与2DCNN不同。就是经过在两个通道卷积后,不是像2DCNN那样把他们的结果叠加起来,而是分别映射到两个通道中,这点是导致两者不同的原因。相当于把两个通道“分开来算”

最后一层C6的卷积层,尺度应该是7*4*78*128,也就是2DCNN中inchannel为78,outchannel为128,这样去卷积。最后输出128个1*1的featuremap之后,再用全连接层连起来输出即可~

总体来看,3DConv相对2DConv来说,最大的区别就在于所有的输入,特征,都变成了时序性的,也就是提升了一个维度。经过这样的时序上的卷积,可以有效地提取输入以及特征图中的时序信息,帮助网络更好的理解视频之类的输入。不过,文章中提到的架构,可以看到第一个Hardwired层是去手动地提取了光流,梯度等特征,并不算是一个“端到端”的结构。

而ResNet3D,只是用残差结构将一个个的3DConv模块连接起来,通过实验科学组成一个效果比较好的网络,感觉应该没有太多需要讲的地方,如果后续有新的理解,前来填坑~

Reference:

(6条消息) ResNet详解——通俗易懂版_sunny_yeah_的博客-CSDN博客_resnet

(6条消息) 残差resnet网络原理详解_mao_feng的博客-CSDN博客_resnet

本文链接地址:https://www.jiuchutong.com/zhishi/298724.html 转载请保留说明!

上一篇:Linux 下使用 C++ 实现的 Web 文件服务器(linux运行c++程序)

下一篇:基于yoloV7-pose添加任意关键点 + 多类别分类网络修改(yolov3实现)

  • 华为mate30pro怎么安装手机卡(华为mate30pro怎么升级鸿蒙系统)

    华为mate30pro怎么安装手机卡(华为mate30pro怎么升级鸿蒙系统)

  • y7000黑屏后唤不醒(y7000黑屏了怎么处理)

    y7000黑屏后唤不醒(y7000黑屏了怎么处理)

  • iphonex插充电器没反应怎么回事(iphonex充电器插头)

    iphonex插充电器没反应怎么回事(iphonex充电器插头)

  • 华为手机进水屏幕闪烁(华为手机进水屏幕失灵)

    华为手机进水屏幕闪烁(华为手机进水屏幕失灵)

  • 快手极速版为什么不转了(快手极速版为什么赚钱越来越少了)

    快手极速版为什么不转了(快手极速版为什么赚钱越来越少了)

  • qq特别关心提示音为什么不响(QQ特别关心提示音叫什么)

    qq特别关心提示音为什么不响(QQ特别关心提示音叫什么)

  • vivo和oppo是一家吗(vivo和oppo是一家不)

    vivo和oppo是一家吗(vivo和oppo是一家不)

  • 为什么没有访问记录(为什么没有访问别人空间却有记录)

    为什么没有访问记录(为什么没有访问别人空间却有记录)

  • 朋友圈提醒谁看对方知道吗(朋友圈提醒谁看对方会有特殊通知吗)

    朋友圈提醒谁看对方知道吗(朋友圈提醒谁看对方会有特殊通知吗)

  • 支付宝怎么设置不让别人看真实姓名(支付宝怎么设置拒绝别人转账给我)

    支付宝怎么设置不让别人看真实姓名(支付宝怎么设置拒绝别人转账给我)

  • 数据库系统与文件系统的本质区别(数据库系统与文件管理系统相比较,数据的冗余度)

    数据库系统与文件系统的本质区别(数据库系统与文件管理系统相比较,数据的冗余度)

  • 怎么把电子版照片换底色(电子版照片怎么弄成纸质版)

    怎么把电子版照片换底色(电子版照片怎么弄成纸质版)

  • 华为智能遥控在哪下载(华为智能遥控在哪)

    华为智能遥控在哪下载(华为智能遥控在哪)

  • oppok1怎么重新启动(oppok1手机如何重启手机)

    oppok1怎么重新启动(oppok1手机如何重启手机)

  • 苹果手机会自动备份吗(苹果手机会自动关机是什么原因导致)

    苹果手机会自动备份吗(苹果手机会自动关机是什么原因导致)

  • 复制在哪里找得到(复制在哪儿找)

    复制在哪里找得到(复制在哪儿找)

  • 抖音动态插件下载安装(抖音动态壁纸安装插件)

    抖音动态插件下载安装(抖音动态壁纸安装插件)

  • 怎么把快手喜欢的清零(怎么把快手喜欢打开)

    怎么把快手喜欢的清零(怎么把快手喜欢打开)

  • 花呗如何还款(花呗如何还款分期)

    花呗如何还款(花呗如何还款分期)

  • 电脑屏幕保护不能设置时间怎么办?(电脑屏幕保护不能设置)

    电脑屏幕保护不能设置时间怎么办?(电脑屏幕保护不能设置)

  • 绿宝树的养殖方法和注意事项(图文)(绿宝树的养殖方法和注意事项视频)

    绿宝树的养殖方法和注意事项(图文)(绿宝树的养殖方法和注意事项视频)

  • 前端框架 Nuxt3 集成axios 配置跨域(前端框架学哪个好)

    前端框架 Nuxt3 集成axios 配置跨域(前端框架学哪个好)

  • 租赁合同管理台账范本
  • 标书费没有发票收据可以入帐吗
  • 企业办理银行承兑汇票的手续费用应计入什么账户
  • 股份有限公司个人所得税缴纳比例
  • 报销销售部门差旅费
  • 企业注销其他应付款可以转入未分配利润吗
  • 分公司分开银行账户付款的好处
  • 2021年旅游免费
  • 缴交社保基金会计分录怎么写?
  • 财务报表有哪些局限性
  • 供货商对账单跨月返利怎么做账?
  • 收到进度款开票如何做账务处理合适呢?
  • 有哪些发票可以开成餐饮服务
  • 出差出了事故怎么处理
  • 去年福利费今年怎么算
  • 调账以前年度损益调整如何结转
  • 预收货款属于资金投入吗
  • 旅游地产房产税
  • 消费满额赠礼
  • 房屋抵债如何确定契税计税依据?
  • 股东撤资退出
  • 拆迁的支出费用包括哪些
  • windos10不显示桌面
  • 资本公积有哪些科目
  • 商场充值卡发票在哪开
  • msgdlg.exe是什么意思
  • win10 累积更新
  • 个人如何办理住房贷款
  • zmweb.exe是什么进程
  • PHP:imagettfbbox()的用法_GD库图像处理函数
  • 开出转账支票补付款项
  • 语音模块作用
  • php 生成opcode
  • 结转应付职工薪酬会计科目
  • 农业公司经营项目有哪些?
  • 深度学习的通道到底是什么?有什么用?(小白可看)
  • nodejs vue
  • packet命令
  • 什么是公司帐户
  • 财务报表年报和汇算清缴的顺序
  • dubbo 实现原理
  • 非货币性资产交换
  • 织梦标签教程
  • 用jdom创建中文的xml文件的方法
  • SQL2008中通过DBCC OPENTRAN和会话查询事务
  • 一般纳税人购入不动产增值税税率
  • 税前扣除凭证按照用途分为哪些
  • 电影剧本稿费多少
  • 施工企业工人工作总结
  • 待抵扣进项税额是什么情况下用的
  • 微信转账报销怎么退回
  • 发票超过密码区一点点
  • 营业收入包括哪几项收入
  • CentOS7下MySQL5.7安装配置方法图文教程(YUM)
  • 偷天换日角色介绍
  • 微软edge浏览器在哪
  • iis怎么打开项目
  • unix系统的文件分为哪三种存取结构
  • windows累积更新
  • win7的开始菜单在哪里
  • windows7如何关闭夜间模式
  • win8打开ie
  • win8创建我的电脑
  • win7系统待机设置
  • 返回场景和音乐的区别
  • ubuntu搭建ss
  • jquery each return
  • ajax的异步是什么意思
  • Unity3D游戏开发(第2版)
  • 浅谈如何培养孩子的注意力
  • node.js ejs
  • node的express
  • dom操作中获取节点的方法有哪几种
  • 面向对象的java语言
  • 西安市交房要交多少钱
  • 电脑上怎么登录个人网络
  • 工资薪金的税收金额是填实际发生还是帐载金额
  • 运输装卸费属于增值税价外费用吗
  • 外经证开错了怎么办
  • 报税软件怎么用
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设