位置: IT常识 - 正文

【yolov6系列一】深度解析网络架构(yolov5官方)

编辑:rootadmin
【yolov6系列一】深度解析网络架构

推荐整理分享【yolov6系列一】深度解析网络架构(yolov5官方),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:yolo6d,yolov5,yolov5s,yolov5m,yolov5,yolov5m,yolov5s,yolo v6,内容如对您有帮助,希望把文章链接给更多的朋友!

在yolov5霸屏计算机视觉领域很久时,六月处美团开源了yolov6,并号称在精度和速度上均超越其他同量级的计算机视觉模型,刚刚瞅了一眼,star已经超过2.8k,脑子里莫名冒出一个词:“国货之光”。

网上基于yolov6的解读有很多,文末会附上美团的官方解读和开源代码的github链接。文本开始yolov6系列,先和大家分享下整个yolov6的网络架构(基于tag0.1版本的yolov6s),后续再基于各个模块根据自己的理解分享给大家。

整体框架

大家如需图中ppt使用,请关注公众号,后台回复ppt 添加微信领取

【yolov6系列一】深度解析网络架构(yolov5官方)

以上为yolov6s整体的网络架构,从图中可看出yolov6网络由四个部分组成:input,backbone,neck以及head。对各个部分的功能和yolov5相同,如backbone用于提取特征,head用于预测。

根据上图的架构图走一遍网络流程:先对输入的图片预处理,对齐成640*640大小的RGB图片,输入到backbone网络中,根据backbone网络中的三层输出,在neck层通过Rep-PAN网络继续输出三层不同size大小的feature map(以下简称fm),输入到最后的head层中,对图像检测的三类任务(分类、前后背景分类、边框)预测,输出最后的结果。

backbone

yolov6s的backbone层参见RepVGG网络的backbone[3],如上图所示(s表示stride, o为outchannel, i为inchannel, 其中o=i表示outchannel=inchannel, o≠i表示outchannel与inchannel无相关性,并非其值一定不相等),由若干RepVGG block(以下RepVGG block简称RVB, RepBlock简称RB)组成。 RVB在训练和部署的时候结构不同,在训练的时候由33的卷积添加11的卷积分支,同时如果输入和输出的channel以及h,w的size一致时,再添加一个BN的分支,三个分支相加输出,在部署时,为了方便部署,直接取3*3的主分支卷积输出。 RB为几个RVB的串联,其中第一个RVB用于特征层的size变化,后面N个RVB 用于特征层的融合,size保持不变。 stem为s=2的RVB,同时输入输出的channel不相同,这样stem的RVB变成: 同时ERBlock5中增加SPPF层: 其中SConv是有conv+BN+ReLu组成: 这样SPPF网络则先通过一个SConv层,特征图h,w的size不变,outchannel变成inchannel的一半,输出做为一个分支,而后经过3个maxpooling层,每个maxpooling的kernel=5,s=1,padding=kernel//2, 每经过一个maxpooling后,fm size均不变,并做为分支。而后通过cat将几个分支在channel维度上相加,得到的size较于SPPF的输入,h,w不变,channel为输入的2倍,最后再通过一个SConv层,通道减半,使得输入和输出的fm size不变。

整个backbone层流程为:输入6406403的图片,通过stem层(s=2)输出为32032032,后面接几个ERBlock,每个ERBlock均做特征层的下采样和channel的增大,每个ERBlock由一个RVB和一个RB组成(ERBlock5多加SPPF层),在RVB中做特征层的下采样,同时channel增大,在RB中对特征层充分融合后输出,最后backbone输出三个fm分别为(2020512, 4040128, 808064)。

neck

Neck层美团官方称其为Rep-PAN,是基于PAN的拓扑方法,如上图所示,类似一种“U”型结构,其中U型左侧从上到下fm的h,w增大,右侧从下到上fm的h,w减小,其中Upsample上采样基于torch官方自带的转置卷积实现: 整个neck层的流程为,U型左侧,从ERB5输出2020512的fm,通过SConv 变成2020128大小,上采样后h,w较之前增大一倍后与ERB4的输出在channel层上concate后fm变成404384,通过一个RB(s=1, o≠i)后,输出 404128,重复上述步骤后,输出808064的fm。U型右侧,将808064的fm先SConv下采样,得到404064的fm,与U型左侧h,w一致的fm在channel层上concate后,通过一个RB(s=1, o≠i),输出第二个fm,重复U型右侧以上步骤,输出第三个fm。至此,neck层输出三个fm分别为(2020256, 4040128, 808064).

Head

如上图,head基于三层输出预测,分别对应了大小不同的从大到小的感受野。

其中BConv是由conv+bn+SiLu组成: 整个head借鉴了yolox中的解耦头设计,并对其做了改进,head流程如下:从neck层输出三个分支,对于每个分支,先对输出fm通过BConv层,做fm的特征融合后,分成两个分支一个分支通过BConv+Conv完成分类任务的预测,另外一个分支先通过BConv融合特征后再分成两个分支,一个分支通过Conv完成边框的回归,一个分支通过Conv完成前后背景的分类,至此三个分支再通过concate在channel层上融合,输出未经后处理的预测结果。

结语

以上为个人理解,yolov6s在0.1版本上的整体网络架构,如有理解偏差,欢迎交流,后续根据yolov6中各个模块中的详细的原理以及代码继续更新,希望对大家有帮助。 参考: [1]https://mp.weixin.qq.com/s/RrQCP4pTSwpTmSgvly9evg(美团官方解读) [2] https://github.com/meituan/YOLOv6(美团官方代码) [3] https://zhuanlan.zhihu.com/p/353697121

本文链接地址:https://www.jiuchutong.com/zhishi/300438.html 转载请保留说明!

上一篇:三维点云预处理之点云去噪(三维点云识别)

下一篇:基于Pytorch的MNIST手写数字识别实现(含代码+讲解)(基于Pytorch的风格转换)

  • htmlcss网页设计网站的策划要符合网站的性质

    htmlcss网页设计网站的策划要符合网站的性质

  • 网店推广有几种方式(网店推广有哪些常见的手段)

    网店推广有几种方式(网店推广有哪些常见的手段)

  • 希沃ppt两侧翻页按键不见了(希沃ppt两侧翻页快捷键)

    希沃ppt两侧翻页按键不见了(希沃ppt两侧翻页快捷键)

  • 原相机和人看到的一样吗(原相机就是别人看到我的真实)

    原相机和人看到的一样吗(原相机就是别人看到我的真实)

  • 苹果有护眼模式吗(苹果有护眼模式没有)

    苹果有护眼模式吗(苹果有护眼模式没有)

  • 显卡为什么不用水冷(显卡为什么不用typec接口)

    显卡为什么不用水冷(显卡为什么不用typec接口)

  • 京东购物打白条有优惠是什么意思(京东购物打白条有利息吗)

    京东购物打白条有优惠是什么意思(京东购物打白条有利息吗)

  • 11pro可以改高通基带吗(11pro能改5g吗)

    11pro可以改高通基带吗(11pro能改5g吗)

  • qq最多发几分钟视频(qq能发超过15分钟的视频吗)

    qq最多发几分钟视频(qq能发超过15分钟的视频吗)

  • 音乐歌词怎么显示在手机屏幕上(音乐歌词怎么显示在视频里)

    音乐歌词怎么显示在手机屏幕上(音乐歌词怎么显示在视频里)

  • dub-aloo是什么型号(due-aloo是什么型号)

    dub-aloo是什么型号(due-aloo是什么型号)

  • iphone11有超广角吗(iphone11有超广角拍摄吗)

    iphone11有超广角吗(iphone11有超广角拍摄吗)

  • 手机卡欠费不交有什么影响(手机卡欠费不交会自动注销吗)

    手机卡欠费不交有什么影响(手机卡欠费不交会自动注销吗)

  • 卖家不发货先投诉还是先退款(卖家不发货先投诉商家)

    卖家不发货先投诉还是先退款(卖家不发货先投诉商家)

  • vsco注册后就要钱吗(vsco一定要注册才能用吗)

    vsco注册后就要钱吗(vsco一定要注册才能用吗)

  • 抖音官方认证怎么取消(抖音官方认证怎么申请)

    抖音官方认证怎么取消(抖音官方认证怎么申请)

  • oppo手机键坏了怎么关机(oppo手机按键坏了怎么重启手机)

    oppo手机键坏了怎么关机(oppo手机按键坏了怎么重启手机)

  • 苹果手机怎么防蹭热点(苹果手机怎么防止丢失)

    苹果手机怎么防蹭热点(苹果手机怎么防止丢失)

  • 哈罗单车能远程开锁吗(哈罗单车能远程解锁吗)

    哈罗单车能远程开锁吗(哈罗单车能远程解锁吗)

  • java三大特征(java的三个特征)

    java三大特征(java的三个特征)

  • 手机照片怎么弄成文件(手机照片怎么弄成pdf)

    手机照片怎么弄成文件(手机照片怎么弄成pdf)

  • 华为nova4可以插内存卡吗(华为nova4可以插两张电信卡吗)

    华为nova4可以插内存卡吗(华为nova4可以插两张电信卡吗)

  • 电脑开机无法启动该怎么解决?(电脑开机无法启动怎么解决)

    电脑开机无法启动该怎么解决?(电脑开机无法启动怎么解决)

  • Vue--》MVVM模型在Vue中的使用(vue的mvvm模型)

    Vue--》MVVM模型在Vue中的使用(vue的mvvm模型)

  • 【平常心无焦虑探讨】未来谁将被淘汰—在日常网络安全工作中使用GPT的感受(平常心下一句该怎么说)

    【平常心无焦虑探讨】未来谁将被淘汰—在日常网络安全工作中使用GPT的感受(平常心下一句该怎么说)

  • 应交税费待抵扣进项税额
  • 出租房屋转为投资房屋
  • 企业利润分配如何缴纳所得税
  • 业务活动成本和业务活动费用的区别
  • 预提的费用在做所得税的时候如何处理
  • 出口托收业务
  • 投资性房地产递延所得税资产怎么算
  • 红字发票需要认证吗之前的发票还有用吗
  • 个人转让土地使用权
  • 所得税汇算清缴分录怎么做
  • 预交所得税比较多怎么办?
  • 建筑 分包
  • 售后回购涉税处理
  • 简易征收和简易计税的区别
  • 电费应收电费和实际电费
  • 现金存入银行会计摘要怎么写
  • 特许权使用费如何确认收入
  • 季报每个月需要反写吗
  • 增值税普通发票可以抵扣吗
  • 报企业所得税的利润总额怎么填
  • 实缴年月正常补收
  • 租赁房产税如何征收的2019
  • 安装预算收入
  • 在建工程完工,并当日签订出租协议的会计分录
  • 增值税发票和电子发票都可以报销吗
  • 银行存款明细账怎么登记及范本
  • 建筑工程总包分包的内容
  • 已认证抵扣的进项税额转出做账的会计处理
  • 前期费用会计分录
  • 汇算清缴专项附加扣除去年忘记填的能补填吗?
  • vb win10
  • 异常发票怎么处理
  • php时间不对
  • php pdo oracle
  • node js 安装
  • 租金和物业管理费税率
  • js轮播图视频教程
  • 应收账款的
  • 在建工程发生的非正常损失计入哪
  • 印花税和工会经费用不用计提
  • 工商银行代发工资多久到账
  • 进项加计抵减会计分录怎么做
  • 无形资产收益额的具体测算方法有
  • 收到货款的会计分录怎么做账
  • 摄影的服务注册是什么
  • 计提制造费用
  • 中小型企业营业额多少
  • 一般纳税人可以给小规模开专票吗
  • 房产税土地税会减免吗
  • 建筑业 分包
  • 施工一个月多少钱
  • 未抵扣进项税额什么意思
  • 冲减上月收入会计分录
  • 现金日记账需要日清月结吗
  • 本月增值税申报截止日
  • sql函数使用
  • 我用u盘装系统
  • watchs2最新版本
  • winxp软件双击后没有反应
  • xp电脑内存占用过高怎么办
  • xp administrator隐藏如何找回解决方案
  • win7升win8要钱吗
  • 升级打装备的手游
  • linux系统中限定系统口令的长度
  • cocos2dx解密
  • js中的原型是什么
  • unity4.5.3f3 和 Android的通信
  • html头像代码
  • 文本左右对齐排版怎么弄
  • 简述javascript中的函数
  • linux两个版本
  • javascript中array的正确写法
  • 税基式减免,税率式减免,税额式减免三者之间的联系
  • 山东国地税合并6月挂牌
  • 北京930末班车时间表
  • 厂房租赁开票税收编码
  • 开专票必须要有规格型号吗
  • 贵州国家电子税务局登录入口
  • 房产税的计税依据及税率
  • 白酒消费税加征
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设