位置: IT常识 - 正文

可解释深度学习:从感受野到深度学习的三大基本任务:图像分类,语义分割,目标检测,让你真正理解深度学习

编辑:rootadmin
可解释深度学习:从感受野到深度学习的三大基本任务:图像分类,语义分割,目标检测,让你真正理解深度学习

推荐整理分享可解释深度学习:从感受野到深度学习的三大基本任务:图像分类,语义分割,目标检测,让你真正理解深度学习,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

目录

前言

一、初识感受野

1.1猜一猜他是什么?

1.2人眼视觉系统下的感受野

1.3深度神经网络中的感受野

1.3.1感受野的性质

1.3.2感受野的定义

1.3.3举一个例子

1.3.4以VGG网络为例

二、感受野的计算

2.1 哪些操作能够改变感受野?

2.2 感受野的计算公式

2.3 感受野的中心位置计算

2.4 感受野中心计算示例

三、有效感受野

3.1有效感受野的概念

3.2有效感受野的计算

3.3感受野每个位置的贡献度

3.4有效感受野为什么重要?

3.5感受野越大越好?

四、用感受野来解释深度学习的基本任务

4.1分类网络

4.1.1分类网络的发展

4.1.2 感受野如何影响分类网络(Resnet为例)

4.1.3感受野是不是越大越好

4.2检测网络

4.2.1检测网络的发展

4.2.2感受野如何影响检测网络

4.3分割网络

4.3.1分割网络的发展

4.3.2你如何设计分割网络

前言

深度学习一直作为一个“盲盒”被大家诟病,我们可以借助深度学习实现端到端的训练,简单,有效,但是我们并不了解神经网络的中间层到底在做什么,每一层卷积的关注点是什么。

我在之前的专题浅谈图像处理与深度学习中提到,我们在深度学习刚开始的时候,我们要实现一个任务,比如:把不清晰的图像变清晰,我们随意的搭建了三层网络,然后开始训练,发现效果比传统的图像处理方法好,而且简单有效,然后我们再随意的搭建四层网络,发现四层网络比三层网络效果还好,我们也许有一种感性的认识:随着网络层的增加,网络的参数的增加,网络能够学习到更多的特征。这个结论有一定道理,但是又不完全的有道理。

2015年,Resnet网络横空出世,该网络表明不断地堆叠网络,网络反而会出现“退化”的情况,我们我们可以从公式的角度来推断残差网络如何规避梯度消失,即使在梯度很小的时候,残差网络的反向传播也很难得到一个小的梯度(我们需要明白一个关键:神经网路参数的更新的原动力就是梯度,我们需要沿着梯度的负方向进行迭代,如果反向传播的时候没有梯度,那网络就会停止更新),所以,网络的层数并不是越多越好。

而感受野告诉我们:网络层越深,感受野越大(具体的我们接下来讲)。

根据这三个个结论:1.网络并不是越深越好  2.网络越深,感受野越大 3.我们需要在精度和性能两个方面做平衡  根据这三个结论,我们也许就能设计出自己的神经网络!

本专题主要参考B站UP启释科技,该UP对感受野的研究已经出神入化!

一、初识感受野1.1猜一猜他是什么?

 从左往右,图片越来越大,我们人眼看到的信息越来越多,我们在看第一幅图像的时候,我们也许识别不出他是蝴蝶,随着图像的增大,也就是我们人眼的视野越来越大,我们人眼接触到的信息越来越多,我们能够逐渐分辨出它的类别。

1.2人眼视觉系统下的感受野

 “感受野”这个词一开始来源于人眼视觉系统,如上图所示(该图是摄像机拍摄的),我们人眼聚焦这幅图像的中心点位置,我们发现我们只能看清楚中心区域的物体,而边缘的物体是模糊的,人眼真实看到的图如下图所示。

1.当盯着某个点看,保持眼球不转动的前提下,此时只有该点区域是“清晰的”,而其他周围区域是模糊的。

2.只有不停转动眼球,才能连续看清不同的区域。

所以,我们总结了

人眼视觉系统感受野的三大特性:

A.视野大

B.关注中心

C.周围模糊

1.3深度神经网络中的感受野1.3.1感受野的性质

在深度卷积神经网络中,每个神经元节点都对应着输入图像的某个确定区域,仅该区域的图像内容能对应神经元的激活产生影响,那么这个区域称之为该神经元的感受野。

 如上图所示:浅灰色为输入图像(下),深灰色为卷积之后的特诊图(上),深灰色(特征图)上红色点在浅灰色(输入图像)像上的感受野就如浅灰色上的黑色区域表示。也就是所,红色点能够“看到”黑色区域的大小,这个黑色区域称为红点的感受野,或者说,该黑色区域影响了红点的输出,其中黑色区域中心的白色区域表示对红点的输出起决定性作用,这也表明,神经网络中的节点也关注感受野的中心区域,或者说,神经网路对感受野的每个区域的关注程度是不同的。

1.3.2感受野的定义

A.越靠近感受野中心的区域越重要

这一点,和人眼的感受野特性一直。

B.各向同性

就是沿着中心对称的位置,感受野对神经元的输出的影响程度是相同的。

C.由中心向周围的重要性衰减速度可以通过网络结构控制

这一点比较难理解,但这一点也是最关键的,他是引出“有效感受野”的关键。我们知道,神经元节点最关注感受野的中心区域(也就是黑色区域中的白色区域),而中心区域的其他区域或许神经元节点也能够“看到”,但是,这部分区域对神经元的输出起不到什么作用,就像我们在一开始讲人眼视觉系统下的感受野的时候,我们也可以注意到中心区域外的模糊区域,但是我们很难通过这个模糊区域判断出物体类别。感受野由黑色区域(不重要区域)和白色区域(中心区域)组成,从白色区域到黑色区域的过程就叫重要性的衰减速度。感受野一样大的前提下,白色区域越大,衰减速度越慢,而重要性的衰减速度又可以通过网络结构来控制,也就是我们可以通过设计网络,来调整重要性的衰减速度!

1.3.3举一个例子

 如上图所示,这一个以卷积过程,不是一个全连接,大家要注意。

我们有15个输入节点,通过四层卷积运算,得到最后5个输出节点,其中,中间的绿色节点的感受野为11(红色节点)。这里我提一个问题:绿色节点的感受野是11个红色节点,那这11个红色节点对绿色节点的输出的影响程度是一样的吗?

显然是不一样的,我们根据之前的结论,中间的节点对神经元的输出起决定性作用。那么,我们如何计算或者如何描述11个节点对绿色节点的重要程度?我们可以用边数来表示,边数就是卷积的次数,我们有理由相信,卷积次数越多,对神经元的影响越大。我们一次计算这11个节点到绿色节点的边数。

输入点重要程度定义为:影响后续卷积计算的次数

如上图:感受野大小为11(最后的绿色输出有11个红色输入决定),其中每个节点重要程度依次为(11个节点与绿色输出形成的边):5-13-24-31-36-37(中间)-36-31-24-13-5。

通过重要程度的计算,我们也可以进一步验证感受野的几个特性,中间节点确实是最重要的,中间对称的位置的重要程度确实是一样的!

1.3.4以VGG网络为例

如右图所示,我们输入图像的大小为224x224,VGG13的感受野为348x348......

 A.以VGG13(B)/VGG16(D)/VGG19(E)为例,计算分类前一层的神经元感受野大小。

B.分类准确率:VGG16要明显好于VGG13,而VGG19只是比VGG16高一点。

 这里我提两个问题:

1.VGG13-19的感受野的大小都要大于输入图像(224x224),为什么?

神经网络的感受野和人眼一样,我们刚刚提到,我们一看到图像的部分信息的时候(如下图),我们很难判断他是什么,神经网络也是,我们要准确的判断图像的物体的时候,我们是不是要观察整幅图像?我们通过局部信息就来判断物体始终是不准确的。所以,神经网络的感受野起码要大于原图。

可解释深度学习:从感受野到深度学习的三大基本任务:图像分类,语义分割,目标检测,让你真正理解深度学习

2.感受野是不是越大越好?

对于这个问题,等介绍了有效感受野之后再解释。

二、感受野的计算2.1 哪些操作能够改变感受野?

A.卷积

B.反卷积

C.空洞卷积

D.池化

上面几个操作很好理解,下面两个操作我认为是容易被忽略的:

E.残差结构

F.Concat操作

2.2 感受野的计算公式

 通过这个公式,我们可以发现:感受野的大小主要和卷积的步长有关!

感受野的增速,是直接和步长的累乘相关,想要网络更快速的达到某个感受野尺度,可以让步长大于1的卷积核更靠前,这样做还有一个好处就是大大增加了网络的推理速度,因为特征图的分辨率会迅速变小。

2.3 感受野的中心位置计算

刚刚计算了感受野的大小,我们还要确定感受野的坐标。比如,我么确定了感受野的大小,我们再来确定该感受野上,左上角的坐标。

2.4 感受野中心计算示例

三、有效感受野3.1有效感受野的概念

1.有效感受野指的是一种现象:

感受野(RF,Receptive Field)中的每个位置均会对相应神经元的激活产生影响,但并不是所有位置的贡献都相等。这种位置‘歧视’现象就是有效感受野(ERF,Effective Receptive

Field)的主要内涵。

2.有效感受野是神经网络的能在属性,当网络结构确定,有效感受野的相关特性即确定。

3.即使感受野大小一样的情况下,因网络结构的不同,其有效感受野的特性也会有所不同

如下图所示,有效感受野其实就是白色区域,在下面两幅图中,我们发现,即使两个网络不同,但是他们的感受野是一样大的,最主要的区别就是他们的有效感受野不同,而有效感受野决定了神经元的输出,在分类、检测、分割任务中,有效感受野越大,网络捕获的信息越大,识别的精度越大,所以右图的网络的识别精度是要好于左边的。

 W. Luo, Y. Li, R. Urtasun, and R. Zemel, “Understanding the effective receptive field in deep convolutional neural networks,” in Proc. 30th Int. Conf. Neural Inf. Process. Syst., 2016, pp. 4905–4913.

3.2有效感受野的计算

1.有效感受野是一种现象,其本身是无法被计算的,但是感受野中的每个位置的重要程度是可以被计算的,所有位置的重要程度能够反映有效感受野的存在。

2.目前,比较主流的做法是(图论):把CNN的整个计算看成一个3D的有向图,从低层节点指向高层节点。计算RF中某个输入节点对于高层某个神经元节点的贡献度:

A.计算输入节点到神经元节点的所有路径

B.统计所有路径包含的边,去掉重复的边

C.边的条数即为该输入节点的贡献度

这种图论的方法就是之前计算过得,数他的“边数”。

3.3感受野每个位置的贡献度

将每个感受野中位置的贡献画出来,就会呈现出一个类似二元高斯函数的三维图像。

 我们通过该图,我们也可以验证,感受野的三个特性:

A.中间贡献度最大

B.各向同性

C.向四周逐渐衰减

3.4有效感受野为什么重要?

1.通过有效感受野,可以知道神经网络到底在关注哪里,有多关注!

2.知道分类、检测、分割网络的设计(多深)->在性能和精度上做平衡!

3.一个进一步探索网络可解释性的有效手段

神经网络一直被大家诟病是一个黑盒,输入到结果中间完全不可知。有效感受野有可能是一把钥匙,帮助我们去理解神经网络的行为

3.5感受野越大越好?

这是前面遗留下来的问题,我们之前提到,当神经网络能够看到整幅图像的时候,识别能力是最准确的,即使VGG13-19网络的感受野都大于了原图,但是,他们的有效感受野并不一定大于原图。我们知道,有效感受野才决定了神经元节点的输出,所以,感受野越大越好,我们不断增大感受野,才能相对增大有效感受野,当有效感受野能够覆盖全图的时候,神经网络的识别能力才是最强的!

四、用感受野来解释深度学习的基本任务4.1分类网络4.1.1分类网络的发展

 Resnet网络其本质就是增大特征图的感受野!

4.1.2 感受野如何影响分类网络(Resnet为例)

 我们可以发现:随着网络层数增多,感受野增大,识别误差减小!

4.1.3感受野是不是越大越好

这里系统说一下:

A.当有效感受野的区域能够覆盖全图时,这时候神经网络的表征能力是最强的。

B.感受野的大小并不完全决定性能,而是和有效感受野相关,而有效感受野的特性由网络结构决定。

C.有效感受野和网络的结构有关,网络结构确定,有效感受野便确定了,所以提高结构的优越性比单纯增加感受野更感受野更加有效。

4.2检测网络4.2.1检测网络的发展

 4.2.2感受野如何影响检测网络

分类网络的输出是一个值,检测网络的输出是多个值(3x3=9个值)。这3x3的输出代表什么?它对应了9个位置的感受野,如上图所示,上面的特征图(蝴蝶),下面是原图(灰色矩形),红色的9个点就是3x3的输出,每个红点对应了原图上的一个区域,这个区域就是感受野。

检测网络的训练,可以视为一种高效率的分类网络训练,框的回归可视为附带干的事情。每个感受野对应一幅输入图像,每个用于预测的神经元节点都会有一个类别标签所有的输入图像都共享着同样一个分类网络。

那么“高效”体现在哪里?

9个值对应9个区域的感受野,就可以识别9个区域的类别。相比图像识别,我们一幅图只能输出一个值,也就是一个类别。

4.3分割网络4.3.1分割网络的发展

4.3.2你如何设计分割网络

 我要去确定该该像素的类别,我们怎么做?

一个像素没有其他的关联信息,很难做出判断,所以我们要以该像素为中心,裁剪出不同大小的图像,然后针对不同大小图像设置单独的分类器(图像的尺寸会影响最后全连接层的设计),最后进行集成(非常耗时,而且效率低,准确率低)。

 

方法1:针对不同尺寸的block训练单独的分类器,然后将所有的block的分类结果进行集成。

方法1就是上面提到的传统的做法。

方法2:设计一种网络结构,能够同时耦合不同block的特征表示,然后直接在耦合特征图上进行分类。

我们同时耦合不同的block其实就是耦合不同的感受野,那我们之前提到,什么结构可以耦合不同的感受野?

一种固定大小的感受野就可视为一种尺寸的block,耦合不同大小感受野的特征

A:使用空洞卷积(不同的rate可以获取不同的感受野大小)或直接用Pyramid Pooling,然后跳连或者拼接

我们可以控制空洞卷积的rate,来融合不同大小的感受野!

B:使用encode-decode结构,将encode阶段的特征图拼接至decode阶段的特诊图上。

 如何高效耦合更多尺寸感受野特征是分割网络考虑的重点

本文链接地址:https://www.jiuchutong.com/zhishi/299912.html 转载请保留说明!

上一篇:IDEA从零到精通(24)之lombok插件的安装与使用(idea实用技巧)

下一篇:Vue中JSX的基本用法(vue中使用jsx语法)

  • 佳能相机busy怎么消除(佳能相机没反应怎么回事)

    佳能相机busy怎么消除(佳能相机没反应怎么回事)

  • 拼多多0元下单怎么取消订单(拼多多0元下单逾期了还款后多久可以使用)

    拼多多0元下单怎么取消订单(拼多多0元下单逾期了还款后多久可以使用)

  • vivox50电池是多大的(vivo x50的电池是多少)

    vivox50电池是多大的(vivo x50的电池是多少)

  • 小米k30电信卡用不了怎么办(小米k30电信卡用不了流量)

    小米k30电信卡用不了怎么办(小米k30电信卡用不了流量)

  • 电脑版WPS宋体字二号字怎么设置(wps的宋体不见了)

    电脑版WPS宋体字二号字怎么设置(wps的宋体不见了)

  • 手机qq音乐桌面怎么显示歌词(手机qq音乐桌面歌词怎么变颜色)

    手机qq音乐桌面怎么显示歌词(手机qq音乐桌面歌词怎么变颜色)

  • 蓝牙耳机怎么关(蓝牙耳机怎么关掉触摸控制)

    蓝牙耳机怎么关(蓝牙耳机怎么关掉触摸控制)

  • 用微信怎么举报没有加的人(微信怎么举报群聊微信)

    用微信怎么举报没有加的人(微信怎么举报群聊微信)

  • 不收微信红包怎样知道发了多少(不收微信红包怎么回复)

    不收微信红包怎样知道发了多少(不收微信红包怎么回复)

  • 云闪付功能介绍(云闪付详细介绍)

    云闪付功能介绍(云闪付详细介绍)

  • 荣耀30发布时间(荣耀10上市时间和价格)

    荣耀30发布时间(荣耀10上市时间和价格)

  • 电脑进水黑屏电源还亮(电脑进水黑屏电源灯闪烁)

    电脑进水黑屏电源还亮(电脑进水黑屏电源灯闪烁)

  • 11屏幕发黄(11屏幕发黄怎么调节回来)

    11屏幕发黄(11屏幕发黄怎么调节回来)

  • zukz2强制恢复出厂设置(zukz2pro强制恢复出厂设置)

    zukz2强制恢复出厂设置(zukz2pro强制恢复出厂设置)

  • 12306订票后多久取票(12306订票多久退不用手续费)

    12306订票后多久取票(12306订票多久退不用手续费)

  • 为什么一个路由器有两个wifi信号(为什么一个路由器有网另一个没有)

    为什么一个路由器有两个wifi信号(为什么一个路由器有网另一个没有)

  • 白天夜览对眼睛好吗(白天看夜间模式好吗)

    白天夜览对眼睛好吗(白天看夜间模式好吗)

  • 为什么酷狗不显示桌面歌词(为什么酷狗不显示专辑图片)

    为什么酷狗不显示桌面歌词(为什么酷狗不显示专辑图片)

  • 计算机声卡和视频卡无法使用(计算机声卡视频卡无法使用)

    计算机声卡和视频卡无法使用(计算机声卡视频卡无法使用)

  • 抖音上的好友怎么不显示了(抖音上的好友怎么突然没有了)

    抖音上的好友怎么不显示了(抖音上的好友怎么突然没有了)

  • 分辨率300dpi什么意思(分辨率300dpi是英寸还是厘米)

    分辨率300dpi什么意思(分辨率300dpi是英寸还是厘米)

  • portal00a是华为什么手机(potal00a华为手机型号)

    portal00a是华为什么手机(potal00a华为手机型号)

  • m1803e1a是什么型号(m1803e7sg是什么型号)

    m1803e1a是什么型号(m1803e7sg是什么型号)

  • 苹果蓝牙耳机开机键在哪(苹果蓝牙耳机开机键在哪图解)

    苹果蓝牙耳机开机键在哪(苹果蓝牙耳机开机键在哪图解)

  • web前端是啥意思(前端web是什么意思)

    web前端是啥意思(前端web是什么意思)

  • 目录自动生成页码(目录自动生成页码不对齐)

    目录自动生成页码(目录自动生成页码不对齐)

  • 加装固态后如何安装系统(固态硬盘安装系统图解)(加装固态后如何分盘)

    加装固态后如何安装系统(固态硬盘安装系统图解)(加装固态后如何分盘)

  • 怎么注册滴滴快车司机(怎么注册滴滴快车司机客户端)

    怎么注册滴滴快车司机(怎么注册滴滴快车司机客户端)

  • 【Web 安全】XSS 攻击详解(web安全什么意思)

    【Web 安全】XSS 攻击详解(web安全什么意思)

  • 残保金滞纳金能抵扣吗
  • 股权投资公司属于金融企业吗
  • 其他应收款利息收入会计分录怎么写
  • 对外销售的材料的成本应计入什么账户
  • 库存商品采用定价法
  • 进口代收业务
  • 城市生活垃圾处理收费管理办法
  • 收资料费怎么入账科目
  • 分配结转制造费用会计分录怎么写?
  • 有限合伙企业收益分配
  • 以前年度亏损本季度盈利所得税
  • 创可贴属于什么费用科目
  • 税费种认定功能在哪里
  • 营改增后消费型增值税怎么算及举例说明
  • 进项税额转出怎么填申报表
  • 购销合同的会计分录怎么写
  • 季度利润表本月数和本年累计数
  • 作废已开具的普通发票
  • 公司为职工购买社保只购买三险可以吗
  • 出口的增值税到底怎么算的
  • 公司章程出资时间怎么填写
  • 什么是研发投入和成本
  • 公司上市前缩股
  • 可转债发行费用税前扣除
  • uniapp全局对象
  • YunDetectService.exe是什么进程?YunDetectService.exe禁止使用的方法
  • 网页视频播放不流畅原因
  • opera software
  • 发生额怎么算
  • 房贷贷款利息计算
  • 分配结转制造费用时借方科目
  • 绿萝怎么扦插?
  • 企业缴纳职工社保是否可以缴纳三险
  • 两只小北极熊
  • 企业职工福利费包括哪些内容
  • 增值税退税要准备什么资料
  • 对于企业无法支付的应付账款
  • html 教程
  • uniapp微信小程序兼容
  • 购销合同印花税税率
  • 企业的日常活动都有哪些
  • 店面收回转让费怎么办
  • 收回上年度拨款怎么做账
  • 税金及附加可以结转吗
  • 个税专项附加扣除标准调整
  • 国税发1997191号文有效吗
  • 冲以前年度成本分路
  • 房屋出租简易计税进项税额需要转出么
  • 预提费用在汇算清缴时调整
  • 租金收入如何分红给股东
  • 顺风车没有发票是否合法
  • 长期待摊费用摊销计算公式
  • 金蝶财务软件服务器
  • jdbc连接mysql数据库步骤
  • ubuntu系统安装无线网卡驱动
  • ssh debian
  • solaris 11.3
  • 电脑怎样进入安全模式
  • ubuntu中用root删除文件夹
  • linux arp -n
  • 蓝屏错误疑难解答win7
  • Win8.1不借助第三方软件怎么给文件夹加密并隐藏
  • windows8快速关机
  • win10系统如何设置不休眠
  • cocos2dx 3.1 cpp版本转lua版本 mac
  • unix中创建新文件
  • python获取当前路径的方法
  • android基础教程
  • linux监控cpu使用率脚本
  • unity自动寻路
  • Linux中的host命令应用实例详解
  • python 类的用法
  • unity异步加载场景
  • js正则表达式变量
  • android listview数据动态加载
  • Android-Universal-Image-Loader 图片异步加载类库的使用
  • 云南国税局官网网站
  • 一般纳税人每月开票金额有限额吗
  • 武汉税务电话号码
  • 房屋增值税和土地增值税
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设