位置: IT常识 - 正文

Transformer前沿——语义分割(inature前沿)

编辑:rootadmin
Transformer前沿——语义分割 Transformer 进军语义分割进军方向SETR: Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR 2021)网络结构图实验效果ADE20K 数据集上效果Pascal Voc 数据集上的效果TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation网络结构图实验效果Synapse multi-organ CT 数据集上的效果SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (NeuralPS 2021)网络结构图实验效果ADE20K和Cityscape数据集上的效果进军方向

推荐整理分享Transformer前沿——语义分割(inature前沿),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:inature前沿,前沿啥意思,前沿官网,前沿什么,前沿在哪里,什么叫前沿,前沿dj,前沿官网,内容如对您有帮助,希望把文章链接给更多的朋友!

   Transformer自2017年诞生之后,迅速在NLP领域攻城略地,在极短的时间内晋升成为NLP领域绝对的霸主。Transformer进军CV领域的行动早在2018年就开始了,但是行进缓慢,直到2020年谷歌再次出手,提出Transformer进军CV领域的里程碑式的神作 ViT ,屠榜ImageNet、CIFAR10、CIFAR100,将Transformer在CV领域的潜力展示给世人,大家深受震撼与启发,随即争相涌入ViT研究浪潮中,直接推动了ViT的蓬勃发展。

   在阐述Transformer在CV领域开疆拓土的行军路线前,简单概括一条范式。基于深度学习的方法解决计算机视觉领域的各种任务,诸如图像分类、目标检测、语义分割、实例分割等,都遵循统一的范式,即,特征提取模块+任务模块。 特征提取模块 + 分类器 = 图像分类网络 特征提取模块 + 检测器 = 目标检测网络 特征提取模块 + 分割器 = 语义分割网络 …   到这里,读者朋友可能已经猜到了,Transformer可以取代语义分割任务中的特征提取模块。但Transformer是否比原本基于 CNN 的特征提取模块更好?答案是肯定的, CNN:级联卷积虽能扩大感受野,但是有效感受野只占理论感受野很小一部分,也就是说,卷积无法直接提取长距离信息;Transformer:提取到的特征向量有更丰富的全局上下文信息。\begin{aligned} CNN &: 级联卷积虽能扩大感受野,但是有效感受野只占理论感受野很小一部分,也就是说,卷积无法直接提取长距离信息;\\ Transformer &: 提取到的特征向量有更丰富的全局上下文信息。 \end{aligned}CNNTransformer​:级联卷积虽能扩大感受野,但是有效感受野只占理论感受野很小一部分,也就是说,卷积无法直接提取长距离信息;:提取到的特征向量有更丰富的全局上下文信息。​    至此,我们了解到,用Transformer取代语义分割中的特征提取模块是可行的,接下来,首先介绍Transformer在语义分割领域的开山制作 SETR

SETR: Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR 2021)

SETR 是 Segmentation Transformer 前两个字母的组合

作者单位是 复旦、牛津大学、萨里大学、腾讯优图、Facebook

网络结构:ViT 特征提取 + 多层次特征融合 + 解码器

网络结构图

  在语义分割中特征提取模块又称编码器,分割器又称解码器,SETR中直接采用 ViT 中 24 层做高层语义上下文建模。    ViT 特征提取:ViT先将输入图像等分为许多个patch,然后通过 展平(Flatten) 和 线性映射(Linear Projection) 操作将这些patch映射为序列,然后加上各自的位置编码,输入Transformer中做特征提取。   多层次特征融合:编码器中包括 24个 Transformer Layer,为了同时获得高层语义和低层语义信息,作者将 第6、12、18、24层的输出结果从序列恢复到二维,然后按通道维度拼接(concat),得到具有丰富语义层次的特征向量。   解码器:采用的传统的 CNN 逐级解码,将特征向量的宽高恢复到原图像大小,扩大宽高的同时缩减通道数为类别数。

实验效果

在ADE20K取得 50.28%的mIoU,这是该数据集首次出现mIoU超过50%的记录,同时在 Pascal Context取得 55.83%的mIoU,均是 STOA效果。

ADE20K 数据集上效果

Pascal Voc 数据集上的效果

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

面向医学图像分割,结合 擅于长距离上下文建模的Transformer 和 擅于捕捉低层细节信息的UNet。

Transformer前沿——语义分割(inature前沿)

作者单位:约翰霍普金斯大学、电子科技大学、斯坦福大学

网络结构:CNN特征提取 + 长距离上下文建模 + UNet解码器

网络结构图

  CNN特征提取:级联卷积提取特征向量,各个stage的输出用于跳跃连接。

  长距离上下文建模:使用12个Transformer层对CNN特征提取模块中得到特征向量,进一步做长距离上下文建模。

  UNet解码器:跳跃连接,逐级解码。

实验效果Synapse multi-organ CT 数据集上的效果

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (NeuralPS 2021)

作者单位:香港大学、南京大学、英伟达、加州理工大学

网络结构:Mix-FFN取代位置嵌入 + Efficient Self-Attention缩减时间复杂度 + Overlapped patch Merging 保留局部连续性 + 极简decoder

网络结构图

  Mix-FFN:ViT中位置编码的分辨率是固定的,在模型测试使用阶段,输入图像的分辨率并不固定,因此如果采用位置编码,则需通过重采样获得位置编码,显然,这会影响模型预测。本文作者认为通过填充零,卷积核尺寸3x3的卷积可以获得位置信息。具体做法是在一个简单的 前馈神经网络(FFN)中加入3x3 Conv,公式表示如下: xout=MLP⁡(GELU⁡(Conv⁡3×3(MLP⁡(xin))))+xin\mathbf{x}_{o u t}=\operatorname{MLP}\left(\operatorname{GELU}\left(\operatorname{Conv}_{3 \times 3}\left(\operatorname{MLP}\left(\mathbf{x}_{i n}\right)\right)\right)\right)+\mathbf{x}_{i n}xout​=MLP(GELU(Conv3×3​(MLP(xin​))))+xin​

  Efficient Self-Attention:作者指出经典的自注意力机制算法时间复杂度为O(N2)O(N^2)O(N2),其中N为序列的长度。在ViT中序列长度 N 通常等于 H*W,其中H、W分别为图像高和宽。作者指出对于高分辨率图像,自注意力机制的时间复杂度太大,因此提出更高效的自制注意力算法。核心步骤为: 1)通过 reshape 操作,将输入序列的shape从N×CN\times CN×C变为NR×CR\frac{N}{R}\times CRRN​×CR,其中R为缩减系数; 2)通过线性映射,将 shape为 NR×CR\frac{N}{R}\times CRRN​×CR 的序列映射为 shape为 NR×C\frac{N}{R}\times CRN​×C 的序列。 SegFormer的四个stage的缩减系数分别为 64、16、 4、1。

  Overlapped patch Merging:本文的作者认为ViT中采用的 patch merging 算法丢失了patch周围的局部连续性信息。因此提出,重叠的patch划分方法,具体做法通过一个宽高为3的窗口,步长为2,边缘填充为1,进行滑动。通过重叠保留了patch周围的局部连续性。

  极简decoder:作者认为特征提取过程中使用的自注意力机制,已经提取到了充分高层的语义特征,因此在解码阶段,无需通过级联卷积进一步提升模型感受野。因此,本文中的解码器只包含几个简单的线性映射和上采样层。

实验效果ADE20K和Cityscape数据集上的效果

面向移动设备的TopFormer (CVPR 2022),医学分割 DS-TransUNet,…

本文链接地址:https://www.jiuchutong.com/zhishi/299608.html 转载请保留说明!

上一篇:Opencv(C++)系列学习---opencv_contrib安装(opencv1.0)

下一篇:TypeScript(typescript中文文档)

  • 抖音号可以改吗(抖音号可以改吗可以改几次)

    抖音号可以改吗(抖音号可以改吗可以改几次)

  • 支付宝怎么给手机充话费(支付宝怎么给手表充钱)

    支付宝怎么给手机充话费(支付宝怎么给手表充钱)

  • 安装软件setup停止工作(安装软件setup 没反应)

    安装软件setup停止工作(安装软件setup 没反应)

  • 手机微博怎么设置投票(手机微博怎么设置水印)

    手机微博怎么设置投票(手机微博怎么设置水印)

  • 优酷如何切换账号(优酷如何切换账号密码)

    优酷如何切换账号(优酷如何切换账号密码)

  • 微信口令是什么(请问微信口令是什么)

    微信口令是什么(请问微信口令是什么)

  • 抖音删除评论对方知道吗(抖音删除评论对号有影响吗)

    抖音删除评论对方知道吗(抖音删除评论对号有影响吗)

  • sinmwfs是啥牌子开关(sinmens是什么品牌)

    sinmwfs是啥牌子开关(sinmens是什么品牌)

  • pdf可以直接编辑吗(pdf可以直接编辑原图吗)

    pdf可以直接编辑吗(pdf可以直接编辑原图吗)

  • 微信发送聊天记录怎么发送(微信发送聊天记录怎么发)

    微信发送聊天记录怎么发送(微信发送聊天记录怎么发)

  • 物联卡装手机上怎么用(物联卡装手机上不显示5G)

    物联卡装手机上怎么用(物联卡装手机上不显示5G)

  • 红米Note8充电为什么那么慢(红米note8pro充电异常)

    红米Note8充电为什么那么慢(红米note8pro充电异常)

  • lraaloo是什么型号(lora是什么牌子)

    lraaloo是什么型号(lora是什么牌子)

  • p40微信拍照模糊(p40微信拍照不清晰)

    p40微信拍照模糊(p40微信拍照不清晰)

  • 家里网线口不通怎么办(家里网线插口用不了)

    家里网线口不通怎么办(家里网线插口用不了)

  • iphonex黑屏没反应(iphone x黑屏但是机器是开着的)

    iphonex黑屏没反应(iphone x黑屏但是机器是开着的)

  • 为什么交了网费还是没网(为什么交了网费还没有网)

    为什么交了网费还是没网(为什么交了网费还没有网)

  • 快手换头像会不会影响上热门(快手换头像不显示)

    快手换头像会不会影响上热门(快手换头像不显示)

  • ipad a1432是mini几(a1432是ipad mini第几代)

    ipad a1432是mini几(a1432是ipad mini第几代)

  • 计算机网络是计算机技术和什么(计算机网络是计算机技术与什么结合的产物)

    计算机网络是计算机技术和什么(计算机网络是计算机技术与什么结合的产物)

  • 荣耀20对比荣耀20s(荣耀20对比荣耀20a)

    荣耀20对比荣耀20s(荣耀20对比荣耀20a)

  • 华为建立了什么管端战略(华为的建立过程)

    华为建立了什么管端战略(华为的建立过程)

  • xsmax无线充电几瓦(xs max 无线充电)

    xsmax无线充电几瓦(xs max 无线充电)

  • 电脑手写键盘怎么设置(电脑手写键盘怎么连接)

    电脑手写键盘怎么设置(电脑手写键盘怎么连接)

  • vivox23掉水里了怎么办(vivox27掉水里)

    vivox23掉水里了怎么办(vivox27掉水里)

  • id卡和ic卡的区别(ic id 卡区别)

    id卡和ic卡的区别(ic id 卡区别)

  • 苹果电话号码怎么转到新手机(苹果电话号码怎么导入安卓手机)

    苹果电话号码怎么转到新手机(苹果电话号码怎么导入安卓手机)

  • 滴滴司机能选乘客数量吗(滴滴司机可以选乘客吗)

    滴滴司机能选乘客数量吗(滴滴司机可以选乘客吗)

  • 苹果手机为什么下载不了网易云音乐(苹果手机为什么关不了机了呢)

    苹果手机为什么下载不了网易云音乐(苹果手机为什么关不了机了呢)

  • 行距28磅怎么设置(行距28.9磅怎么设置)

    行距28磅怎么设置(行距28.9磅怎么设置)

  • 数学建模-回归分析(Stata)(数学建模回归模型例题)

    数学建模-回归分析(Stata)(数学建模回归模型例题)

  • 企业所得税年报申报时间
  • 纯外贸企业出口到运费可以抵扣吗
  • 公司员工住宿费怎么入账
  • 企业所得税计提分录
  • 公司有食品流通证能卖保健品吗
  • 总公司向子公司收取管理费如何纳税
  • 个税个人减免
  • 土地补偿款收入要交什么税
  • 退休工资的个人账户怎么算
  • 预收账款核销的流程
  • 微信支付的钱到哪里去了
  • 应收票据借方表示负债吗
  • 税控系统技术维护费抵扣如何填报
  • 固定资产金额小于5000元,可以不一次性税前扣除吗
  • 购买国债兑现时要交税吗
  • 营业外支出用什么账户
  • 小规模纳税人的税率是多少
  • 公司旅游的费用怎么算
  • 运费从货款中扣除后付款分录怎么做
  • 非公开发行股票是利好还是利空
  • 企业签订的借款合同印花税
  • 税务部门罚没收入计入什么科目
  • 公司开承兑出去 利息怎么算
  • macbookpro常见问题
  • 固定资产大修理支出计入什么科目
  • php笔记程序
  • 语音模块作用
  • Laravel中七个非常有用但很少人知道的Carbon方法
  • 可以享受企业所得税加计扣除的有
  • 个人所得税减免政策2023
  • php生成二维码海报
  • 数组 php
  • 查看redis节点
  • redux-tookit
  • php jsondecode
  • Navicat for MySQL 15 v15.0.27 中文企业正式版(附安装教程) 32/64位 破解版
  • 稽查增值税跨年了销项税额如何转出
  • 自产农产品免征个人所得税吗
  • 小企业会计准则调整以前年度费用分录
  • 金融资产发生减值的客观证据包括哪些
  • 帝国cms登录
  • pythonjam怎么用
  • 技术使用费所得怎么算
  • 公司借款利息可以约定由某一股东承担
  • mysql创建数据库的操作步骤
  • 土地出让合同的法律效力
  • 公司缴纳的残保金是什么
  • 食堂采购原材料怎么在赣溯源备案
  • 闽侯县安置房交易缴纳土地出让金
  • 委托代理出口如何缴纳增值税
  • 研发支出 期末
  • 支付临时工的工资计入应付职工薪酬吗
  • 残疾人就业保障金怎么申报
  • 小规模汽车维修管理制度
  • 公司食堂招待客户,客户付了钱怎么入账
  • 商业银行存款业务规则
  • mysql日志记录
  • 关机并重启是怎么回事
  • windows vista电脑
  • 微软推出copilotpro订阅
  • windows7键盘
  • 怎么用代码设置选项
  • win8如何激活
  • win7右键设置方法
  • win8.1无法安装vmware tools
  • js 正则验证
  • Android游戏开发教程
  • javascript数据结构与算法第三版
  • bootstrap表单模板
  • 我决定放弃了你却对我笑了
  • 编写程序实现将两个文本文件的内容合并
  • 运算符优先级由高到低的顺序
  • nodejs实战
  • 批处理延迟变量
  • 云南省税务局咨询电话
  • 深圳海吉星管理处电话
  • 酒席发票
  • 电脑上怎样安装word文档
  • 新能源车需要缴纳购置税吗?
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设