位置: IT常识 - 正文

Vision Transformer 模型详解

编辑:rootadmin
Vision Transformer 模型详解 目录前言模型结构实验总结Question Summary前言

推荐整理分享Vision Transformer 模型详解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

虽然说transformer已经是NLP领域的一个标准:BERT模型、GPT3或者是T5模型,但是当年

Vision transformer 提出时用transformer来做CV还是很有限的; 在视觉领域,自注意力要么是跟

卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持

整体的结构不变; ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,因为其

模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域

应用的里程碑著作,也引爆了后续相关研究。

模型结构

作者将transformer结构去除掉decoder部分后经过改进将其运用到视觉领域。vision transformer模型结构主要包括三部分:

patch embeding 部分transformer encoder部分MLP head部分。

整个模型结构可以分为五个步骤进行:

1、将图片切分成多个patch。

2、将得到的patches经过一个线性映射层后得到多个token embedding。

3、将得到的多个token embedding concat一个额外的CLS token,然后和位置编码相加,构成完整的encoder模块的输入。

4、 将相加后的结果传入Transformer Encoder模块。

5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。

Transformer Block:

Layer Norm层:标准归一化,为了更好的收敛。MHA层:多头自注意力机制输入和输出做残差连接Layer NormMLP层: Linear + GRLU +Linear +Dropout

L个Transformer Block 构成一个完整的Transformer Encoder模块。经过Transformer Block 后维度不变。

实验

Vision Transformer 模型详解

给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的。 用vision transformer 模型和卷积神经网络(resnet)做了对比,实验发现在中小数据集上,

卷积神经网络的效果比vit模型的效果要好(原因在Question Summary)。随着数据及规模的增大,

ViT模型的效果要逐渐优于卷积神经网络的效果。

用vision transformer 模型和卷积神经网络(resnet)以及Hybrid结构(混合结构)做了对比,

结果相同,同时Hybrid结构在中小型数据集上也能够达到能好的性能(毕竟结合了卷积神经网络和

Transformer的优点),但随着数据集的增大,发现Transform的结构要比Hybrid结构性能优秀。 作者还做了关于自注意力机制的实验,从实验结果我们可以看出,模型可以很好的利用自注意力机制学习到图片的特征。 做了关于CLS Token和GAP以及关于不同维度的消融实验。ViT模型最后利用CLS Token做分类预

测,而卷积神经网络则是利用GAP(全局平均池化),从实验结果可以看出,CLS Token 可以和

GAP 达到同样的效果,但是要求不同的学习率。

总结

如果在足够多的数据上做预训练,也可以不需要卷积神经网路,直接使用标准的Transformer也能够

把视觉问题解决的很好;尤其是当在大规模的数据上面做预训练然后迁移到中小型数据集上面使用的

时候,Vision Transformer能够获得跟最好的卷积神经网络相媲美的结果。

Question Summary

在中小型数据集上,ViT模型不如卷积神经网络的原因:

卷积神经网络存在归纳偏置:locality 和translation equivariance。有了归纳偏置后,就有了先验知识,可以利用较少的数据去学习一个比较好的模型,而transformer没有先验知识,所以需要数据自己学习,所以在大数据集上的性能比中小数据集上。

位置编码:

如果不标注位置,在Transform看来图片就是一样的,所以需要加上位置编码。

CLS Token:

在NLP的分类任务中,被看作一个全局的对句子的理解,在这里可以看作一个图像的整体特征。

MLP Head:

一个通用的分类头,最后用交叉熵函数进行模型的训练。

论文:原论文链接 代码:pytorch代码

本文链接地址:https://www.jiuchutong.com/zhishi/294588.html 转载请保留说明!

上一篇:vue:聊天对话框的实现(vue聊天系统)

下一篇:【uni-app】小程序实现微信授权登陆(附流程图)(unigui 小程序)

  • 怎么操作博客推广(怎么操作博客推送)

    怎么操作博客推广(怎么操作博客推送)

  • 微机的关机顺序是什么(微机的关机顺序是和开机顺序一样)

    微机的关机顺序是什么(微机的关机顺序是和开机顺序一样)

  • 取消公众号对方知道吗(公众号取消后个人信息回会被注销吗)

    取消公众号对方知道吗(公众号取消后个人信息回会被注销吗)

  • 苹果11promax什么时候上市的(苹果11promax什么处理器)

    苹果11promax什么时候上市的(苹果11promax什么处理器)

  • qq哪些背景是免费的(qq哪些背景是免流量的)

    qq哪些背景是免费的(qq哪些背景是免流量的)

  • 手机没反应怎么解决(手机没反应怎么强制关机)

    手机没反应怎么解决(手机没反应怎么强制关机)

  • 华为mate30收不到短信验证码(华为mate30收不到验证码)

    华为mate30收不到短信验证码(华为mate30收不到验证码)

  • 蛙趣视频怎么没数据了(为什么蛙趣视频中许多内容都没有了)

    蛙趣视频怎么没数据了(为什么蛙趣视频中许多内容都没有了)

  • qq解除关联后会对方会收到通知吗(qq解除关联后会对方会收到提示信息吗)

    qq解除关联后会对方会收到通知吗(qq解除关联后会对方会收到提示信息吗)

  • 快手怎么看谁浏览了(快手怎么看谁浏览过我的主页)

    快手怎么看谁浏览了(快手怎么看谁浏览过我的主页)

  • 百家号审核未通过怎么办(百家号审核未通过怎么删除)

    百家号审核未通过怎么办(百家号审核未通过怎么删除)

  • 微信辅助条件(微信辅助条件满足无法注册)

    微信辅助条件(微信辅助条件满足无法注册)

  • soul注销了还能恢复吗(soul注销了还能恢复原来账号吗)

    soul注销了还能恢复吗(soul注销了还能恢复原来账号吗)

  • vivoz5线下出售吗(vivoz5手机店有卖吗)

    vivoz5线下出售吗(vivoz5手机店有卖吗)

  • 拼多多满减优惠券怎么用(拼多多满减优惠券多件商品怎么办)

    拼多多满减优惠券怎么用(拼多多满减优惠券多件商品怎么办)

  • 表格显示不全(表格显示不全怎么调整)

    表格显示不全(表格显示不全怎么调整)

  • 海航通信怎么充值话费(海航通信怎么交话费)

    海航通信怎么充值话费(海航通信怎么交话费)

  • 怎么取消苹果订阅自动续费(怎么取消苹果订单)

    怎么取消苹果订阅自动续费(怎么取消苹果订单)

  • 如何重新配对iwatch(如何重新配对homepod mini)

    如何重新配对iwatch(如何重新配对homepod mini)

  • 苹果的itunes在哪里(iphone的itunes store在哪)

    苹果的itunes在哪里(iphone的itunes store在哪)

  • 手机QQ如何打开好友互动标识(手机qq如何打开自己的空间)

    手机QQ如何打开好友互动标识(手机qq如何打开自己的空间)

  • 轻颜相机如何打马赛克(轻颜相机如何打开网格)

    轻颜相机如何打马赛克(轻颜相机如何打开网格)

  • KB4487020更新内容有哪些(kb4586853更新)

    KB4487020更新内容有哪些(kb4586853更新)

  • 最小iPhone充电器是什么(苹果最小的充电器是哪一款)

    最小iPhone充电器是什么(苹果最小的充电器是哪一款)

  • 手把手YOLOv5输出热力图(yolov5输出参数)

    手把手YOLOv5输出热力图(yolov5输出参数)

  • 小规模纳税人所得税优惠政策2023
  • 减免税款的会计分录摘要
  • 商品进销差价在贷方代表什么
  • 税率如何衡量税负
  • 申报作废了还能修改吗
  • 租入固定资产改扩建
  • 代开专票可以开13个点吗
  • 进口货物关税计入成本吗
  • 固定资产折旧年限的最新规定2022
  • 优惠券抵扣账务处理流程
  • 废料账务处理
  • 准予扣除的工会经费怎么算
  • 企业收到经营外的发票如何做账
  • 资金账簿印花税最新政策2023
  • 提前收取租赁收入的财务处理
  • 用现金发工资不给怎么办
  • 资产负债表里应交税费里都包含什么
  • 企业的公益性捐赠支出
  • 初级备考心得总结
  • 印花税年度申报表怎么填
  • 集团提供厂房是否需要缴纳印花税?
  • 13个点的税怎么算税金
  • 利润表中的减是什么意思
  • 什么叫做区分
  • 签证费入什么科目
  • 为什么入账价值不包括增值税
  • auepuc.exe是什么软件
  • 最小的摄像头是多大
  • PHP:ob_iconv_handler()的用法_iconv函数
  • 公司员工生病看望的红包能入公司账吗
  • 施工企业的收入和成本如何确认
  • 斯塔尔德
  • 含税价怎么计算增值税
  • 企业生产经营管理费用包括
  • 在暴风雪中翻译
  • 一次性取得的租金收入
  • php restful接口
  • 与资产相关的政府补助有哪些
  • 在建工程完成后转入什么科目
  • vue使用什么语言
  • 分公司在外地,企业怎么交税
  • 报表按季度报是什么意思
  • SQL Server 使用 SET FMTONLY ON 获得表的元数据
  • 银行代发工资必须是本行的卡吗
  • mysql5.5数据库安装教程
  • 进销存有什么用
  • 基本户与一般户的区别与联系
  • 质保金怎么做账
  • 在建工程什么意思
  • 支付稿费怎么做凭证
  • 现金收款的程序是什么
  • 转出未交增值税和未交增值税区别
  • 个体注销名下的车辆需要过户吗
  • 一正一负发票要做凭证吗
  • 开红字发票购买方和销货方有哪些操作不同?
  • 新增社保需要工资表和记账凭证吗
  • 事业单位接受捐赠会计处理
  • 会计凭证要保存多少年企业注销
  • 没有关联企业怎么选不了否
  • 社会医疗保险机构名词解释汇总
  • 存储过程 decode
  • 电脑鼠标滑动时没法动,怎么办?
  • solaris 安装
  • xp桌面字体有阴影怎么去掉
  • u启动开机启动快捷键
  • ubuntu系统升级到18
  • 微软系统如何恢复出厂设置
  • win10系统应用和功能中不能卸载
  • 轻松掌握瓷砖铺贴技术 pdf
  • jquery的实现原理
  • css网页布局在线生成
  • shell脚本编写步骤
  • android的消息机制
  • web开发 java
  • 八大排序算法的时间空间复杂度
  • javascript的
  • 总公司与分公司的法律责任
  • 房产税税源编号
  • 城市维护建设税减半征收政策
  • 新车购置税是在4s店交吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设