位置: IT常识 - 正文

Vision Transformer 模型详解

编辑:rootadmin
Vision Transformer 模型详解 目录前言模型结构实验总结Question Summary前言

推荐整理分享Vision Transformer 模型详解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

虽然说transformer已经是NLP领域的一个标准:BERT模型、GPT3或者是T5模型,但是当年

Vision transformer 提出时用transformer来做CV还是很有限的; 在视觉领域,自注意力要么是跟

卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持

整体的结构不变; ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,因为其

模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域

应用的里程碑著作,也引爆了后续相关研究。

模型结构

作者将transformer结构去除掉decoder部分后经过改进将其运用到视觉领域。vision transformer模型结构主要包括三部分:

patch embeding 部分transformer encoder部分MLP head部分。

整个模型结构可以分为五个步骤进行:

1、将图片切分成多个patch。

2、将得到的patches经过一个线性映射层后得到多个token embedding。

3、将得到的多个token embedding concat一个额外的CLS token,然后和位置编码相加,构成完整的encoder模块的输入。

4、 将相加后的结果传入Transformer Encoder模块。

5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。

Transformer Block:

Layer Norm层:标准归一化,为了更好的收敛。MHA层:多头自注意力机制输入和输出做残差连接Layer NormMLP层: Linear + GRLU +Linear +Dropout

L个Transformer Block 构成一个完整的Transformer Encoder模块。经过Transformer Block 后维度不变。

实验

Vision Transformer 模型详解

给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的。 用vision transformer 模型和卷积神经网络(resnet)做了对比,实验发现在中小数据集上,

卷积神经网络的效果比vit模型的效果要好(原因在Question Summary)。随着数据及规模的增大,

ViT模型的效果要逐渐优于卷积神经网络的效果。

用vision transformer 模型和卷积神经网络(resnet)以及Hybrid结构(混合结构)做了对比,

结果相同,同时Hybrid结构在中小型数据集上也能够达到能好的性能(毕竟结合了卷积神经网络和

Transformer的优点),但随着数据集的增大,发现Transform的结构要比Hybrid结构性能优秀。 作者还做了关于自注意力机制的实验,从实验结果我们可以看出,模型可以很好的利用自注意力机制学习到图片的特征。 做了关于CLS Token和GAP以及关于不同维度的消融实验。ViT模型最后利用CLS Token做分类预

测,而卷积神经网络则是利用GAP(全局平均池化),从实验结果可以看出,CLS Token 可以和

GAP 达到同样的效果,但是要求不同的学习率。

总结

如果在足够多的数据上做预训练,也可以不需要卷积神经网路,直接使用标准的Transformer也能够

把视觉问题解决的很好;尤其是当在大规模的数据上面做预训练然后迁移到中小型数据集上面使用的

时候,Vision Transformer能够获得跟最好的卷积神经网络相媲美的结果。

Question Summary

在中小型数据集上,ViT模型不如卷积神经网络的原因:

卷积神经网络存在归纳偏置:locality 和translation equivariance。有了归纳偏置后,就有了先验知识,可以利用较少的数据去学习一个比较好的模型,而transformer没有先验知识,所以需要数据自己学习,所以在大数据集上的性能比中小数据集上。

位置编码:

如果不标注位置,在Transform看来图片就是一样的,所以需要加上位置编码。

CLS Token:

在NLP的分类任务中,被看作一个全局的对句子的理解,在这里可以看作一个图像的整体特征。

MLP Head:

一个通用的分类头,最后用交叉熵函数进行模型的训练。

论文:原论文链接 代码:pytorch代码

本文链接地址:https://www.jiuchutong.com/zhishi/294588.html 转载请保留说明!

上一篇:vue:聊天对话框的实现(vue聊天系统)

下一篇:【uni-app】小程序实现微信授权登陆(附流程图)(unigui 小程序)

  • ipad刷机(ipad刷机)(ipad刷机教程itunes官方)

    ipad刷机(ipad刷机)(ipad刷机教程itunes官方)

  • 京东运费券可以赠送吗(京东运费券可以和全品类券一起使用吗)

    京东运费券可以赠送吗(京东运费券可以和全品类券一起使用吗)

  • 抖音合拍两个视频的方法是什么(抖音合拍两个视频上下怎么布局)

    抖音合拍两个视频的方法是什么(抖音合拍两个视频上下怎么布局)

  • 手机储存异常,请删除账号重试(手机储存异常怎么办)

    手机储存异常,请删除账号重试(手机储存异常怎么办)

  • oppopcdm10是什么型号手机(oppo pchm10是什么机型)

    oppopcdm10是什么型号手机(oppo pchm10是什么机型)

  • thinkpad适合什么人用(thinkpad推荐哪一款)

    thinkpad适合什么人用(thinkpad推荐哪一款)

  • 抖音不认证是不是就没有流量(抖音不认证是不是不能发视频)

    抖音不认证是不是就没有流量(抖音不认证是不是不能发视频)

  • 收藏网页快捷键(苹果电脑收藏网页快捷键)

    收藏网页快捷键(苹果电脑收藏网页快捷键)

  • 拼多多去拼单和发起拼单有什么区别(拼多多去拼单和发起拼单的价钱一样吗)

    拼多多去拼单和发起拼单有什么区别(拼多多去拼单和发起拼单的价钱一样吗)

  • qq群为什么不能转让给某个人(qq群为什么不能发闪照了)

    qq群为什么不能转让给某个人(qq群为什么不能发闪照了)

  • 手机可以拍照但存不了(手机可以拍照但不能录视频)

    手机可以拍照但存不了(手机可以拍照但不能录视频)

  • 苹果11的分辨率为什么这么低(苹果11的分辨率是多少)

    苹果11的分辨率为什么这么低(苹果11的分辨率是多少)

  • 毒支持哪种支付方式(毒可以用支付宝吗)

    毒支持哪种支付方式(毒可以用支付宝吗)

  • 打印机无法打印的原因(打印机无法打印显示错误)

    打印机无法打印的原因(打印机无法打印显示错误)

  • 微信的异常修复去哪了(微信的异常修复找不到了怎么回事)

    微信的异常修复去哪了(微信的异常修复找不到了怎么回事)

  • 小米byxiaomi是什么型号(小米bip)

    小米byxiaomi是什么型号(小米bip)

  • 高斯投影采用的是什么投影(高斯投影主要应用)

    高斯投影采用的是什么投影(高斯投影主要应用)

  • 吸顶无线ap安装方法(无线吸顶ap怎样布线)

    吸顶无线ap安装方法(无线吸顶ap怎样布线)

  • 魅族怎么强制退出极限省电(魅族怎么强制退出程序)

    魅族怎么强制退出极限省电(魅族怎么强制退出程序)

  • p30支持红外线遥控吗(p30支持红外线遥控功能吗)

    p30支持红外线遥控吗(p30支持红外线遥控功能吗)

  • 苹果xr控制中心在哪里(苹果xr控制中心怎么拉出来)

    苹果xr控制中心在哪里(苹果xr控制中心怎么拉出来)

  • excel怎么画线(excel怎么画线表格)

    excel怎么画线(excel怎么画线表格)

  • 电脑源坏了有什么症状(电脑电源坏的几种现象)

    电脑源坏了有什么症状(电脑电源坏的几种现象)

  • 如何查看电脑是什么系统?(如何查看电脑是什么牌子)

    如何查看电脑是什么系统?(如何查看电脑是什么牌子)

  • ElementUI中<el-form>标签中 ref、:model、:rules 的作用

    ElementUI中<el-form>标签中 ref、:model、:rules 的作用

  • 待认证进项税额和待抵扣进项税额的区别
  • 关税是价内税还是税外税
  • 房租确认后能不退押金吗
  • 缴纳增值税会计账务处理
  • 冲企业所得税的分录
  • 介质申报和网络申报的区别
  • 红字发票信息表需要盖章吗
  • 金融资产摊余成本例题
  • 福利企业发放职工集资利息是不是要交个人所得税
  • 工业企业成本核算的一般程序包括下列的
  • 收到低值易耗品的专票但未付款
  • 装卸费和保险费是价外费用吗
  • 担保预计负债要如何做账?
  • 营改增后增加了什么征税项目
  • 报税没有报怎么办
  • 旅游业适用差额征税政策时如何开具发票?
  • 关联申报不报有影响吗
  • 商业承兑汇票贴现转让
  • 报废固定资产收入计入什么科目
  • 小微企业所得税优惠政策
  • 快递公司怎么结算
  • 什么是销售利润率和成本利润率
  • 临时设施需要验收吗
  • 企业利润表中营业收入在资产负债表中有勾千盾关系吗
  • 企业结算备付金怎么做账
  • 新办企业税务服务
  • 贸易公司成本怎么计算
  • 购入已提足折旧的固定资产
  • 认缴出资额和实缴出资额的时间
  • 逾期未收回包装物押金会计分录
  • 阿贡火山经常性爆发的原因
  • 化妆品与药品
  • vue项目中技巧知识点
  • 房地产企业土地增值税预缴计税依据
  • php判断查询是否有结果
  • 大学生web网页实训心得体会
  • 增值税发票怎么抵税
  • 应付职工薪酬会产生暂时性差异吗
  • 以前年度损益调整结转到哪里
  • es6 promise finally
  • 基于php判断客户是否存在
  • 出口销售折扣怎么处理
  • 其他发票是什么意思
  • 小型企业利润表
  • 原财政补助结余对应新账
  • 公司没有车加油票怎么做账
  • 核定征收企业可以享受研发费用加计扣除
  • 应付账款主要账户有哪些
  • 周转材料主要包括什么和什么
  • 所得税汇算清缴怎么操作
  • 企业会计凭证怎么写
  • 月底库存现金可以有余额吗
  • 建筑业简易征收的条件
  • 接受捐赠的固定资产进项税额可以抵扣吗
  • 商业会计和财务会计
  • 代扣代缴的增值税额
  • 企业清算期间发生的各项费用应计入以下什么科目
  • 集团拨款
  • 对方开普票,怎么扣税
  • 胶水属于什么开发工具
  • 技术转让要交所得税吗
  • 所得税汇算清缴前取得跨年发票
  • 公司变更地址后需要做哪些事情
  • sqlserver 锁表语句
  • mysql数据库简单介绍
  • win7系统开机蓝屏0x0000007b
  • xp系统如何查询配置
  • macbookair cpu
  • 在Linux系统中安装镜像步骤
  • win7如何设置屏幕不黑屏
  • linux磁盘分区表
  • win8怎么找开始程序
  • [小权~编码路&Android] BroadcastReceiver应用详解
  • 怎样用python
  • unity3d官方教程
  • 在jquery中fadein
  • 上海市税务局招聘
  • 专利转让个人所得税转换为经营所得
  • 5种方式教你如何查询
  • 陕西省税务局袁小平简介
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设