位置: IT常识 - 正文

Vision Transformer 模型详解

编辑:rootadmin
Vision Transformer 模型详解 目录前言模型结构实验总结Question Summary前言

推荐整理分享Vision Transformer 模型详解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

虽然说transformer已经是NLP领域的一个标准:BERT模型、GPT3或者是T5模型,但是当年

Vision transformer 提出时用transformer来做CV还是很有限的; 在视觉领域,自注意力要么是跟

卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持

整体的结构不变; ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,因为其

模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域

应用的里程碑著作,也引爆了后续相关研究。

模型结构

作者将transformer结构去除掉decoder部分后经过改进将其运用到视觉领域。vision transformer模型结构主要包括三部分:

patch embeding 部分transformer encoder部分MLP head部分。

整个模型结构可以分为五个步骤进行:

1、将图片切分成多个patch。

2、将得到的patches经过一个线性映射层后得到多个token embedding。

3、将得到的多个token embedding concat一个额外的CLS token,然后和位置编码相加,构成完整的encoder模块的输入。

4、 将相加后的结果传入Transformer Encoder模块。

5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。

Transformer Block:

Layer Norm层:标准归一化,为了更好的收敛。MHA层:多头自注意力机制输入和输出做残差连接Layer NormMLP层: Linear + GRLU +Linear +Dropout

L个Transformer Block 构成一个完整的Transformer Encoder模块。经过Transformer Block 后维度不变。

实验

Vision Transformer 模型详解

给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的。 用vision transformer 模型和卷积神经网络(resnet)做了对比,实验发现在中小数据集上,

卷积神经网络的效果比vit模型的效果要好(原因在Question Summary)。随着数据及规模的增大,

ViT模型的效果要逐渐优于卷积神经网络的效果。

用vision transformer 模型和卷积神经网络(resnet)以及Hybrid结构(混合结构)做了对比,

结果相同,同时Hybrid结构在中小型数据集上也能够达到能好的性能(毕竟结合了卷积神经网络和

Transformer的优点),但随着数据集的增大,发现Transform的结构要比Hybrid结构性能优秀。 作者还做了关于自注意力机制的实验,从实验结果我们可以看出,模型可以很好的利用自注意力机制学习到图片的特征。 做了关于CLS Token和GAP以及关于不同维度的消融实验。ViT模型最后利用CLS Token做分类预

测,而卷积神经网络则是利用GAP(全局平均池化),从实验结果可以看出,CLS Token 可以和

GAP 达到同样的效果,但是要求不同的学习率。

总结

如果在足够多的数据上做预训练,也可以不需要卷积神经网路,直接使用标准的Transformer也能够

把视觉问题解决的很好;尤其是当在大规模的数据上面做预训练然后迁移到中小型数据集上面使用的

时候,Vision Transformer能够获得跟最好的卷积神经网络相媲美的结果。

Question Summary

在中小型数据集上,ViT模型不如卷积神经网络的原因:

卷积神经网络存在归纳偏置:locality 和translation equivariance。有了归纳偏置后,就有了先验知识,可以利用较少的数据去学习一个比较好的模型,而transformer没有先验知识,所以需要数据自己学习,所以在大数据集上的性能比中小数据集上。

位置编码:

如果不标注位置,在Transform看来图片就是一样的,所以需要加上位置编码。

CLS Token:

在NLP的分类任务中,被看作一个全局的对句子的理解,在这里可以看作一个图像的整体特征。

MLP Head:

一个通用的分类头,最后用交叉熵函数进行模型的训练。

论文:原论文链接 代码:pytorch代码

本文链接地址:https://www.jiuchutong.com/zhishi/294588.html 转载请保留说明!

上一篇:vue:聊天对话框的实现(vue聊天系统)

下一篇:【uni-app】小程序实现微信授权登陆(附流程图)(unigui 小程序)

  • 苹果13怎么添加小组件(苹果13怎么添加重庆公交卡)

    苹果13怎么添加小组件(苹果13怎么添加重庆公交卡)

  • 华为手机安全检测怎么关闭(华为手机安全检查怎么关闭啊?)

    华为手机安全检测怎么关闭(华为手机安全检查怎么关闭啊?)

  • 谷歌浏览器兼容性设置在哪里(谷歌浏览器兼容性设置在哪里找)

    谷歌浏览器兼容性设置在哪里(谷歌浏览器兼容性设置在哪里找)

  • 有锁机可以升级ios13吗(有锁机可以升级5g吗)

    有锁机可以升级ios13吗(有锁机可以升级5g吗)

  • 京东多少天自动收货(京东多少天自动退货)

    京东多少天自动收货(京东多少天自动退货)

  • 苹果x电池容量86正常吗(苹果x电池容量80%需要换吗)

    苹果x电池容量86正常吗(苹果x电池容量80%需要换吗)

  • 清除数据需要密码咋办(清除数据需要密码怎么办vivo手机)

    清除数据需要密码咋办(清除数据需要密码怎么办vivo手机)

  • wmv是视频格式吗(wmv格式是视频格式吗)

    wmv是视频格式吗(wmv格式是视频格式吗)

  • 手机换卡需要关机吗(手机换卡需要关手机吗)

    手机换卡需要关机吗(手机换卡需要关手机吗)

  • 陌陌是啥(陌陌是啥时候出的)

    陌陌是啥(陌陌是啥时候出的)

  • 苹果u2机有什么影响(苹果u2机能用吗)

    苹果u2机有什么影响(苹果u2机能用吗)

  • 华为p30怎么删除桌面软件(华为p30怎么删除本地音乐铃声)

    华为p30怎么删除桌面软件(华为p30怎么删除本地音乐铃声)

  • 苹果x声音怎么调到最大(苹果X声音怎么调)

    苹果x声音怎么调到最大(苹果X声音怎么调)

  • 索尼c200和c310区别(sonyc200和c300的区别)

    索尼c200和c310区别(sonyc200和c300的区别)

  • iphone微信怎么调成深夜模式(iPhone微信怎么调视频美颜功能)

    iphone微信怎么调成深夜模式(iPhone微信怎么调视频美颜功能)

  • b站怎么隐藏我的关注(b站怎么隐藏我的订阅)

    b站怎么隐藏我的关注(b站怎么隐藏我的订阅)

  • 小米8屏幕指纹版是什么马达(小米8屏幕指纹版换屏幕多少钱)

    小米8屏幕指纹版是什么马达(小米8屏幕指纹版换屏幕多少钱)

  • 电脑xp系统是什么意思

    电脑xp系统是什么意思

  • 华为gt2怎么拨打电话(华为gt2怎么拨电话)

    华为gt2怎么拨打电话(华为gt2怎么拨电话)

  • 耳机漏音怎么解决(耳机漏音怎么办)

    耳机漏音怎么解决(耳机漏音怎么办)

  • 苹果x怎么设置指纹付款(苹果x怎么设置锁屏)

    苹果x怎么设置指纹付款(苹果x怎么设置锁屏)

  • 我的微信不能投票怎么解决(我的微信不能投屏了)

    我的微信不能投票怎么解决(我的微信不能投屏了)

  • 快手封面怎么删除(快手作品封面的文字怎么删除)

    快手封面怎么删除(快手作品封面的文字怎么删除)

  • 手机勿扰模式怎么关(手机勿扰模式怎么开启)

    手机勿扰模式怎么关(手机勿扰模式怎么开启)

  • app开发如何挖掘用户需求(app开发如何挖掘客户需求)

    app开发如何挖掘用户需求(app开发如何挖掘客户需求)

  • 挂式耳机正确戴法(挂耳式耳机用法)

    挂式耳机正确戴法(挂耳式耳机用法)

  • 增值税不交什么后果
  • 个体户开电子税务局流程
  • 商誉 会计
  • 工程施工企业收入确认成本结转案例
  • 有限公司能变更为个体工商户
  • 向境外支付赔偿金需要发票么
  • 资产减值损失与资产处置损益区别
  • 网络服务费属于什么费用
  • 对公账户的钱能转到私人账户吗
  • 母公司给子公司担保的规定
  • 微信手续费发票可以抵扣吗?
  • 别人退保证金多久能到账
  • 公司投资另一个公司的投资款怎么入账
  • 企业出租设备取得租金收入要交增值税吗
  • 启用新账簿
  • 税务登记号就是发票吗
  • 餐饮发票一千多钱税
  • 火车票增值税什么意思
  • 享受企业所得税税额抵免优惠的设备包括
  • 2019新版利润表填表说明
  • 服务业成本怎么做账
  • 产品的销售收入减去全部生产成本叫
  • edge浏览器设置主页网址
  • 城市生活垃圾处理方法
  • 苹果紧急提醒
  • 外地的社保在本地个税扣除
  • PHP:Memcached::delete()的用法_Memcached类
  • 股东可以随时退出吗
  • 关税从量计征有什么
  • win11好用吗知乎
  • 愚人二部曲
  • 制造企业的印花税税率
  • 营业店面装修费怎么入账
  • 员工社保缴纳规定标准
  • 当月计提的公积金怎么取
  • 坏账准备备案申请资料
  • 房屋发票备注栏怎么填
  • 直接人工不包括哪些
  • wordpress换域名后主题乱了
  • mysql数据类型怎么判断
  • 个体户3万免税规定2019
  • 财务报表申报后怎么修改
  • 固定资产折旧方法和计算公式
  • 被投资公司注销,投资收益需要交企业所得税你吗
  • 小企业长期债券投资入账价值
  • 公司收到社保局的提醒函怎么办
  • 公司向员工发放的慰问金怎么做账
  • 投资收益会计科目账务处理
  • 企业给员工的福利体检报告
  • 企业销售已使用的车辆
  • 印花税如何计算缴纳
  • 用材料抵扣货款通知怎样写
  • 房租费用入账怎么处理
  • 利润所得税费用
  • 用友薪资管理怎么取消启用
  • 怎样充高速路etc现金
  • 认证的进项退税怎么操作
  • 会计账簿怎么填写模式
  • 文本文件模式
  • 解决ubuntu和win10关机重启界面不动
  • 苹果mac怎么安装win10
  • ubuntu环境搭建
  • win7大小写提示图标
  • 苹果mac怎样
  • js cocos
  • Screen.sleepTimeout=SleepTimeOut.NeverSleep 禁止屏幕锁屏
  • ubuntu系统怎么安装
  • android 多个activity
  • javascript基础笔记
  • linuxyum安装php7
  • js复制数组的方法
  • unity控制相机旋转
  • javascript总结笔记
  • 深入理解新发展理念,推进供给侧结构性改革
  • js写后端用什么框架
  • 修改应用程序图标
  • android的r
  • python继承的主要目的
  • 北京市税务总局官网
  • 国土国税垂管部主任是谁
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设