位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 钉钉办公软件电脑版怎么打卡(钉钉办公软件电脑怎么用)

    钉钉办公软件电脑版怎么打卡(钉钉办公软件电脑怎么用)

  • iqooz1x和vivoz6的区别

    iqooz1x和vivoz6的区别

  • 小米mix3充电提示音在哪里设置(小米mix3充电变慢是怎么回事)

    小米mix3充电提示音在哪里设置(小米mix3充电变慢是怎么回事)

  • accesstoken失效什么意思

    accesstoken失效什么意思

  • 笔记本鼠标触摸板开关(笔记本鼠标触摸没反应)

    笔记本鼠标触摸板开关(笔记本鼠标触摸没反应)

  • 抖音已重置要多久恢复(抖音已重置多久恢复)

    抖音已重置要多久恢复(抖音已重置多久恢复)

  • 拼多多品牌店什么意思(拼多多 品牌 店铺)

    拼多多品牌店什么意思(拼多多 品牌 店铺)

  • 苹果11已经激活了还能转移安卓数据吗(苹果11已经激活过怎么办)

    苹果11已经激活了还能转移安卓数据吗(苹果11已经激活过怎么办)

  • 腾讯课堂没签到能补吗?(腾讯课堂没签到有记录吗)

    腾讯课堂没签到能补吗?(腾讯课堂没签到有记录吗)

  • 苹果隔空传送为什么传不了(苹果隔空传送为什么自动拒绝)

    苹果隔空传送为什么传不了(苹果隔空传送为什么自动拒绝)

  • 华为深色模式可以设置时间吗(华为深色模式可以关吗)

    华为深色模式可以设置时间吗(华为深色模式可以关吗)

  • 华为手机system进程无响应(华为手机system进程无响应重启)

    华为手机system进程无响应(华为手机system进程无响应重启)

  • 运营商是什么意思(运营商服务)

    运营商是什么意思(运营商服务)

  • 固态硬盘在什么位置(固态硬盘在什么情况下会坏)

    固态硬盘在什么位置(固态硬盘在什么情况下会坏)

  • autocad是不是应用软件(autocad软件属于)

    autocad是不是应用软件(autocad软件属于)

  • 拼多多新用户是指什么(拼多多新用户是新手机号还是新手机)

    拼多多新用户是指什么(拼多多新用户是新手机号还是新手机)

  • 抖音号能分身吗(抖音号有分身吗)

    抖音号能分身吗(抖音号有分身吗)

  • word怎么加底纹(word怎么加底纹样式)

    word怎么加底纹(word怎么加底纹样式)

  • 抖音怎么在图片上打字(抖音怎么在图片上打标签)

    抖音怎么在图片上打字(抖音怎么在图片上打标签)

  • 京东怎样看通讯录好友(京东通信怎么查通话记录)

    京东怎样看通讯录好友(京东通信怎么查通话记录)

  • 苹果xr死机了怎么强制重启(苹果xr死机了咋办)

    苹果xr死机了怎么强制重启(苹果xr死机了咋办)

  • 移动怎么开通骚扰拦截(中国移动怎么开通)

    移动怎么开通骚扰拦截(中国移动怎么开通)

  • word文档偏左怎么调到中间(word文档向左偏移)

    word文档偏左怎么调到中间(word文档向左偏移)

  • 苹果xr如何设置自动开关机(苹果xr如何设置铃声)

    苹果xr如何设置自动开关机(苹果xr如何设置铃声)

  • 佳能5d4与5dsr画质对比(佳能5d4和5dsr)

    佳能5d4与5dsr画质对比(佳能5d4和5dsr)

  • 抖音怎么拍天使的翅膀(抖音怎么拍天使与恶魔)

    抖音怎么拍天使的翅膀(抖音怎么拍天使与恶魔)

  • beats solo和studio区别(beats solo和studio哪个音质好)

    beats solo和studio区别(beats solo和studio哪个音质好)

  • 多多进宝怎么玩(多多进宝怎么玩怎么挣钱)

    多多进宝怎么玩(多多进宝怎么玩怎么挣钱)

  • 电脑麦克风对方听不到声音(电脑麦克风对方听不到声音怎么办)

    电脑麦克风对方听不到声音(电脑麦克风对方听不到声音怎么办)

  • css媒体查询的使用(css媒体查询不起作用)

    css媒体查询的使用(css媒体查询不起作用)

  • 个所税包括什么
  • 未认证待抵扣进项税重分类
  • 跨年的预收账款怎么记账
  • 往法人账户转备用金
  • 支付佣金和手续费一样吗
  • 代扣代缴城建税可以享受六税两费
  • 工程发票是不是都要异地预缴
  • 税控设备可以跨省销售吗
  • 工资3500该不该辞职
  • 文化传媒行业会计
  • 航天服务费手写发票可以抵减吗?
  • 医疗器械 税点
  • 外购商品对外赠送增值税怎么算
  • 收到投资款怎么做凭证
  • 无票收入已报税,后来开票账务处理
  • 供应商开免税的发票,为何还要收3个点税金?
  • 差旅费报销单填写模板
  • 计提职工教育经费计入什么科目
  • 无需付款的其他应付款怎么做凭证?
  • 航信税控系统如何开销货清单
  • 前端解决页面加载白屏
  • 视同销售情形有哪些?
  • 腾讯手游助手闪屏怎么办
  • 应用程序错误0x000000
  • mce是什么文件格式
  • PHP:pg_consume_input()的用法_PostgreSQL函数
  • 收取包装物押金税率
  • 短期投资取得的收益
  • 材料采购运杂费包括
  • 经营特许权
  • 外币存款业务
  • 应付帐款借方余额怎么算
  • phptoken验证原理
  • 基于yolov5的目标检测实验任务
  • php redis操作
  • smart模板教程
  • 关于古老的jsp页面的知识汇总(超详细)
  • 自动驾驶讲解
  • unistack怎么关掉
  • 应付账款盘点表
  • 销售费用工资明细科目
  • 开了张增值税发票能退吗
  • 数字黑洞有哪些
  • access使用查询向导固定常数
  • 租车费开票属于哪个类别
  • mongodb添加数据库
  • 以前年度多交增值税账务处理
  • 股东以固定资产入股会计处理
  • 残保金操作流程
  • 注会考试模拟机考
  • 疫情防控重点保障物资生产企业可以按月
  • 收到财付通的短信通知
  • 银行代扣水电费发票到哪里打
  • 计时工资和计件工资的含义
  • 首先要知道什么英语
  • 事业编制可以带计算器吗
  • 会计软件包括
  • 施工企业周转材料会计科目的设置
  • mysql tmp_table_size优化之设置多大合适
  • ubuntu-
  • windows2003设置自动重启
  • 主板各个系列详解
  • centos7 cp
  • web软件安装
  • 电脑ems是什么意思啊
  • win10图标预览
  • linux 日历
  • win10系统中怎么重新启动netframework
  • 使用jquery实现的项目
  • Unity3D游戏开发基础
  • vue购物车功能
  • linux运行nginx
  • unity 3d游戏开发
  • Android应用程序可以直接在ios中安装运行吗
  • 全国国税税务机关是哪里
  • 国家税务2018年61号附件
  • 二连浩特税务局国考分数线
  • 职工周转房需要缴纳房产税吗
  • 浙江省打造先行省
  • 职业年金利息计入哪个科目里面
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设