位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 个体工商户的纳税人类型怎么选
  • 利润分配会计处理例题及解析
  • 个税申报赡养老人只能填一个吗
  • 年终奖可以不计入年总收入吗
  • 所得税费按年缴纳?
  • 期货平仓费用
  • 小规模纳税人季报还是月报?
  • 销售返利计入什么科目
  • 销项进项怎么转化
  • 跨年的费用需要冲减
  • 上个月少计了成本要怎么办
  • 船舶吨税范围
  • 期末未缴税额为什么会有数据
  • 公司亏损没有收入怎么办
  • 记账凭证是否要记账
  • 2018年老项目应该如何交税?
  • 《减免所得税优惠明细表》
  • 在建工程完工,并当日签订出租协议的会计分录
  • 季度申报财务报表如何更改
  • 对外投资亏损可以记股权投资减少吗
  • 调整成本调整单分录
  • 三证合一之后的税务登记
  • 个人到财务挂账怎么做账
  • 建安行业简易计税可以抵扣吗
  • 对赌协议的账务处理流程
  • 受让股东对出让股东抽逃出资
  • win10如何设置一键还原系统
  • 一般纳税人增值税税率
  • php获取文件扩展内容
  • 数据处理主要内容有哪些?
  • php iswriteable
  • 一只正在树上吃的苹果
  • psd格式文档
  • php缓存文件并自动清理
  • 企业清算时
  • 宝塔部署django
  • ngnix 命令
  • 理财资金用途
  • 固定资产暂停使用期间需要计提折旧吗
  • 应付票据应付利息
  • 支付招聘网站费用怎么入账
  • 核定征收的收入
  • 企业扣税方式
  • php 操作mongodb
  • 记 vue-cli-plugin-dll 使用,优化vue-cli项目构建打包速度
  • 跨月发票红字冲销有影响吗
  • 企业所得税的营业收入包括营业外收入吗
  • 投资性房地产出租收入计入什么科目
  • 劳务费会计分录是什么
  • 收回已确认并转销的应收账款会导致坏账准备的金额增加
  • 非独立核算的分公司可以开基本户吗
  • 进口免税产品如何开票
  • 当月财务费用怎么算
  • 外派国外的员工享受国内法定假期吗
  • 个人借款产生的利息怎么计算的
  • 进口材料是什么意思
  • 销售净利润怎么算
  • sql合并字段
  • mysql id in
  • mysql中的去重
  • centos7配置tomcat
  • 服务器时间和电脑时间
  • win10系统更新后有问题如何恢复
  • windows xp隐藏文件夹
  • mac视频预览图不显示
  • 如何安装QQ软件
  • centos7 vncserver
  • win8系统怎么到桌面
  • win8如何输入命令
  • android本地保存数据
  • cocos2dx4.0入门
  • arp欺骗防护软件
  • python的数据
  • linux查看端口占用情况并杀掉进程
  • python executemany的使用及注意事项
  • python代码视频
  • javascript的介绍
  • android view类
  • 进货没有发票怎么报税
  • 员工持股平台税务稽查
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设