位置: IT常识 - 正文

CLIP模型(CLIP模型原理)

编辑:rootadmin
CLIP模型 什么是CLIP

推荐整理分享CLIP模型(CLIP模型原理),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:CLIP模型,CLIP模型原理,CLIP模型是干嘛的,clip模型大小,clip模型大小,clip模型全称,clip模型大小,clip模型什么时候出来的,内容如对您有帮助,希望把文章链接给更多的朋友!

Contrastive Language-Image Pre-Training—CLIP 利用文本的监督信号训练一个迁移能力强的视觉模型

这个模型有什么用呢?想象我们有一个图像分类的任务训练1000个类别,预测一张图片是这1000个类别中的哪一类现在如果加入50个新的类别的图像,试想会发生什么呢?传统的图像分类模型无法对类别进行拓展,想要保证准确率只能从头开始训练,费时费力。CLIP模型就可以用来解决这种问题,预训练后的模型就可以直接进行zero-shot

与前人工作对比:

CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法在ImageNet上的效果只要17%。然后openAI说:不是方法不行,而是资源不到位(暴力出奇迹)一个648解决不了,那就再来十次648.。。。

CLIP的成果:

CLIP在完全不使用ImageNet中所有训练数据的前提下直接Zero-shot得到的结果与ResNet在128W ImageNet数据训练效果一致CLIP使用4亿个配对的数据和文本来进行训练,不标注直接爬取(没有解决transformer训练所需数据量大的缺点)监督训练和zero-shot

在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。 无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。 简而言之:

有监督训练:利用已经打好标签的数据训练模型。无监督训练:训练所用的数据没有任何标签。CLIP模型(CLIP模型原理)

什么是zero-shot(零样本学习):

定义 zero-shot顾名思义即是对某些类别完全不提供训练样本,也就是说没有标注样本的迁移任务被称为zero-shot。不需要任何训练样本就可以直接进行预测模仿人脑的学习能力和知识的迁移能力,根据以往的经验对未知的事物做出预测。

简单的zero-shot的实例:

首先,我们可以将其视为一个类似于自然语言处理的任务,它使用词嵌入(将词汇表中的词或短语映射到实数向量,要求具有相似含义的词将具有相似的词嵌入)。那么对于上面的例子,零样本学习是下面这样来处理的,

训练数据中并没有斑马的图像,但是有带条纹的动物(如老虎),有跟马长得相似的一类动物(如马、驴),还有黑白色的动物(如熊猫)的各种图像。可以提取这些图像的特征(条纹、形状似马、黑/白色)并生成词嵌入,组成字典。然后,我们描述斑马的外观,并使用前面训练集里提出的特征来将斑马的外观转化成相应的词嵌入。最后,当你给模型输入一张斑马的图像,它会先提取图像的特征,转化成词嵌入,然后与字典中最接近的词嵌入进行比较,得出那图像可能是只斑马。

CLIP模型的基本架构

模型训练:

输入图片->图像编码器(vision transformer)->图片特征向量输入文字->文本编码器(text )->文本特征向量对两个特征进行线性投射,得到相同维度的特征,并进行L2归一化计算两个特征向量的相似度(夹角余弦)对n个类别进行softmax,确定个正样本和个负样本,并最大化正样本的权重。# 分别提取图像特征和文本特征I_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# 对两个特征进行线性投射,得到相同维度的特征,并进行l2归一化I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# 计算缩放的余弦相似度:[n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# 对称的对比学习损失:等价于N个类别的cross_entropy_losslabels = np.arange(n) # 对角线元素的labelsloss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2

模型预测:

给出一些文本提升(给出选项)选项中要包含正确答案然后计算每一个文本提升和图片特征的相似度。找到相似度最高的即为正确答案

合理的提示:

预测时的提示非常重要首先是需要一句话或者几个词来提示最好要加上预测的场景,要具有情景的相关性提示要全面,这样预测准确率也会提高。

CLIP模型的展示

本文链接地址:https://www.jiuchutong.com/zhishi/290715.html 转载请保留说明!

上一篇:跨年庆典中燃放的烟花,西班牙萨拉戈萨 (© Martina Badini/Shutterstock)(跨年庆典中燃放的歌曲)

下一篇:落基山国家公园的朗斯峰,科罗拉多州 (© Andrew R. Slaton/Tandem Stills + Motion)(落基山国家公园攻略)

  • 韩国12月制造业活动连续六个月萎缩

    韩国12月制造业活动连续六个月萎缩

  • 小米备份的文件在哪儿(小米备份的文件怎么删除)

    小米备份的文件在哪儿(小米备份的文件怎么删除)

  • 抖音更新后收藏没有了(抖音更新后收藏夹不见了)

    抖音更新后收藏没有了(抖音更新后收藏夹不见了)

  • 什么主要用来将不同类型的网络连接起来(什么主要用来将不同的网络连接起来)

    什么主要用来将不同类型的网络连接起来(什么主要用来将不同的网络连接起来)

  • 手机用三年了开始发热(手机用三年了开不开机)

    手机用三年了开始发热(手机用三年了开不开机)

  • 手机自动黑屏是什么原因(手机自动黑屏是屏幕坏了吗)

    手机自动黑屏是什么原因(手机自动黑屏是屏幕坏了吗)

  • 怎么查看手机流量具体使用情况(怎么查看手机流量使用情况)

    怎么查看手机流量具体使用情况(怎么查看手机流量使用情况)

  • 电子表格怎么输入身份证号码(电子表格怎么输入符号)

    电子表格怎么输入身份证号码(电子表格怎么输入符号)

  • 华为mate30pro可以刷机吗(华为mate30pro可以用66w充电器吗)

    华为mate30pro可以刷机吗(华为mate30pro可以用66w充电器吗)

  • 什么叫网络大数据(网络大数据都包含哪些内容)

    什么叫网络大数据(网络大数据都包含哪些内容)

  • 笔记本电脑怎么清理灰尘(笔记本电脑怎么选)

    笔记本电脑怎么清理灰尘(笔记本电脑怎么选)

  • 电脑微信怎么开摄像头(电脑微信怎么开小程序)

    电脑微信怎么开摄像头(电脑微信怎么开小程序)

  • 手机怎么设置夜间模式(手机怎么设置夜间关机)

    手机怎么设置夜间模式(手机怎么设置夜间关机)

  • 怎么判断token过期(怎么看token)

    怎么判断token过期(怎么看token)

  • cad格式刷在哪(2022cad格式刷在哪)

    cad格式刷在哪(2022cad格式刷在哪)

  • 淘宝二手app叫什么(淘宝二手交易软件)

    淘宝二手app叫什么(淘宝二手交易软件)

  • 网络可能受到监控怎么办(网络可能受到监控是什么意思小米)

    网络可能受到监控怎么办(网络可能受到监控是什么意思小米)

  • 苹果用流量怎么下载绝地求生(苹果用流量怎么换卡)

    苹果用流量怎么下载绝地求生(苹果用流量怎么换卡)

  • 抖音喜欢怎么锁(抖音喜欢怎么锁起来)

    抖音喜欢怎么锁(抖音喜欢怎么锁起来)

  • dub-al00a是华为什么型号(dubal00a是华为什么型号多少钱)

    dub-al00a是华为什么型号(dubal00a是华为什么型号多少钱)

  • 一加3怎样设置屏保图案(一加3怎样设置指纹解锁)

    一加3怎样设置屏保图案(一加3怎样设置指纹解锁)

  • 苹果剪切板在哪里(苹果剪贴板怎么弄出来)

    苹果剪切板在哪里(苹果剪贴板怎么弄出来)

  • oppo手机复制的东西在哪里找(OPPO手机复制的历史记录)

    oppo手机复制的东西在哪里找(OPPO手机复制的历史记录)

  • 小米8慢动作只能拍10秒(小米8慢动作怎么不见了)

    小米8慢动作只能拍10秒(小米8慢动作怎么不见了)

  • dedecms织梦文章标题title长度修改方法(织梦文章标题显示不全)

    dedecms织梦文章标题title长度修改方法(织梦文章标题显示不全)

  • 进项税有余额但没有余额
  • 税费退库怎么做凭证
  • 业务招待费扣除标准营业收入包括
  • 增值税专用发票和普通发票的区别
  • 招标代理服务费由谁支付
  • 中央空调折旧年限是多久
  • 厂里搬厂赔偿员工标准
  • 股票发行的佣金计入什么科目
  • 增值税税控系统专用设备
  • 厂家给经销商的搭赠政策
  • 我的初级备考经验--跟老师节奏走
  • 一般纳税人在外地预缴税款
  • 财务人员需具备的基本素质和条件是什么
  • 集体土地上的不动产证已经能查询为何房产证拿不到
  • 个体户个人所得税怎么交
  • 外出什么意思?
  • 总公司中标分公司开票避税
  • 收据大写要写整吗
  • 财务报告报送与信息采集季报怎么填写
  • 发票税额小数点后面没打印上能用吗
  • 金税盘初始密码忘记了怎么办
  • 固废处理计入什么会计科
  • 小规模查账征收增值税怎么算
  • 个人股东企业分红一共需要交多少税
  • mac双系统怎么删除win系统
  • 什么叫应付账款科目
  • 收到政府补贴的装修款
  • php中数组的常用函数及用法
  • php抓取网页指定内容
  • php连接mysql数据库详细步骤(图文)
  • 命令行wifi
  • 无形资产的摊销计入什么科目
  • 补交社保如何做账务处理
  • php ftp上传文件
  • git可以管理二进制文件吗
  • 简易计税办法和一般计税办法
  • 赤狐,荷兰 (© Wim Weenink/Minden Pictures)
  • 计算模型的层次划分
  • for of 与for in
  • php中input的用法
  • 所得税费用要结转损益吗
  • 单位应缴住房公积金
  • 社保费用如何入现金流量表
  • 固定资产的货币时间价值
  • 印花税步骤
  • 企业取得投资收益要交税吗
  • 商家下单
  • 应付账款的入账价值应当包括增值税的进项税额
  • 固定资产后续支出
  • 坏账准备的账务处理T型
  • 公司股东分红要交税吗?
  • 跨年错账更正
  • 固定资产减值核销
  • 用友怎么取消月结
  • 进口设备 退税
  • 应付账款明细账怎么登记
  • 生产企业出口退税政策
  • 费用支出多了怎么办
  • 员工入股会计分录
  • 有发票还要填写领款单吗
  • 劳务公司 成本
  • 小规模纳税人开票限额是多少
  • 作废发票丢了罚款多少
  • win7端口怎么查看
  • win10怎么获取
  • linux内核配置文件
  • form表单中input设置为readonly和disabled的区别
  • xcopy命令拷贝目录
  • Jquery AJAX POST与GET之间的区别详细介绍
  • javascript题
  • js class 私有方法
  • jQuery Easyui Datagrid实现单行的上移下移及保存移动的结果
  • python内建函数 代码
  • 向境外付款需要代扣代缴所得税吗
  • 增值税纳税申报表附列资料(一)
  • 广州税务局前局长是谁
  • 广西自然人税收管理系统扣缴客户端手机版
  • 如何做好税务局长
  • 非盈利org
  • 建筑行业增值税税率2021
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设