位置: IT常识 - 正文

论文学习——Tune-A-Video(论文如何学)

编辑:rootadmin
论文学习——Tune-A-Video Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video GenerationAbstract

推荐整理分享论文学习——Tune-A-Video(论文如何学),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:论文study,"论文",论文要怎么学,论文咋学,"论文",论文怎样学,学论文的步骤,学论文的步骤,内容如对您有帮助,希望把文章链接给更多的朋友!

本文提出了一种方法,站在巨人的肩膀上——在大规模图像数据集上pretrain并表现良好的 text to image 生成模型——加入新结构并进行微调,训练出一套 one shot 的 text to video 生成器。这样做的优点在于利用已经非常成功、风格多样的图像扩散生成模型,在其基础上进行扩展,同时其训练时间很短,大大降低了训练开销。作为one shot 方法,tune a video还需要额外信息,一个文本-视频对儿作为demo。

作者对于T2I(text to image)模型得到了两个观察: (1)T2I模型可以生成·展示动词项效果的·静止图像 (2)扩展T2I模型同时生成的多张图像展现出了良好的内容一致性。

有了这两个观察作为基础,其实生成视频的关键就在于如何保证一致的物体的连续运动。

为了更进一步,学习到连贯的动作,作者设计出one shot 的 Tune-A-Video模型。这个模型涉及到一个定制的时空注意力机制,以及一个高效的one shot 调整策略(tuning strategy)。在推理阶段,使用DDIM的inversion过程(常规DDIM在逆扩散过程中的采样部分是确定的:将预测的高斯噪声~N(μ, σ)中的标准差设置为0,以此消除逆扩散过程中的随机性;而DDIM inversion相反,其正向扩散过程是确定的。)来为采样过程提供结构性的引导。

1. Introduction

为在T2V领域赋值T2I生成模型的成果经验,有许多模型[30,35,6,42,40]也尝试将空间领域的T2I生成模型拓展到时空领域。它们通常在大规模的text-video数据集上采取标准的训练范式,效果很好,但计算开销太大太耗时。

本模型的思路:在大规模text-image数据集上完成预训练的T2I模型以及有了开放域概念的许多知识,那简单给它一个视频样例,它是否能够自行推理出其他的视频呢?

One-Shot Video Tuning,仅使用一个text-video对儿来训练T2V生成器,这个生成器从输入视频中捕获基础的动作信息,然后根据修改提示(edited prompts)生成新颖的视频。

上面abstract提到,生成视频的关键就在于如何保证一致的物体的连续运动。下面,作者从sota的T2I扩散模型中进行如下观察,并依此激励我们的模型。 (1)关于动作:T2I模型能够很好地根据包括动词项在内的文本生成的图片。这表明T2I模型在静态动作生成上,可以通过跨模态的注意力来考虑到文本中的动词项。 (2)关于一致的物体:简单的将T2I模型中的空间自注意力进行扩展,使之从生成一张图片变为生成多张图片,足可以生成内容一致的不同帧,如图2第1行是内容和背景不同的多张图像,而图2第2行是相同的人和沙滩。不过动作仍不是连续的,这表明T2I中的自注意力层只关注空间相似性而不关注像素点的位置。

论文学习——Tune-A-Video(论文如何学)

Tune A Video方法是在sota 的T2I模型在时空维度上的简单膨胀。为避免计算量的平方级增长,对于帧数不断增多的任务来说,这种方案显然是不可行的。另外,使用原始的微调方法,更新所有的参数可能会破坏T2I模型已有的知识,并阻碍新概念视频的生成。为解决这个问题,作者使用稀疏的时空注意力机制而非full attention,仅使用视频的第一帧和前一帧,至于微调策略,只更新attention 块儿中的投影矩阵。以上操作只保证视频帧中的内容的一致性,但并不保证动作的连续性。

因此,在推理阶段,作者通过DDIM的inversion过程,从输入视频中寻求structure guidance。将该过程得到的逆转潜向量作为初始的噪音,这样来产生时间上连贯、动作平滑的视频帧。

作者贡献: (1)为T2V生成任务提出了一类新的模型One-Shot Video Tuning,这消除了模型在大尺度视频数据集上训练的负担 (2)这是第一个使用T2I实现T2V生成任务的框架 (3)使用高效的attention tuning和structural inversion来显著提升时序上的联系性

3.2 网络膨胀

先说T2I模型,以LDM模型为例,使用U-Net,先使用孔家下采样再使用上采样,并保持跳联。U-Net由堆叠的2d残差卷积和transformer块儿们组成。每个transformer块儿都有一个空间自注意力层,一个交叉注意力层,一个前馈网络组成。空间自注意力层利用feature map中的像素位置寻找相似关系;交叉注意力则考虑像素和条件输入之间的关系。

zvi表示video的第vi帧,空间自注意力可以表示为如下形式 下面讲怎么改:

将二维的LDM转换到时空域上: (1)将其中的2d卷积层膨胀为伪3d卷积层,3x3变为1x3x3这样; (2)对于每个transformer块儿加入时序的自注意力层(,以完成时间建模); (3)(为增强时序连贯性,)将空间自注意力机制转为时空自注意力机制。转换的方法并不是使用full attention 或者causal attention,它们也能捕获时空一致性。但由于在introduction中提到的开销问题,显然并不适用。本文采用的是系数的causal attention,将计算量从O((mN)2)转为了O(2mN2),其中m为帧数,N为每帧中的squence数目。需要注意的是,这种自注意力机制里,计算query的向量是zvi,计算key和value使用的向量则是v1和vi-1的拼接。4.4 微调和推理模型微调

为获得时序建模能力,使用输入视频微调网络。

由于时空注意力机制通过查询之前帧上的相关位置来建模其时序一致性。因此固定ST-Attn layers中的WK和WV,仅更新投影矩阵WQ。

而对于新加入的时序自注意力层,则更新所有参数,因为新加入层的参数不包含先验。

对于交叉注意力Cross-Attn,则通过更新Query的投影矩阵(query projection)来完善text-video的对应关系。

这样的微调,相对于完全调整来说更节约计算开销,并且也有助于保持原有T2I预训练所得到的的原有性质。下图中标亮了所有需要更新参数的模块。

通过DDIM的inversion获得结构上的指导

为了更好地确保不同帧之间的像素移动,在推理阶段,本模型从原视频中引入结构的指导。具体来说,通过DDIM的inversion过程,从没有文本条件的原视频中能够提取出潜向量噪音。这种噪音作为DDIM采样过程的起点,同时受到编辑提示edited prompt T*的引导,进入DDIM的采样过程,输出视频可以表示如下

本文链接地址:https://www.jiuchutong.com/zhishi/297629.html 转载请保留说明!

上一篇:ChatGPT从入门到精通(附PDF文档)(chatcters)

下一篇:Yolov5实例分割Tensorrt部署实战(yolov5实例分割原理详解)

  • 华为watchfitnew有gps吗(华为watchfitnew有独立GPS吗)

    华为watchfitnew有gps吗(华为watchfitnew有独立GPS吗)

  • x70是曲面屏吗(vivox60曲屏版)

    x70是曲面屏吗(vivox60曲屏版)

  • 中国大学mooc如何绑定微信(中国大学mooc如何进行互评)

    中国大学mooc如何绑定微信(中国大学mooc如何进行互评)

  • 鼠标右键一直转圈(鼠标右键一直转圈圈无响应win11)

    鼠标右键一直转圈(鼠标右键一直转圈圈无响应win11)

  • iphone8plus双卡双待吗(8plus 双卡)

    iphone8plus双卡双待吗(8plus 双卡)

  • 华为手机上方的图标代表什么(华为手机上方的眼睛是什么意思)

    华为手机上方的图标代表什么(华为手机上方的眼睛是什么意思)

  • qq音乐听书会员有什么用(qq音乐听书会员和绿钻区别)

    qq音乐听书会员有什么用(qq音乐听书会员和绿钻区别)

  • 腾讯会议会被监控吗(腾讯会议会监视你的屏幕吗)

    腾讯会议会被监控吗(腾讯会议会监视你的屏幕吗)

  • 微信朋友动态怎么看一次就看不到了(微信朋友动态怎么弄)

    微信朋友动态怎么看一次就看不到了(微信朋友动态怎么弄)

  • 锐龙54500u相当于i几(锐龙5 4500相当于i几)

    锐龙54500u相当于i几(锐龙5 4500相当于i几)

  • 国产屏和原装屏的区别(国产屏和原装屏有什么区别)

    国产屏和原装屏的区别(国产屏和原装屏有什么区别)

  • 苹果x解锁屏幕失灵怎么办(苹果x解锁屏幕锁设置)

    苹果x解锁屏幕失灵怎么办(苹果x解锁屏幕锁设置)

  • 小米手机插耳机还是外放怎么办(小米手机插耳机音量乱跳)

    小米手机插耳机还是外放怎么办(小米手机插耳机音量乱跳)

  • 黑色的rgb值是多少(黑色的rgb代码是什么)

    黑色的rgb值是多少(黑色的rgb代码是什么)

  • b站绑了身份证会被找回吗(b站绑了身份证能改吗)

    b站绑了身份证会被找回吗(b站绑了身份证能改吗)

  • 蚂蚁森林的弹幕别人可以看见吗(蚂蚁森林的弹幕多久有效)

    蚂蚁森林的弹幕别人可以看见吗(蚂蚁森林的弹幕多久有效)

  • 计算机辅助教学cat是什么软件(计算机辅助教学简称)

    计算机辅助教学cat是什么软件(计算机辅助教学简称)

  • 打印机后台程序没有运行(打印安装程序怎么安装)

    打印机后台程序没有运行(打印安装程序怎么安装)

  • 快手用id号怎么登录(快手id号怎么登录快手)

    快手用id号怎么登录(快手id号怎么登录快手)

  • 华为9plus可以登两个微信吗(华为手机可以登录)

    华为9plus可以登两个微信吗(华为手机可以登录)

  • 微信如何禁止好友拉群(微信如何禁止好友语音视频)

    微信如何禁止好友拉群(微信如何禁止好友语音视频)

  • 华为p30怎么看电池寿命(华为P30怎么看电池健康)

    华为p30怎么看电池寿命(华为P30怎么看电池健康)

  • iphonexs有防窥屏功能吗(苹果x防窥功能)

    iphonexs有防窥屏功能吗(苹果x防窥功能)

  • 尾注编号格式怎么设置(尾注编号格式怎么弄)

    尾注编号格式怎么设置(尾注编号格式怎么弄)

  • 抖音评论删了对方能看到吗(抖音评论删了对方的评论他会知道吗)

    抖音评论删了对方能看到吗(抖音评论删了对方的评论他会知道吗)

  • iphone11是高通基带吗?(苹果11采用高通基带)

    iphone11是高通基带吗?(苹果11采用高通基带)

  • 手机出厂膜要撕掉吗(手机出厂膜撕不掉怎么办)

    手机出厂膜要撕掉吗(手机出厂膜撕不掉怎么办)

  • Win11上DNS服务器错误不可用怎么办?DNS服务器不可用修复方法(win11dns电脑服务器未响应如何处理)

    Win11上DNS服务器错误不可用怎么办?DNS服务器不可用修复方法(win11dns电脑服务器未响应如何处理)

  • python里类自动调用方法有哪些(python调用自定义类)

    python里类自动调用方法有哪些(python调用自定义类)

  • 增值税销项税额账务处理
  • 固定资产税前一次性扣除
  • 结转固定资产清理的会计科目
  • 银行存款对银行的作用
  • 预期信用损失影响坏账准备吗
  • 小规模纳税人收到专票后如何处理
  • 房产交房前开发商要办齐的手续
  • 地产项目开发
  • 抵债资产处置账务实例
  • 进口关税专用缴款书在哪里打印
  • 客户要开票资料干嘛
  • 发票已入账跨年可以红冲重开吗
  • 个体工商户允许哪些经营范围
  • 2021年电子税务局印花税怎么申报
  • 公司注销有哪些原因
  • 累计折旧的计提和处理的分录
  • w11怎么更新
  • 房产税有哪些种类
  • 笔记本如何刷新bios
  • 对外支付需要缴纳增值税吗
  • 供热企业供热费收入的核算
  • koeids.dll
  • 最快的网络传输速率
  • 前端登录退出怎么操作
  • 前端密码加密
  • laravel elementui
  • 建筑劳务 行业
  • 个人信息提供者
  • github ci/cd
  • vue3的unplugin-auto-import自动引入
  • 前端面试题基础篇
  • 2021年前端还火吗
  • addr指令
  • 企业转让专利权属于什么收入
  • 防洪费属于税金及附加吗
  • 建筑企业异地预缴增值税销售额含税吗
  • 退休认证在网上怎么操作
  • java中的static用法
  • 紫白择日法实例详解
  • 企业的留存收益有
  • 什么叫财务台账
  • sqlserver存储过程在哪里
  • 全年一次性奖金税率表2023最新
  • 公司向员工发放的慰问金怎么做账
  • 建筑附加税税率
  • 暂估入库有时间限制吗
  • 营改增阶段
  • 个人所得税缴纳标准怎么计算
  • 知识产权fa
  • 企业亏损为什么还继续
  • 汇算清缴如何调到不退不补
  • 主营业务成本可以直接贷银行存款吗
  • 结账时应当结出每个账户的期末余额对吗
  • mysql --help
  • 案例如何分析
  • vistasp3
  • win7系统玩游戏
  • win8怎么设置自动开机
  • win10激活后是什么样子
  • ubuntu15.04系统怎么使用卸载命令卸载软件?
  • 苹果电脑mac系统怎么升级
  • 双液浆常用配合比
  • 电脑市场调查报告
  • win8无法识别存档文件
  • ssh 使用代理
  • Win8如何根据需要自定义文件管理器导航窗格
  • ubuntu14.04.6安装教程
  • 剑指offter
  • 用jquery制作轮播图效果
  • 用css制作网页的步骤
  • linux多进程编程实例
  • [置顶]马粥街残酷史
  • python获取文件内所有函数
  • jquery java
  • android电话簿
  • android studio的app
  • 企业自建厂房在建工程会计账务处理
  • 消费税的征收范围是如何规定的
  • 白酒消费税应纳税额
  • 中国涉农金融体系包括哪些
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设