位置: IT常识 - 正文

tune a video:one-shot tuning of image diffusion models for text-to-video generation

编辑:rootadmin
tune a video:one-shot tuning of image diffusion models for text-to-video generation

推荐整理分享tune a video:one-shot tuning of image diffusion models for text-to-video generation,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!_哔哩哔哩_bilibili【Diffusion Models】新加坡国立大学、腾讯强强联手Tune-A-Video:One-Shot微调图像扩散模型用于文本到图像的生成!共计2条视频,包括:[论文代码阅读]Tune-A-Video_ One-Shot微调图像扩散模型用于文本到图像的生成新加坡国立大学、腾讯、3连等,UP主更多精彩视频,请关注UP账号。https://www.bilibili.com/video/BV1q24y1V79k/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22视频生成和图像生成最大的不同在于要保证视频的连续性,运动主体不能变且运动主体的状态背景等不能产生突变,因此视频生成是一定要添加约束信息的,本文是在图像生成的基础上(T2I)通过特定设计的finetune来完成视频生成(T2V),作者说人类可以通过一个视频就能学习到新的试卷概念,因此设计了one shot video generation。怎么做呢?首先作者升级了stable diffusion的架构将2d卷积换成了3d卷积,并且将self-attention扩展到时空域,但转换之后的计算量会飙升,作者提出了sparse-causal attention,每一帧只和第一帧以及前一阵计算attention,可以极大减少计算量,在训练时,通过一段视频和相应的text进行微调,在推理时,要保证动词的一致性,可以更换背景和主题,依然能产生很好的连续性,one shot的视频实际上就是让T2I模型去学动作的。

如上图所示,第一行为原始的训练视频,训练完成之后,第二、三、四行均为推理视频,可见tune a video产生了主体一致性和动作一致性。

abstract:在现实中没有足够的视频文本对来训练T2V,人类可以从一个样本中学习新的视觉概念,因此本文研究一个新的方向,one shot视频生成,仅使用一个文本-视频对来训练一个T2V,基于已有的T2I的扩散的能力。有两个关键点,1.T2I模型能够生成很好的与动词相对齐的图像,2.扩展T2I模型同时产生多个图像有良好的一致性。为了进一步学习连续运动,采用定制的sparse-causal attention来微调模型。

1.introduction

视频生成的关键是保持一致主体的连续运动,motion and consistent object,如上图所示,第一行,给定text,例如一个男人正在沙滩上跑步,T2I能够很好的对齐动词信息,但是背景不同且不是一致的。但证明T2I可以通过cross-model attention来注意到动词。第二行作者采用了扩展的T2I模型,将T2I模型的中self-attention从一张图扩展到多张图保持跨帧时的内容一致性,并行的生成帧时都和第一帧做attention,可以看到尽管动作还不是连续的,但是主体背景等信息是一致的。可推论self-attention层仅由spatial similarities驱动而不是pixel positions(这块的解释可以从框架角度理解,因为最终推理时是无法改变one shot时学习的动作的,也就是说模型最终学习到的还是一致的空间相似度)。

tune a video:one-shot tuning of image diffusion models for text-to-video generation

        tune a video对T2I在时间维度的简单膨胀,1.将3x3 conv换成1x3x3(unet中resnet卷积),2.将spatial self-attention 换成spatio-temporal cross-frame attention。提出了一个简单的tune策略,只更新attention block中的投影矩阵,从one-shot视频中捕获连续的运动状态,其余参数均被冻结。但是spatio-temporal cross-frame attention参数量很大,提出了一个新的变体,sparse-causal attention(SC-Attn),它只计算第一帧和前一帧,自回归生成视频。

2.method

上图是本文的框架, 在fine-tune之前,现将T2I模型膨胀成T2V,其中T2V中的部分参数是从T2I中初始化的,然后采用一个视频去fine-tune,推理时,给定一个text即可生成视频,但是视频中动作是不能变的,one shot的视频就是一个动作。

上图是pipeline,首先输入视频和文本,在unet中有三attention,第一个是SC-Attn,第二个是cross-Attn(不同模态之间的attn),第三个是新增的Temp-Attn,黄色表示不断更新的,灰色表示不更新的其中Q,query是不断更新的,KV是不更新。右侧是sparse-causal attention,计算第i帧,要取到第1帧和i-1帧,之后分别投影得到KV,再计算softmax。

上式可以看到Q是第i帧通过投影矩阵产生,但是K和V就不是了,常规操作,ldm中text conditional都是加在KV上的。这里,第一帧做attention能够保证在生成内容上的全局一致性,与前一帧计算attention能够保持运动的一致性,连续性。

network inflation

普通的unet是由多层2d convolution residual blocks构成,后续是attention,每一个attention是由一个self-attention、一个cross-attention和一个feed-forward network构成,spatial self-attention利用特征图上pixel locations来实现similar correlations,cross-attention则考虑pixel和conditional input(text)之间的相关性。

        首先对输入视频使用1x3x3的卷积,可以将frame的1转到batch处理,所以2d还是可以的。

sparse-casual attention

如上图所示,v表示帧,第一个是spatial attention,在单帧之间做attention,第二张图是spatio-temporal attention,每一帧和所有帧之间计算attention,计算量是第一张图的平方,第三张图是causal attention,第i帧只会和所有的i-1帧计算attention,第四张图就是本文使用的sparse-causal attention,第四帧只与第一帧和第三帧计算attention,是前一张图的稀疏版本。

本文链接地址:https://www.jiuchutong.com/zhishi/299430.html 转载请保留说明!

上一篇:Vue+element ui实现好看的个人中心(vue-element)

下一篇:overflow:auto的用法和实现弹性盒横向滚动(overflow常见释义)

  • realmex50pro支持息屏显示的吗(realmex50pro支持vooc)

    realmex50pro支持息屏显示的吗(realmex50pro支持vooc)

  • 发消息给注销的微信对方会收到吗(发消息给注销的qq号)

    发消息给注销的微信对方会收到吗(发消息给注销的qq号)

  • 华为手机怎么换机(华为手机怎么换卡怎么取卡)

    华为手机怎么换机(华为手机怎么换卡怎么取卡)

  • 荣耀手机怎样隐藏桌面上的应用(荣耀手机怎样隐藏桌面图标)

    荣耀手机怎样隐藏桌面上的应用(荣耀手机怎样隐藏桌面图标)

  • excel无法新增列怎么办(excel无法新增列,提示会挤掉末尾单元格分类汇总)

    excel无法新增列怎么办(excel无法新增列,提示会挤掉末尾单元格分类汇总)

  • med-aloo是什么型号(med -al00是什么型号)

    med-aloo是什么型号(med -al00是什么型号)

  • 趣呗怎么定位对方(趣呗定位对方知道吗)

    趣呗怎么定位对方(趣呗定位对方知道吗)

  • 不挂小黄车可以直播卖货吗(不挂小黄车可以宣传商品吗)

    不挂小黄车可以直播卖货吗(不挂小黄车可以宣传商品吗)

  • 小米6x充电电量不涨(小米6x充电到78就不动了)

    小米6x充电电量不涨(小米6x充电到78就不动了)

  • 三星S20能否设置90hz(三星s20fe怎么设置)

    三星S20能否设置90hz(三星s20fe怎么设置)

  • 荣耀30耳机孔在哪里(荣耀30耳机孔在哪个地方)

    荣耀30耳机孔在哪里(荣耀30耳机孔在哪个地方)

  • iphone无线局域网无法打开(iphone无线局域网按钮点不动)

    iphone无线局域网无法打开(iphone无线局域网按钮点不动)

  • iphone闹钟会自己停吗(iphone闹钟自动响)

    iphone闹钟会自己停吗(iphone闹钟自动响)

  • 手机爱奇艺画面比例(手机爱奇艺画面比例设置不见了怎么办)

    手机爱奇艺画面比例(手机爱奇艺画面比例设置不见了怎么办)

  • 如何调整纸张大小(如何调整纸张大小为A3)

    如何调整纸张大小(如何调整纸张大小为A3)

  • 手机照片怎么打马赛克(手机照片怎么打包)

    手机照片怎么打马赛克(手机照片怎么打包)

  • 趣键盘为什么不能直接发送(趣键盘怎么提现不了了?)

    趣键盘为什么不能直接发送(趣键盘怎么提现不了了?)

  • 抖音直播点亮什么意思(抖音直播点灯什么意思)

    抖音直播点亮什么意思(抖音直播点灯什么意思)

  • 华为移动服务是什么功能(华为移动服务是干嘛的)

    华为移动服务是什么功能(华为移动服务是干嘛的)

  • ios13如何查找别人位置(ios13如何查找别人手机)

    ios13如何查找别人位置(ios13如何查找别人手机)

  • 苹果11抗摔吗(苹果11抗摔嘛)

    苹果11抗摔吗(苹果11抗摔嘛)

  • 普通手机充快充会炸吗(普通手机充快充会损坏电池吗)

    普通手机充快充会炸吗(普通手机充快充会损坏电池吗)

  • 抖音放大镜效果在哪(抖音放大镜效果在哪2020)

    抖音放大镜效果在哪(抖音放大镜效果在哪2020)

  • 如何将qq音乐导入ipod(如何将qq音乐导出)

    如何将qq音乐导入ipod(如何将qq音乐导出)

  • 怎么设置qq音乐歌单非公开(怎么设置qq音乐锁屏显示)

    怎么设置qq音乐歌单非公开(怎么设置qq音乐锁屏显示)

  • 8p和xr屏幕对比(8p跟xr屏幕对比)

    8p和xr屏幕对比(8p跟xr屏幕对比)

  • 税务申报指的是什么
  • 同一控制下的长期股权投资入账成本
  • 纳税调整增加额和递延所得税资产
  • 营业外收入怎么算增值税
  • 增值税纳税申报表附列资料(二)
  • 工程检测单位
  • 文化事业建设费减免政策
  • 转让无形资产增值税
  • 房屋租赁个人所得税缴纳标准是多少
  • 行政事业单位暂付款无法收回该怎么处理
  • 现金不够怎么办
  • 一般纳税人从按照简易计税方法依照3%
  • 简易计税的应交所得税
  • 小规模纳税人增值税怎么算
  • 普票开错了能退税吗
  • 公积金贷款利息现在是多少
  • 财产清查中固定资产盘亏
  • 戴尔笔记本电脑哪款性价比最高
  • 总资产报酬率是怎么算出来的
  • 其他债权投资的交易费用计入什么科目
  • 退多收款怎么做分录
  • 企业所得税法规定,企业购置并实际使用
  • mac桌面的东西怎么放回去
  • 吕宋岛以南坐落着21座极大的岛屿
  • 通讯费补贴如何入账
  • 事业单位增值税可以抵扣吗
  • js实现功能
  • 深度学习论文精读[6]:UNet++
  • 进项税忘了加计怎么处理
  • 织梦cms不更新了吗
  • C语言中如何计算除法
  • 电商企业快递费怎么算
  • 公账转给员工工资情况说明怎么写
  • 预收货款开具专用发票
  • 收到退货怎么做会计分录
  • 纳税人按照月度或者季度的实际利润额预缴有困难的
  • SQL Server 2008+ Reporting Services (SSRS)使用USER登录问题
  • 预提费用增加在借方还是贷方
  • 进项税抵扣的分录怎么做
  • 销售收入五步法
  • 应交税费属于什么负债
  • 其他人挂靠公司交社保会计处理怎么做?
  • 成本结转的凭证后附件是怎样的
  • 营业外收入是损益类账户吗
  • 已经认证的进项票销售方冲红了
  • 进项转出再转入
  • 收到损坏物品赔偿金如何入账
  • 预付账款跨年处理分录
  • 固定资产确认条件最新
  • 建立明细账的操作步骤
  • 多个客户账款明细
  • 记账凭证的附件数可以手改吗
  • 产成品核算的内容
  • mysql 绿色
  • mysql中字符串类型
  • ubuntu怎么安装程序
  • linux中,什么命令可以控制口令的存活时间?
  • win8怎么设置自动开机
  • linux文件权限的含义
  • win7系统如何设置息屏
  • win7系统怎么禁用数字签名
  • win8系统忘记密码电脑重置
  • php创建注释的方法
  • macbook core2
  • python模糊搜索字符串
  • node定时任务框架
  • pycharm官方教程
  • js cookie用法
  • 用vue做项目加入购物车是怎么做到的
  • node .js
  • 手机 日常应用 单核 多核
  • 手游 unity
  • gridlayout用法
  • 安卓通知栏管理工具
  • 湖北生育登记网上服务大厅官网查询
  • 四川税务服务大厅
  • 广东税务实名注册
  • 建筑工程开票要在项目所在地
  • 纳税申报逾期怎样补报?
  • 天津市东丽区军粮城派出所电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设