位置: IT常识 - 正文

【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation(论文精读分析报告)

编辑:rootadmin
【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generationvideo-to-videoAbstractIntroductionMethodDiffusion ModelsLatent Diffusion ModelOne-shot Video GenerationOur Tune-A-Videoattention blockOne-Shot TurningExperimentvideo-to-video

推荐整理分享【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation(论文精读分析报告),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:精读一篇论文要多久,论文精粹,论文精读报告怎么写,论文精读分享,精读论文题目,论文精读分享,论文精读分享,论文精读分享,内容如对您有帮助,希望把文章链接给更多的朋友!

修改文本内容,生成新的视频。

Abstract

由于T2I的成功,近日T2V的方法在大量的T2I的数据集中加入fine-turning.我们试图给出一个One-Shot Video Generation。 1、产生图像与动词对齐。 2、扩展文本到图像的模型,同时生产多张图片。 作者提出Turn a video的方法,高效的fine-turn翻译成2D的扩散模型,通过文本生成视频。改变元素、背景或者风格的转换。

Introduction

让模型具有One-Shot的能力。 原模型:缺乏连贯性,动作、背景不连贯。不符合对视频生成的要求。 新模型:增加了Self-Attention(由空间相似性驱动,而不是像素的位置),增加了连贯性,主体一致性

预训练文本-视频,由3×3扩展到1×3×3 具有结构相似性。

寄存量呈平方式增加(过大), 提出Sparse-Causal Attention(SC-Attn) 对于因果Attentiion的变形,稀疏版本。 该方法可以回归生成任意长度的视频帧。 Sparse-Causal是Causal的稀疏版

上:膨胀成文本到视频 下:新的文本,生成对应视频(动作不变) pipeline diffusion U-NET模型,下方attention模型,修改为Sparse-Causal Attention。

【论文精读】Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation(论文精读分析报告)

concat

投影到矩阵。

MethodDiffusion ModelsLatent Diffusion ModelOne-shot Video Generation

生成相同语义信息。 无法生成连续的动作

动作词语需要一致

Our Tune-A-Video

“膨胀” 2D的convolution

3×3 1×3×3(frame层转移到batch,依然是2D)

attention block

①a spatial self-attention ②a cross attention

One-Shot Turning

KEY和VALUE由前一帧推断出

应用场景:元素修改,背景替换,风格迁移

Experiment

消融实验

本文链接地址:https://www.jiuchutong.com/zhishi/299937.html 转载请保留说明!

上一篇:数据挖掘(4.1)--分类和预测(数据挖掘的四种基本方法)

下一篇:react——路由(react中路由有哪些常用组件)

  • SteamOS 3.2 进入稳定通道(steam 32位启动)

  • iqoo neo5是5g手机吗(iqoonoe5是不是5g)

  • 苹果电脑风扇一直响是什么原因啊(苹果电脑风扇一直响)

  • 快手官方认证需要什么条件(快手官方认证有什么好处)

  • 微信打开文件闪退是什么原因(微信一点文件就闪退)

  • 手机wps发生异常无法分享(手机wps发生异常怎么解决)

  • iphone7有没有无线充电(iphone7 有无线充电吗)

  • ipadair2有3dtouch(ipadair2有3dtouch吗)

  • 手机上的sos功能有什么作用(手机的sos功能重要吗)

  • 多媒体计算机系统包括什么(多媒体计算机系统必备的基本特性有)

  • 淘宝收货后多久自动好评(淘宝收货后多久可以开发票)

  • 华为mate9发布会时间(华为mate9发布会价格)

  • 手机突然声音变小了怎么回事(手机突然声音变沙哑了又小了是什么回事)

  • 怎样用微信支付钱(怎样用微信支付公交车费用)

  • 目录生成不完整怎么办(为什么论文目录生成不完整)

  • wps表格转为文本(wps表格转为文本怎么操作)

  • 苹果x手机怎么截屏(苹果x手机怎么录屏)

  • 华为p30充电要多久(华为p30充电要多久才能充满)

  • 快手关注上限怎么解除(快手关注上限怎么取消)

  • 有微信号怎么查快手(有微信号怎么查抖音号)

  • 韩版s10和国行的区别(韩版三星s10跟国行区别很大么)

  • 苹果max手机怎么关机(苹果max手机怎么查看室内运动轨迹)

  • qq音乐巅峰榜在哪里投票(qq音乐巅峰榜在哪里看)

  • vivox27耳机型号(vivo手机x27耳机是什么样)

  • 苹果手机录音配背景音乐教程(苹果手机录音配音乐怎么配)

  • 戴尔电脑vt开启教程(戴尔开启vt教程)

  • mysql使用的基础规范(mysql用在哪些方面)

  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设 电脑维修 湖南楚通运网络