视频扩散模型介绍 Video Diffusion Models Introduction

2024-03-11 04:38:02
开发
23

视频扩散模型介绍 Video Diffusion Models Introduction

Diffusion 扩散模型中的一些概念
- DDPM
- DDIM
- CLIP
- Latent Diffusion
- Stable Diifusion
- LoRA
- DreamBooth
- ControlNet
视频生成
Video Editing

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
在这里插入图片描述

在这里插入图片描述

去噪器，预测出来噪声然后与原始图片相减，得到干净的图片

在这里插入图片描述
当然，去噪过程是逐步的，所以减去之后会重新加上“平均噪声”

DDIM

跳步
在这里插入图片描述
DDIM和DDPM作对比：

在这里插入图片描述

CLIP

在这里插入图片描述

Latent Diffusion

不是直接在像素空间进行操作，多了编码解码，在latent空间操作加噪和去噪过程
在这里插入图片描述

Stable Diifusion

在这里插入图片描述

LoRA

微调
在这里插入图片描述

DreamBooth

在这里插入图片描述

ControlNet

在这里插入图片描述

在这里插入图片描述

视频生成

一些已有的工作分类
在这里插入图片描述
3D可以分成（2+1），就是从图片生成到视频生成的一种思路

早期工作：
在这里插入图片描述
解码器+插帧+超分辨率模块

评估标准

在这里插入图片描述

图片层面

语义相似度
在这里插入图片描述

像素相似度
在这里插入图片描述

视频层面

视频生成的质量和多样性
在这里插入图片描述

一致性
在这里插入图片描述

组合评估
在这里插入图片描述

前人的工作

Make-A-Video

在这里插入图片描述

Align your Latents

在这里插入图片描述

开源视频生成模型

ModelScopeT2V（阿里）

在这里插入图片描述

可变temporal attention
在这里插入图片描述

下面是模型效果，ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
在这里插入图片描述

Show-1

在这里插入图片描述

VideoCrafter（tx）

在这里插入图片描述

LaVie

在这里插入图片描述

Stable Video Diffusion

数据处理
在这里插入图片描述

训练过程：
先初始化参数

训练过程

fine-tune阶段
在这里插入图片描述

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Text2Video-Zero 无需训练

动机：如何在不用fine-tune的情况下使用Stable Diffusion

做法：给定第一帧noise后，人为定义全局scene motion

在这里插入图片描述

其他

在这里插入图片描述

Storyboard

前面生成的视频都是几秒钟长度的视频，如果时间要增长，有哪些工作做了

文本->电影脚本->视频

VisorGPT

在这里插入图片描述

VideoDirectorGPT

在这里插入图片描述

Long-form Video Prior

在这里插入图片描述

其他工作

在这里插入图片描述

长视频生成

NUWA-XL

在这里插入图片描述

Video Editing

在这里插入图片描述

Tuning-based

Tune-A-Video

在这里插入图片描述

Sparse-Casual的attention方式节约内存空间，只跟第一帧和前一帧做attention
在这里插入图片描述

Dreamix

在这里插入图片描述

在这里插入图片描述

Training-Free

TokenFlow

在这里插入图片描述

FateZero

在这里插入图片描述

其他工作

在这里插入图片描述

Controlled Editing

Gen-1

在这里插入图片描述

Pix2Video

Control场景里也有不需要训练的方法
在这里插入图片描述

ControlVideo

另外一种不需要训练的方法
在这里插入图片描述

VideoControlNet

CCEdit

在这里插入图片描述

VideoComposer

在这里插入图片描述

其他工作

在这里插入图片描述

Pose Control姿态控制

MagicAnimate

在这里插入图片描述

PointControl

比如图中想把猫换成狗但是背景保留

在这里插入图片描述

只在关键帧标注
在这里插入图片描述

3D-Aware

原文地址:https://blog.csdn.net/m0_51371693/article/details/136478507 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1766926507126689792.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

kibana 上dashbord 和discover 时间快 or 慢 8小时，处理方案

2024-03-11 04:38:02 20 阅读
【算法】KY250日期类

2024-03-11 04:38:02 21 阅读
理清关系简化LeetCode题库第3047题求交集区域内的最大正方形面积问题求解

2024-03-11 04:38:02 21 阅读
稀碎从零算法笔记Day12-LeetCode:找出字符串中第一个匹配项的下标

2024-03-11 04:38:02 21 阅读
算法：上楼梯（递归）

2024-03-11 04:38:02 23 阅读
1.2_2 OSI参考模型

2024-03-11 04:38:02 21 阅读
窗口(c++题解)

2024-03-11 04:38:02 22 阅读
[M数学] lc2834. 找出美丽数组的最小和(数学+找规律+思维)

2024-03-11 04:38:02 24 阅读
再探再报除 0 这件事有不同

2024-03-11 04:38:02 22 阅读
访问一次网站的全过程

2024-03-11 04:38:02 23 阅读
算法之k个一组链表翻转

2024-03-11 04:38:02 22 阅读
Linux篇面试题 2024

2024-03-11 04:38:02 19 阅读
【Leetcoode】2917. 找出数组中的 K-or 值

2024-03-11 04:38:02 23 阅读
网络、网络协议模型、UDP编程——计算机网络——day01

2024-03-11 04:38:02 18 阅读
如何安装Nacos服务器？

2024-03-11 04:38:02 23 阅读
【码银送书第十三期】《ChatGPT原理与架构》

2024-03-11 04:38:02 22 阅读
linux中怎么用shell逐行读取文件

2024-03-11 04:38:02 22 阅读
传统网络组网配置

2024-03-11 04:38:02 23 阅读
Python使用lxml解析XML格式化数据

2024-03-11 04:38:02 19 阅读
【嵌入式实践】【芝麻】【硬件篇-1】从0到1给电动车添加指纹锁：电源电路调研及原理讲解

2024-03-11 04:38:02 22 阅读
不允许你不知道Python作用域

2024-03-11 04:38:02 25 阅读
利用excel批量修改图片文件名

2024-03-11 04:38:02 21 阅读
【leetcode热题】寻找旋转排序数组中的最小值 II

2024-03-11 04:38:02 25 阅读
android pdf框架-6,文本生成pdf

2024-03-11 04:38:02 22 阅读
PythonStudio 控件使用常用方式（十）TLabel和TLinkLabel

2024-03-11 04:38:02 22 阅读
MT笔试题

2024-03-11 04:38:02 20 阅读
bun 单元测试

2024-03-11 04:38:02 21 阅读
checking file system on C

2024-03-11 04:38:02 20 阅读
【AI辅助研发】-开端：未来的编程范式

2024-03-11 04:38:02 25 阅读
Redis笔记

2024-03-11 04:38:02 19 阅读