Sora:scalable diffusion models with transformers 文生视频模型
Sora:视频生成模型60s,视频中体现一定的物理逻辑
时空patch,是Sora创新的核心。
Sora 到底是不是物理引擎甚至世界模型?数据驱动的物理引擎
帆船在水里跟随水流浮力上下起伏体现物理逻辑
生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。
目前市面上文生视频模型的主流技术路线主要有两种:
(1)一种基于Transformer模型的技术路线,即从文本及图像中生成
(2)另一种则是基于扩散模型(Diffusion model),如 Runway
Sora融合了Diffusion和Transformer架构,结合在一起的Diffusion Transformer模型,
通过扩散模型(DALL-E3)和转换器架构(ChatGPT)组合,Sora不用预测序列中的下一个文本,
而是预测序列中的下一个“Patch”。
Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。
文生图像/视频常见爆火模型
Dall-E 2021.1 Open AI 文生图模型
Midjourney 2022.3 文生图模型
Stability AI 2023 文生图模型
Runway Stable Diffusion 2022 文生图模型
gen-2 文生视频模型 2023.3 文本、图片、文本+图片直接生成视频
Pika 2023.11.28 文生视频模型 支持生成3D动画、2D动漫、卡通等多种画风的视频
Sora 2024.2.16 Open AI 文生视频模型