腾讯开源人像照片生成视频模型V-Express

2024-06-08 05:18:04
开发
8

网址

https://github.com/tencent-ailab/V-Express

下面是github里的翻译：

在人像视频生成领域，使用单张图像生成人像视频变得越来越普遍。一种常见的方法是利用生成模型来增强受控发电的适配器。

但是，控制信号的强度可能会有所不同，包括文本、音频、图像参考、姿势、深度图等。其中，较弱的条件往往由于较强条件的干扰而难以有效，这对平衡这些条件构成了挑战。

在人像视频生成方面，我们发现音频信号特别弱，经常被姿势和原始图像等较强的信号所掩盖。然而，使用弱信号进行直接训练往往会导致收敛困难。

为了解决这个问题，我们提出了V-Express，这是一种简单的方法，通过一系列渐进式丢弃操作来平衡不同的控制信号。

我们的方法逐渐实现了弱条件下的有效控制，从而实现了同时考虑姿势、输入图像和音频的生成能力。

原文地址:https://blog.csdn.net/hjx_dou/article/details/139528169 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1799189103263223808.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部