让图片说话SadTalker

2024-02-22 01:16:01
开发
33

SadTalker：使用一张图片和一段语音来生成口型和头、面部视频.
西安交通大学开源了人工智能SadTalker模型，通过从音频中学习生成3D运动系数，使用全新的3D面部渲染器来生成头部运动，可以实现图片+音频就能生成高质量的视频。
论文地址：Learning Realistic 3D Motion Coefficients
整体来说 Talking head 就是用语音驱动每一帧图片的表情（眼睛、嘴巴等）和头部（head motion）运动，并重建人脸以生成视频。表情运动是局部的，头部运动是全局的，且表情跟声音的关系比较强，头部姿态跟声音的关系比较弱，将这两个系数解耦开可以减少人脸扭曲。

sadtalker的原理基于深度学习技术,主要包括两个关键步骤:情感分类和文本生成。

安装Python 3.8并选中“将Python添加到PATH”。
手动安装 git 或使用 Scoop：scoop install git。
按照本教程或使用 scoop 安装 ffmpeg：scoop install ffmpeg。
通过运行
git clone

原文地址:https://blog.csdn.net/selifecn/article/details/136192884 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1760352686345162752.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

让图片说话SadTalker

相关推荐

最近更新

热门阅读