口型动画论文解读1：《与汉语语音同步的三维人脸动画的研究》

2024-04-14 19:56:05
开发
33

说明

这是西南交通大学米辉辉的研究生论文，成文于2014年5月。我是从知网下载的。
这篇论文的主要研究的是文本驱动3D人脸动画。也就是包含了TTS及3D模型驱动这两部分。最后的成果就是这样一个软件工具。除了可以做表情，还可以朗读文本，同时生成动画。
在这里插入图片描述

音素分类

本文主要是生成文本对应的音素流，然后顺次播放每个音素的口型（中间用插值）实现的动画功能。
音素主要划分了10类，5类元音，5类辅音。
在这里插入图片描述

如何得到音素流

本文使用Microsoft Speech SDK 5.0来进行TTS，使用函数可以得到每个汉字对应的起止时间。然后再将每个汉字转化为拼音和对应的音素，这样就得到了音素流和时间的对应关系。
在这里插入图片描述

汉字内部如何划分音素的时间

由于TTS软件只能生成汉字的起止时间，汉字内部的音素时间长短需要另外计算。
音节包含两种音素：一种是元音, 另一种是辅音。元音是属于影响地位的音素，而辅音是属于受影响地位的音素。根据《李皓,陈艳艳,唐朝京.唇部子运动与权重函数表征的汉语动态视位》这篇论文的信息，不同的因素的权重如下：
在这里插入图片描述
根据以上分析，辅音-元音影响的视位权重表达式用式(3-1)表示

为了实现与语音同步的三维人脸动画，可以通过响应中文TTS所产生的SPEI TTS BOUNDARY事件来估算出每个可视音素开始发音的时刻，每个汉字的持续时间T由相邻两个SPEI TTS BOUNDARY事件发生的时间差来确定。每个汉字持续时间的模拟图，如图 4-4 所示。
在这里插入图片描述
如图 4-4所示,我们需要估算出“爱交大”这三个字的持续时间,在T时刻发出“交”/jia0/，会产生SPEI TTSBOUNDARY事件，在遇到“大”时又会产生SPEI TTS BOUNDARY事件，此时为工时刻，由图4-4可知，“交”的持续时间为T=T-T。通过获得每个汉字发音的起始时间和持续时间，可以根据公式(4-1)计算每个中文可视音素开始发音的时间点:
在这里插入图片描述
上面的公式看着唬人，其实就是先计算每个音素的权重D，然后按比例划分占用时间片。

口型如何获得

上面说了，作者将音素划分为10类，每类一个静态口型。
在这里插入图片描述
作者采用的是Candide-3标准的人脸模型，并添加到了人脸肌肉模型来计算模型端点的位移：

上面粗的小棍就是模拟的肌肉位置。然后通过调整这些肌肉的参数来计算不同口型对应的3D模型端点的位置。

整体感觉这样有点麻烦了，肌肉模拟的好处是可以模型动态的细致过程, 如果只是得到每个音素对应的静态口型，用3D建模软件来绑定，然后使用形态键来为不同的口型摆造型。后面直接调用blendshapes就可以了。不知道是为了整活好毕业还是作者确实不熟悉3D建模软件。

总结

这篇论文的成果中也有对表情的的实现。但是很可惜只是简单的表情演示，没有将表情和口型动画结合起来。完全可以增加一个情感分析模块，然后在口型动画中增加表情。

原文地址:https://blog.csdn.net/yuanlulu/article/details/137715633 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1779478731090432000.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部