口型动画论文解读1:《与汉语语音同步的三维人脸动画的研究》

说明

这是西南交通大学米辉辉的研究生论文,成文于2014年5月。我是从知网下载的。
这篇论文的主要研究的是文本驱动3D人脸动画。也就是包含了TTS及3D模型驱动这两部分。最后的成果就是这样一个软件工具。除了可以做表情,还可以朗读文本,同时生成动画。
在这里插入图片描述
在这里插入图片描述

音素分类

本文主要是生成文本对应的音素流,然后顺次播放每个音素的口型(中间用插值)实现的动画功能。
音素主要划分了10类,5类元音,5类辅音。
在这里插入图片描述

如何得到音素流

本文使用Microsoft Speech SDK 5.0来进行TTS,使用函数可以得到每个汉字对应的起止时间。然后再将每个汉字转化为拼音和对应的音素,这样就得到了音素流和时间的对应关系。
在这里插入图片描述

汉字内部如何划分音素的时间

由于TTS软件只能生成汉字的起止时间,汉字内部的音素时间长短需要另外计算。
音节包含两种音素 : 一种是元音, 另一种是辅音 。元音是属于影响地位的音素,而辅音是属于受影响地位的音素。根据《李皓,陈艳艳,唐朝京.唇部子运动与权重函数表征的汉语动态视位》这篇论文的信息,不同的因素的权重如下:
在这里插入图片描述
根据以上分析,辅音-元音影响的视位权重表达式用式(3-1)表示
在这里插入图片描述
为了实现与语音同步的三维人脸动画,可以通过响应中文TTS所产生的SPEI TTS BOUNDARY事件来估算出每个可视音素开始发音的时刻,每个汉字的持续时间T由相邻两个SPEI TTS BOUNDARY事件发生的时间差来确定。每个汉字持续时间的模拟图,如图 4-4 所示。
在这里插入图片描述
如图 4-4所示,我们需要估算出“爱交大”这三个字的持续时间,在T时刻发出“交”/jia0/,会产生SPEI TTSBOUNDARY事件,在遇到“大”时又会产生SPEI TTS BOUNDARY事件,此时为工时刻,由图4-4可知,“交”的持续时间为T=T-T。通过获得每个汉字发音的起始时间和持续时间,可以根据公式(4-1)计算每个中文可视音素开始发音的时间点:
在这里插入图片描述
上面的公式看着唬人,其实就是先计算每个音素的权重D,然后按比例划分占用时间片。

口型如何获得

上面说了,作者将音素划分为10类,每类一个静态口型。
在这里插入图片描述
作者采用的是Candide-3标准的人脸模型,并添加到了人脸肌肉模型来计算模型端点的位移:
在这里插入图片描述
上面粗的小棍就是模拟的肌肉位置。然后通过调整这些肌肉的参数来计算不同口型对应的3D模型端点的位置。

整体感觉这样有点麻烦了,肌肉模拟的好处是可以模型动态的细致过程, 如果只是得到每个音素对应的静态口型,用3D建模软件来绑定,然后使用形态键来为不同的口型摆造型。后面直接调用blendshapes就可以了。不知道是为了整活好毕业还是作者确实不熟悉3D建模软件。

总结

这篇论文的成果中也有对表情的的实现。但是很可惜只是简单的表情演示,没有将表情和口型动画结合起来。完全可以增加一个情感分析模块,然后在口型动画中增加表情。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-14 19:56:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-14 19:56:05       106 阅读
  3. 在Django里面运行非项目文件

    2024-04-14 19:56:05       87 阅读
  4. Python语言-面向对象

    2024-04-14 19:56:05       96 阅读

热门阅读

  1. 大模型日报2024-04-14

    2024-04-14 19:56:05       44 阅读
  2. vue3 导入excel数据

    2024-04-14 19:56:05       39 阅读
  3. 基于STM32F103C8T6的小四轴无人机悬停代码

    2024-04-14 19:56:05       42 阅读
  4. 从输入url到页面加载的全过程

    2024-04-14 19:56:05       29 阅读
  5. Prompt——促进AI Agent深入思考和反应

    2024-04-14 19:56:05       35 阅读
  6. 【洛谷题解】 P6995 [NEERC2014] Knockout Racing

    2024-04-14 19:56:05       38 阅读
  7. Vue3---基础7(Props)

    2024-04-14 19:56:05       36 阅读
  8. 利用Tess4J实现图片文字识别

    2024-04-14 19:56:05       41 阅读
  9. ActiveMQ + MQTT 集群搭建(docker版本)

    2024-04-14 19:56:05       42 阅读