机器学习笔记 - 文字转语音技术路线简述以及相关工具不完全清单

一、TTS技术简述

        今天的文本到语音转换技术(TTS)的目标已经不仅仅是让机器说话,而是让它们听起来像不同年龄和性别的人类。通常,TTS 系统合成器的质量是从不同方面进行评估的,包括合成语音的清晰度、自然度和偏好,以及人类感知因素,例如可理解性。

1、技术路线

(1)基于拼接合成的方法

        拼接合成(Concatenative Synthesis)的方法就是将预先录制好的语音片段存储在数据库中,根据输入文本,选择并拼接相应的语音片段来合成语音。 这种方式语音质量高,自然度好。 但需要大量的语音数据,灵活性较差,难以适应新的发音或语调变化。

        一些开源项目Festival:、 MaryTTS、Flite等。

(2)基于参数合成的方法

        参数合成(Parametric Synthesis)的方法是使用统计模型来学习语音的声学特征,并根据输入文本生成语音参数,最终合成语音。其背后的想法是,如果我们能够对构成语音的参数进行近似,我们就可以训练一个模型来生成各种语音。参数方法结合参数,包括基频、幅度谱等,并处理它们以生成语音。

        第一步,处理文本以提取语言特征,例如音素或持续时间。第二步需要提取声码器特征,例如倒谱、频谱图、基频等,这些特征代表人类语音的一些固有特征

相关推荐

  1. 机器学习笔记 - Python数据清理通用流程简述

    2024-04-07 07:12:02       37 阅读
  2. 【Trick】机器学习技术路线

    2024-04-07 07:12:02       38 阅读
  3. ACM算法学习路线清单

    2024-04-07 07:12:02       26 阅读
  4. 文本图像 学习笔记

    2024-04-07 07:12:02       60 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-07 07:12:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-07 07:12:02       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-07 07:12:02       82 阅读
  4. Python语言-面向对象

    2024-04-07 07:12:02       91 阅读

热门阅读

  1. jenkins_Pipeline_grooy&常见的dsl

    2024-04-07 07:12:02       45 阅读
  2. 在类Unix平台实现TCP服务端

    2024-04-07 07:12:02       40 阅读
  3. 识别语序成语的简单神经网络

    2024-04-07 07:12:02       35 阅读
  4. Android10以上版本调用相机拍照

    2024-04-07 07:12:02       34 阅读
  5. JVM总结

    2024-04-07 07:12:02       32 阅读