cosyvocie 自回归模型忽大忽下问题解决方案

2024-07-14 20:32:01
开发
18

问题

大家在使用 cosy voice 自回归模型时（sft 模型）时，可能遇到声音忽大忽小现象。

解决方案

在生成音频之前，加上标准话音频响度即可。

import pyloudnorm as pyln
import numpy as np
from cosyvoice.cli.cosyvoice import CosyVoice
import torch
import torchaudio


def _norm_loudness(audio, rate):
     """
     标准化音频响度
     :param audio: 音频数据，可以是 PyTorch 张量或 NumPy 数组
     :param rate: 采样率
     :return: 标准化后的音频数据，PyTorch 张量
     """
     if isinstance(audio, torch.Tensor):
         audio = audio.numpy()
     if audio.ndim == 2:
         audio = audio.squeeze()
     meter = pyln.Meter(rate)
     loudness = meter.integrated_loudness(audio)
     normalized_audio = pyln.normalize.loudness(audio, loudness, -16.0)
     return torch.from_numpy(normalized_audio)

def prepare_audio(audio):
    """
    准备音频数据
    :param audio: 音频数据
    :return: 标准化后的音频数据
    """
    if audio.ndim == 1:
        audio = audio.unsqueeze(0)
    return _norm_loudness(audio, 22050)


wav_list = []
cosyvoice = CosyVoice("./pretrained_models/CosyVoice-300M-SFT")
output = cosyvoice.inference_sft(line, "旁白")
tts_speech = prepare_audio(output["tts_speech"])
wav_list.append(tts_speech)
wav_list = [wav if wav.ndim == 2 else wav.unsqueeze(0) for wav in wav_list]
wav_list = torch.concat(wav_list, dim=1)
output_path = os.path.join(f"./tmp/{book_name}/gen", f"{book_name}_{idx}.wav")
torchaudio.save(output_path, wav_list, 22050)

参考

https://github.com/FunAudioLLM/CosyVoice/issues/126

原文地址:https://blog.csdn.net/qq_40938444/article/details/140421611 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812465070584762368.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

cosyvocie 自回归模型忽大忽下问题解决方案

2024-07-14 20:32:01 19 阅读
鼠标滚轮上下滑动忽上忽下怎么办? 鼠标滚轮乱跳的办法

2024-07-14 20:32:01 26 阅读
git已提交的文件夹设置为忽律

2024-07-14 20:32:01 36 阅读
AR 自回归模型

2024-07-14 20:32:01 47 阅读
自回归模型

2024-07-14 20:32:01 25 阅读
RAG解决方案：解决LLM大模型私域数据缺失问题

2024-07-14 20:32:01 28 阅读
逻辑回归模型（非回归问题，而是解决二分类问题）

2024-07-14 20:32:01 33 阅读
大模型解决方案：具体业务场景下的智能表单填充（附代码）

2024-07-14 20:32:01 32 阅读
大模型的不足与解决方案

2024-07-14 20:32:01 28 阅读
AI大模型智慧政务解决方案

2024-07-14 20:32:01 26 阅读

最近更新

题解 - 序列

2024-07-14 20:32:01 85 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-14 20:32:01 71 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-14 20:32:01 66 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-14 20:32:01 70 阅读
NoSQL之Redis非关系型数据库

2024-07-14 20:32:01 73 阅读
2024.7.22 作业

2024-07-14 20:32:01 73 阅读
GDB调试正在运行的程序

2024-07-14 20:32:01 58 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-14 20:32:01 59 阅读
在Django里面运行非项目文件

2024-07-14 20:32:01 57 阅读
SSD基本架构与工作原理

2024-07-14 20:32:01 63 阅读
在誉天学习完HCIE就业吗？

2024-07-14 20:32:01 70 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-14 20:32:01 60 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-14 20:32:01 64 阅读
go 协程池的实现

2024-07-14 20:32:01 63 阅读
Shell脚本循环语句与函数

2024-07-14 20:32:01 64 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-14 20:32:01 69 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-14 20:32:01 61 阅读
四大引用——强软弱虚

2024-07-14 20:32:01 66 阅读
Python语言-面向对象

2024-07-14 20:32:01 68 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-14 20:32:01 62 阅读
网站安全-CDN篇

2024-07-14 20:32:01 63 阅读

热门阅读

k8s之client-go：golang与k8s交互的桥梁

2024-07-14 20:32:01 22 阅读
【C++修炼之路第二章】类和对象上

2024-07-14 20:32:01 15 阅读
FTP客户端 -- FileZilla v3.67.1 官方绿色版

2024-07-14 20:32:01 20 阅读
python 循环

2024-07-14 20:32:01 19 阅读
使用harbor作为chart仓库实现内网部署

2024-07-14 20:32:01 18 阅读
手把手教你写UART（verilog）

2024-07-14 20:32:01 17 阅读
《昇思25天学习打卡营第18天|DCGAN生成漫画头像》

2024-07-14 20:32:01 20 阅读
前端Vue组件化实践：自定义加载组件的探索与应用

2024-07-14 20:32:01 15 阅读
uniapp使用微信登录

2024-07-14 20:32:01 19 阅读
如何写论文的讨论和结论部分，提升审稿通过率300%？（附例句模版）

2024-07-14 20:32:01 22 阅读
为升学加分：10岁女孩的儿童编程学习与成长规划

2024-07-14 20:32:01 21 阅读
Go 初始化一个字典value是列表

2024-07-14 20:32:01 17 阅读
git patch怎么使用？

2024-07-14 20:32:01 20 阅读
git 分支介绍

2024-07-14 20:32:01 20 阅读
Lab1 论文 MapReduce

2024-07-14 20:32:01 16 阅读
对LinkedList和链表的理解

2024-07-14 20:32:01 21 阅读
计组_多处理器的基本概念

2024-07-14 20:32:01 19 阅读
vant-app中加的custom-class为啥审查元素时看不到自定义类名

2024-07-14 20:32:01 17 阅读
Mybatis-plus3.4.3下使用lambdaQuery报错

2024-07-14 20:32:01 21 阅读
通义千问大模型推荐

2024-07-14 20:32:01 17 阅读
无人机光电吊舱技术详解

2024-07-14 20:32:01 20 阅读
NCCL 中的一些辅助debug 知识点

2024-07-14 20:32:01 17 阅读
力扣每日一题：807. 保持城市天际线

2024-07-14 20:32:01 17 阅读
MFC CRectTracker 类用法详解

2024-07-14 20:32:01 18 阅读
Ubuntu 安装 XRDP，替代系统自带RDP远程桌面

2024-07-14 20:32:01 20 阅读
模拟电路再理解系列（2）-电源滤波电路

2024-07-14 20:32:01 22 阅读
iSAM: Incremental Smoothing and Mapping

2024-07-14 20:32:01 17 阅读
[译] Rust标准库有些特殊，让我们改它

2024-07-14 20:32:01 17 阅读
带你快速体验Django web应用

2024-07-14 20:32:01 21 阅读
【Python】ftplib的使用

2024-07-14 20:32:01 19 阅读