OpenVoice是一款创新的开源语音克隆与生成技术,它通过先进的深度学习算法,特别是基于Transformer结构的文本转语音(TTS)模型,实现了高精度的音色克隆和灵活的语音风格控制。该技术不仅能够在多种语言和口音中生成语音,还具备零样本跨语言声音克隆的能力,为语音合成领域带来了重大突破。OpenVoice原生支持多种语言,如英语、西班牙语、法语、中文、日语和韩语等。这种多语言支持能力使得OpenVoice在全球范围内具有广泛的应用前景。
下载和使用
搭建环境
- 安装python和anaconda
openvoice指定使用Python 3.9版本解析器,如果已经下载了其他版本的Python也没事,可以下载anaconda适配(anaconda 下载国内好像有点慢,如果需要安装包,在文末可以看到。只提供windows版本)
安装成功后需要配置环境变量
配置pip conda 国内镜像
# 添加清华大学镜像站频道
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
# 添加频道后需要显示频道
conda config --set show_channel_urls yes
# 查询已存在的频道
conda config --get channels
##############pip###############
# 配置使用清华镜像源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 配置信任该镜像源
pip config set install.trusted-host pypi.tuna.tsinghua.edu.cn
升级pip
python -m pip install --upgrade
- 安装ffmpeg
到官网下载6.11版本,并配置环境变量(这玩意国内下载也很慢,如果需要安装包,在文末可以看到)
3. 安装vscode
直接在官网下载就可以了
下载完毕后,需要下载python extension
- 下载源码
如果你有git 去到要保存的文件夹 选择git bash here
直接使用git clone https://github.com/myshell-ai/OpenVoice.git 等待下载完成就可以了
如果没有,直接去官网下载源码压缩包就可以了
VSCode添加Jupyter扩展
输入Jupyter搜索,安装第一个即可,会自动安装附带扩展。
选择Python解析器
新建虚拟环境
选择"Venv"
选择3.9python
6. 安装所需插件
点击OK。过程需要些时间,耐心等待VSCode安装完成。
- 如果出现意外 则需要打开控制台 重新安装插件
pip install -r requirements.txt
需要注意的是 如果出现 (.venv) 说明激活成, 如果没有则需要重新激活
.\.venv\Scripts\activate
- 安装ipykernel
用以激活虚拟环境pip install ipykernel
- 安装ipywidgets
pip install ipywidgets
用于数据分析
- 下载checkpoints(需要梯子,无法下载checkpoints可以在文末获取)
官网点击下载
checkpoints包含中文ZH和英文EN两种语言的模型处理文件。
解压后放到openvoice文件夹下
模型使用
- 点击左侧文件demo_part1.ipynb,然后点击右侧红框部分选择虚拟环境
- 选择Python Environments
可以用conda替代
- 点击所有出现的三角
右侧为此次执行的虚拟环境 - 执行完后可以看到这里的output_source有对应的语音
中文配置
如果要配置自己想要的音色,可以把录音文件复制到resources,替换如下图的MP3文件为自定义的录音文件 例如:
demo_part_02需要api_key
作者经费有限,就没试过啦
相关文件获取
工重号发送【openvoice】即可获得
关联文章