VALL-E X是一个强大而创新的多语言文本转语音(TTS)模型,最初由微软发布。虽然微软在他们的研究论文中提出了该概念,但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。我们很乐意与社区分享我们的预训练模型,让每个人都能体验到次世代TTS的威力。

VALL-E X_免费音频声音克隆工具 第5张插图

VALL-E X模型的最大特点是能够在仅3秒内实现声音克隆,将任何人的声音转换成语音。这项技术的应用非常广泛,比如可以用于电影、广告、电子游戏等领域,也可以用于智能客服和教育等领域。无论是为了娱乐还是商业用途,VALL-E X都是一个非常有价值的技术工具。

本地安装

使用pip安装,推荐使用Python 3.10,CUDA 11.7 ~ 12.0,PyTorch 2.0+

注意:如果需要制作prompt,需要安装 ffmpeg 并将其所在文件夹加入到环境变量PATH中

第一次运行程序时,会自动下载相应的模型。如果下载失败并报错,请按照以下步骤手动下载模型。

(请注意目录和文件夹的大小写)

1.检查安装目录下是否存在checkpoints文件夹,如果没有,在安装目录下手动创建checkpoints文件夹(./checkpoints/)。

2.检查checkpoints文件夹中是否有vallex-checkpoint.pt文件。如果没有,请从这里 手动下载vallex-checkpoint.pt文件并放到checkpoints文件夹里。

3.检查安装目录下是否存在whisper文件夹,如果没有,在安装目录下手动创建whisper文件夹(./whisper/)。

4.检查whisper文件夹中是否有medium.pt文件。如果没有,请从这里 手动下载medium.pt文件并放到whisper文件夹里。