泰国按摩群

社旗修车群

发布日期:2025-12-17 13:25    点击次数:52

TTS之Seed-VC:Seed-VC的简介、装配和使用步伐、案例应用之详备攻略社旗修车群

Seed-VC 神色简介

2024年9月,Seed-VC是一个先进的零样本语音调度和唱歌语音调度模子,它行使险峻体裁习手艺,无需任何历练即可克隆语音。只需提供1到30秒的参评语音,Seed-VC就能调度大肆语音到目口号音立场。该神色现在复旧零样本语音调度、零样本及时语音调度和零样本唱歌语音调度。

GitHub地址:https://github.com/Plachtaa/seed-vc

1、Seed-VC 的特色

>> 零样本语音调度:无需针对场合话语东说念主进行历练,即可将语音调度成场合话语东说念主的声息。 >> 零样本及时语音调度:复旧及时语音调度,大致进行即时的语音克隆。 >> 零样本唱歌语音调度:大致将语音调度成场合话语东说念主的歌声。 >> 高性能:在客不雅评估中,Seed-VC在语音明晰度和话语东说念主雷同度方面显耀优于OpenVoice和CosyVoice等基准模子,致使在某些情况下也优于一些非零样本语音调度模子(如So-VITS-4.0)。 >> 多语言复旧:神色提供英文、简体中语和日语的README文档。 >> 多种接口:提供号令行接口、Gradio网页界面和及时语音调度GUI。

Seed-VC 的装配和使用步伐 1、装配

淡薄使用Python 3.10版块在Windows或Linux系统上动手。装配依赖包:

pip install -r requirements.txt
2、使用步伐: T1、号令行接口​​​​​​​
python inference.py --source <source-wav>
--target <referene-wav>
--output <output-dir>
--diffusion-steps 25 # recommended 50~100 for singingvoice conversion
--length-adjust 1.0
--inference-cfg-rate 0.7
--f0-condition False # set to True for singing voice conversion
--auto-f0-adjust False # set to True to auto adjust source pitch to target pitch level, normally not used in singing voice conversion
--semi-tone-shift 0 # pitch shift in semitones for singing voice conversion

参数诠释:

source:待调度语音文献的旅途。

target:目口号音(参评语音)文献的旅途。

output:输出目次的旅途。

diffusion-steps:扩散要领数,默许25,唱歌语音调度淡薄使用50-100,快速调度不错使用4-10。

length-adjust:长度颐养因子,默许1.0,小于1.0加速语音速率,大于1.0降速语音速率。

inference-cfg-rate:对输出有微弱影响,默许0.7。

f0-condition:是否凭据源音频的音高颐养输出音高,默许False,唱歌语音调度竖立为True。

auto-f0-adjust:是否自动颐养源音频音高到场合音高水平,默许False,唱歌语音调度频频不使用。

semi-tone-shift:唱歌语音调度的音高偏移(半音),默许0。

T2、Gradio 网页界面

动手 python app.py,然后在浏览器掀开 http://localhost:7860/ 使用网页界面。

python app.py
T3、在线测试

测试地址:Seed-VC

3、及时语音调度GUI

动手 python real-time-gui.py。激烈淡薄使用GPU进行及时语音调度。 神色中提供了不同GPU确立下的参数淡薄,以优化性能和质料。

python real-time-gui.py
Seed-VC 的案例应用

神色提供了多数的客不雅评估成果,包括零样本语音调度和零样本唱歌语音调度的评估。

1、零样本语音调度评估

使用LibriTTS-test-clean数据集的100个就地语句当作源音频,以及12个就地选拔的实在语音当作参考音频。评估缠绵包括话语东说念主镶嵌余弦雷同度(SECS)、词空虚率(WER)和字符空虚率(CER)。成果标明,Seed-VC显耀优于OpenVoice和CosyVoice基准模子。 还与非零样本模子(So-VITS-4.0)进行了比拟,成果显露Seed-VC即使未在场合话语东说念主上进行历练,也能得到更好的成果。

python eval.py 
--source ./examples/libritts-test-clean
--target ./examples/reference
--output ./examples/eval/converted
--diffusion-steps 25
--length-adjust 1.0
--inference-cfg-rate 0.7
--xvector-extractor "resemblyzer"
--baseline ""  # fill in openvoice or cosyvoice to compute baseline result
--max-samples 100  # max source utterances to go through
2、零样本唱歌语音调度评估

使用M4Singer数据集进行评估,比拟了Seed-VC与针对每个话语东说念主历练的RVCv2-f0-48k模子。评估缠绵包括F0CORR、F0RMSE、SECS和CER社旗修车群。成果显露,Seed-VC在话语东说念主雷同度和明晰度方面优于RVCv2模子,但音频质料略低,神色组默示往常会优先校正音频质料。

本站仅提供存储劳动,总计实质均由用户发布,泰国按摩群如发现存害或侵权实质,请点击举报。




Powered by 泰国按摩群 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2025