<div><div><div>
<p class="my-1 text-base">HierVST 是一种分层自适应零样本语音风格转换模型,它具备以下功能特点:</p><ol class="my-1 list-decimal pl-6">
<li class="my-1 text-base">
<p class="my-1 text-base">零样本语音风格转换:HierVST 可以在没有目标说话者语音数据的情况下,将一个新的说话者的语音风格转换为目标风格。这意味着即使没有目标说话者的语音样本,HierVST 也可以生成具有目标风格的语音。</p>
</li>
<li class="my-1 text-base">
<p class="my-1 text-base">分层自适应结构:HierVST 使用分层自适应生成器,逐步生成音高表示和波形音频,从而实现逐步转换语音的能力。这种结构让模型能够适应新的语音风格,并逐步进行转换。</p>
</li>
<li class="my-1 text-base">
<p class="my-1 text-base">自监督表示学习:HierVST 仅使用语音数据集进行训练,而无需使用文本转录。它采用了层次变分推断和自监督表示学习的方法,提高了模型在音频表示上的性能。</p>
</li>
<li class="my-1 text-base">
<p class="my-1 text-base">性能优于其他模型:在零样本语音风格转换场景中,HierVST 的实验结果表明其性能优于其他 VST 模型,如 AutoVC、VoiceMixer、DiffVC、Speech Resynthesis 和 YourTTS。</p>
</li>
</ol>
</div>
</div>
</div>
暂无数据