大搜车宣布收购云阳科技
06-18
据雷锋网报道,12月8日至14日在温哥华举行的顶级机器学习会议之一的NeurIPS会议上,来自微软和浙江大学推出了文本转语音模型FastSpeech,可以显着提高文本转语音转换过程中的语音生成速度,语音生成速度比基线快38倍。
雷锋网注:【图片来源:VentureBeat 所有者:VentureBeat】目前,Google Assistant 语音助手以及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的声音乍一看几乎就像人类的声音。
事实上,这些语音助手是由文本转语音模型提供支持的。
目前,基于神经网络的端到端文本语音合成技术正在迅速发展。
大多数模型的合成方法是从文本生成Mel-Spectrogram(显示声音功率的声谱图),然后使用声编码到编解码器(分析和合成语音信号的编解码器)合成语音。
但这种合成方法存在一些不可避免的问题,主要包括:速度慢:端到端模型通常以自回归的方式生成梅尔谱,然后通过声码器合成语音,一段语音的梅尔谱可以通常达到几十万帧,导致合成速度慢;稳定性差:序列生成中的错误传播和注意力对齐不准确会导致单词重复或缺失;缺乏可控性:自回归神经网络模型自动确定一条语音生成的长度、语音速度或有节奏的停顿,不易控制。
为了解决这些问题,微软(亚洲)互联网工程院和浙江大学的语音团队提出了一种新的机器学习模型FastSpeech,并在论文《FastSpeech:快速、强大且可控的文本-语音模型》中详细介绍了该模型。
另外,值得一提的是,该论文已被温哥华 NeurIPS 会议接收。
【图片来源:论文】与其他文本-语音模型相比,FastSpeech模型架构独特,性能更好(其梅尔谱生成速度比基线快3倍,语音生成速度比基线快38倍) 。
不仅如此,它还可以避免跳词等错误,还支持语速和断词的微调。
更重要的是,FastSpeech 包含一个长度调节器,可以协调 梅尔谱 序列和音素序列(即具有不同感知能力的声音单位)之间的差异。
简单来说,由于音素序列的长度总是小于梅尔谱序列的长度,因此一个音素对应多个梅尔谱。

长度调整器根据持续时间扩展音素序列以匹配 梅尔谱 序列长度(互补的持续时间预测器组件确定音素的持续时间)。
增加或减少与音素或音素持续时间匹配的声音数量可以按比例调整语速。
【图片来源:论文】为了验证 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集进行了比较,该数据集包含 0 个英语音频片段(相当于 24 小时的音频)和相应的文本转录。
将数据集随机分为0个样本用于训练、0个样本用于验证、0个样本用于测试后,他们对语音质量、稳定性等进行了一系列评估。
在论文中,研究团队主要评估了FastSpeech模型从音频质量、生成速度(推理加速)、稳定性(鲁棒性)和可控性等方面进行评估。
研究团队表示,FastSpeech 的质量几乎相当于 Google 的 Tacotron 2 文本转语音模型,稳定性轻松超过主流 Transformer 模型。
与此同时,与基线 34% 的有效错误率相比,FastSpeech 的有效错误率为零。
(但不可否认,其稳定性测试仅涉及 50 个语义复杂的句子)此外,FastSpeech 可以在保持准确性的同时将生成语音的速度从 0.5 倍提高到 1.5 倍。
因此,研究团队表示FastSpeech快速、鲁棒、可控。
【图片来源:论文】在论文的最后,研究团队还提到,未来将把 FastSpeech 和更快的声码器组合成单个模型,以提供完整的端到端文本转语音解决方案。
来自 VentureBeat,雷锋网编译。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-18
06-06
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态