首页 > 科技未来 > 内容

微软联合浙江大学开发新AI模型，解决语音助手卡顿问题

发布于：2024-06-18 编辑：匿名来源：网络

据雷锋网报道，12月8日至14日在温哥华举行的顶级机器学习会议之一的NeurIPS会议上，来自微软和浙江大学推出了文本转语音模型FastSpeech，可以显着提高文本转语音转换过程中的语音生成速度，语音生成速度比基线快38倍。

雷锋网注：【图片来源：VentureBeat 所有者：VentureBeat】目前，Google Assistant 语音助手以及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的声音乍一看几乎就像人类的声音。

事实上，这些语音助手是由文本转语音模型提供支持的。

目前，基于神经网络的端到端文本语音合成技术正在迅速发展。

大多数模型的合成方法是从文本生成Mel-Spectrogram（显示声音功率的声谱图），然后使用声编码到编解码器（分析和合成语音信号的编解码器）合成语音。

但这种合成方法存在一些不可避免的问题，主要包括：速度慢：端到端模型通常以自回归的方式生成梅尔谱，然后通过声码器合成语音，一段语音的梅尔谱可以通常达到几十万帧，导致合成速度慢；稳定性差：序列生成中的错误传播和注意力对齐不准确会导致单词重复或缺失；缺乏可控性：自回归神经网络模型自动确定一条语音生成的长度、语音速度或有节奏的停顿，不易控制。

为了解决这些问题，微软（亚洲）互联网工程院和浙江大学的语音团队提出了一种新的机器学习模型FastSpeech，并在论文《FastSpeech：快速、强大且可控的文本-语音模型》中详细介绍了该模型。

另外，值得一提的是，该论文已被温哥华 NeurIPS 会议接收。

【图片来源：论文】与其他文本-语音模型相比，FastSpeech模型架构独特，性能更好（其梅尔谱生成速度比基线快3倍，语音生成速度比基线快38倍）。

不仅如此，它还可以避免跳词等错误，还支持语速和断词的微调。

更重要的是，FastSpeech 包含一个长度调节器，可以协调梅尔谱序列和音素序列（即具有不同感知能力的声音单位）之间的差异。

简单来说，由于音素序列的长度总是小于梅尔谱序列的长度，因此一个音素对应多个梅尔谱。

微软联合浙江大学开发新AI模型，解决语音助手卡顿问题

长度调整器根据持续时间扩展音素序列以匹配梅尔谱序列长度（互补的持续时间预测器组件确定音素的持续时间）。

增加或减少与音素或音素持续时间匹配的声音数量可以按比例调整语速。

【图片来源：论文】为了验证 FastSpeech 的有效性，研究人员将其与开源的 LJ Speech 数据集进行了比较，该数据集包含 0 个英语音频片段（相当于 24 小时的音频）和相应的文本转录。

将数据集随机分为0个样本用于训练、0个样本用于验证、0个样本用于测试后，他们对语音质量、稳定性等进行了一系列评估。

在论文中，研究团队主要评估了FastSpeech模型从音频质量、生成速度（推理加速）、稳定性（鲁棒性）和可控性等方面进行评估。

研究团队表示，FastSpeech 的质量几乎相当于 Google 的 Tacotron 2 文本转语音模型，稳定性轻松超过主流 Transformer 模型。

与此同时，与基线 34% 的有效错误率相比，FastSpeech 的有效错误率为零。

（但不可否认，其稳定性测试仅涉及 50 个语义复杂的句子）此外，FastSpeech 可以在保持准确性的同时将生成语音的速度从 0.5 倍提高到 1.5 倍。

因此，研究团队表示FastSpeech快速、鲁棒、可控。

【图片来源：论文】在论文的最后，研究团队还提到，未来将把 FastSpeech 和更快的声码器组合成单个模型，以提供完整的端到端文本转语音解决方案。

来自 VentureBeat，雷锋网编译。

站长声明

标签：

上一篇：携程、DCM领投易到用车融资近6000万美元

下一篇：易鼎丰完成A轮融资，中盛惠普、汇通达网络和原股东亿纬锂能共同投资

清流十月，静水深流

产品性能啦啦啦：“平安运”计划升级，提升司机体验。近日，货拉拉升级了“平安运”司机保障计划，更新订单偏好、浮动窗口、受理订单检测等功能，让平台司机在接受订单方面更加自由。今年下半年以来，货拉拉在广东东莞、浙江杭州、湖北武汉等近50个城市推出升级版订单优惠产

06-18
投资界新闻 -松禾资本成立10亿规模海创基金，支持海外华人、科学家在深圳创业

投资圈（ID：pedaily）1月16日消息，松禾资本、松禾创新孵化器、松禾创新科技转移研究院在深圳湾软件产业基地举行“松鹤海外华人-科学家回国创业预孵化基地”启动仪式，并宣布设立10亿松鹤海创基金，支持海外华人-科学家返回深圳创业创业。　　松鹤资本创始人合伙人厉伟表示

06-18
新茶饮“卖水人”混战：谁能“滚”出新故事？

春节将至，新茶饮品牌将迎来一年中的销售旺季。新茶饮料供应商德馨食品于2019年9月30日终止IPO；椰叶创新股份有限公司（以下简称“椰叶股份”，23.BJ），一家原果汁和速冻果块生产商，于2018年2月2日在北京创业板上市股票交易;同年7月15日，复合调味品公司宝利食品（70.SH）

06-18
武汉飞恩微电子完成超亿元战略融资，海尔资本领投

据投资界6月22日消息，武汉飞恩微电子股份有限公司（以下简称“飞恩”）近日完成战略融资融资超亿元。本轮融资由海尔资本领投，三花宏道、长石资本跟投。武汉飞恩微电子成立于2017年，专注于提供MEMS传感器和系统产品以及ODM/OEM服务。基于独特的工艺应力模型封装技术和高

06-17
应用材料公司实现了用于物联网和云计算的新型存储器的批量生产

加利福尼亚州圣克拉拉，7 月 9 日 - 应用材料公司今天宣布推出可实现大批量生产的创新解决方案。加速物联网、云计算新型存储器的产业应用进程。几十年前开发并批量生产的内存技术，包括 DRAM、SRAM 和闪存，现在广泛用于各种数字设备和系统。虽然以MRAM、ReRAM和PCRAM为代

06-06
苹果设计，走下“神”的神坛丨硬哲学

没有一家公司比苹果有更好的产品介绍页面。以2年前发布的AirPods Pro产品页面为例。当我们进入www.apple.com.cn/airpods-pro时，我们只能看到AirPods Pro在阴影中，半被琵琶遮住；当我们滑动屏幕或滚动鼠标时，光线就会流动，从阴影中走出来，展现出丰满的曲线和全景。是什

06-21
林和气候科技完成数千万Pre-A轮融资，中信资本领投，

投资圈（ID：pedaily）8月3日消息，林和气候科技北京有限公司（以下简称“林和气候科技”）2日宣布完成数千万元融资在Pre-A轮融资中。本轮融资由中信建设资本领投，新材资本跟投。本轮融资将用于加大重点领域的产品开发迭代和产业化示范项目建设、加快团队扩张、市场开拓等

06-18
【创业24小时】2023年4月18日

投融资昨天，国内市场共发生11起投资披露事件，其中汽车交通3起（飞牛出行、云科安心、云创智行）、先进制造3起（云皇新材料、俐玛精密、融科集团），医疗健康案例3个（N1生命、泽慧生物、芯医疗），企业服务案例1个（火银科技），娱乐媒体案例1个（微信擎科技）。精选软件开

06-17
我们调查了100家独角兽创始人的背景，有人当警察，有人造卫星

我们调查了 100 名独角兽创始人的背景。有些是警察并拥有卫星。职业基础和创业成功率真的有联系吗？昆仑万维的周亚辉曾根据公司估值对当前创始人的职业背景做了简单的分类：BD和销售的创始人可以打造一家估值1亿美元的公司；具有产品和技术背景的创始人可以创建一家估值10亿

06-18
Cree与ABB宣布SiC合作，提供汽车和工业解决方案

将帮助Cree扩大客户群，为电网、火车、牵引和电动交通等高功率应用提供碳化硅（SiC）基础。解决方案将帮助 ABB 电网加速进入高增长的电动汽车 (EV) 市场全球碳化硅 (SiC) 技术领导者 Cree Inc.（纳斯达克股票代码：CREE）与 ABB 电网宣布合作扩大规模SiC 在快速增长的高功

06-06
中产阶级锯断钢钢琴

电影《钢的琴》讲述了20世纪90年代初中国东北某工业城市一群落魄工人受下岗潮影响，在一座破旧的工厂。的故事。 “钢琴”代表了时代巨变下人们的希望、奋斗和救赎。在那个时代，钢琴不仅仅是一种乐器，更代表着对美好生活的向往。它具有不同于其他乐器的特殊价值。如今，

06-18
《元件星球》先后完成数千万美元B1、B2轮融资，戈壁湾区、愉悦资本、蔚来资本纷纷行动

投资圈（ID：pedaily）9月21日消息，国内汽车再生龙头公司“元为星球”宣布完成数千万B1、B2轮融资。本轮融资由戈壁大湾区、愉悦资本、蔚来资本等机构共同参与。该资金主要用于拆解厂的业务拓展和技术改造。研发投资，易凯资本担任Sourceware Planet本系列交易的独家代理。

06-18