首页 > 科技未来 > 内容

微软联合浙江大学开发新AI模型,解决语音助手卡顿问题

发布于:2024-06-18 编辑:匿名 来源:网络

据雷锋网报道,12月8日至14日在温哥华举行的顶级机器学习会议之一的NeurIPS会议上,来自微软和浙江大学推出了文本转语音模型FastSpeech,可以显着提高文本转语音转换过程中的语音生成速度,语音生成速度比基线快38倍。

雷锋网注:【图片来源:VentureBeat 所有者:VentureBeat】目前,Google Assistant 语音助手以及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的声音乍一看几乎就像人类的声音。

事实上,这些语音助手是由文本转语音模型提供支持的。

目前,基于神经网络的端到端文本语音合成技术正在迅速发展。

大多数模型的合成方法是从文本生成Mel-Spectrogram(显示声音功率的声谱图),然后使用声编码到编解码器(分析和合成语音信号的编解码器)合成语音。

但这种合成方法存在一些不可避免的问题,主要包括:速度慢:端到端模型通常以自回归的方式生成梅尔谱,然后通过声码器合成语音,一段语音的梅尔谱可以通常达到几十万帧,导致合成速度慢;稳定性差:序列生成中的错误传播和注意力对齐不准确会导致单词重复或缺失;缺乏可控性:自回归神经网络模型自动确定一条语音生成的长度、语音速度或有节奏的停顿,不易控制。

为了解决这些问题,微软(亚洲)互联网工程院和浙江大学的语音团队提出了一种新的机器学习模型FastSpeech,并在论文《FastSpeech:快速、强大且可控的文本-语音模型》中详细介绍了该模型。

另外,值得一提的是,该论文已被温哥华 NeurIPS 会议接收。

【图片来源:论文】与其他文本-语音模型相比,FastSpeech模型架构独特,性能更好(其梅尔谱生成速度比基线快3倍,语音生成速度比基线快38倍) 。

不仅如此,它还可以避免跳词等错误,还支持语速和断词的微调。

更重要的是,FastSpeech 包含一个长度调节器,可以协调 梅尔谱 序列和音素序列(即具有不同感知能力的声音单位)之间的差异。

简单来说,由于音素序列的长度总是小于梅尔谱序列的长度,因此一个音素对应多个梅尔谱。

微软联合浙江大学开发新AI模型,解决语音助手卡顿问题

长度调整器根据持续时间扩展音素序列以匹配 梅尔谱 序列长度(互补的持续时间预测器组件确定音素的持续时间)。

增加或减少与音素或音素持续时间匹配的声音数量可以按比例调整语速。

【图片来源:论文】为了验证 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集进行了比较,该数据集包含 0 个英语音频片段(相当于 24 小时的音频)和相应的文本转录。

将数据集随机分为0个样本用于训练、0个样本用于验证、0个样本用于测试后,他们对语音质量、稳定性等进行了一系列评估。

在论文中,研究团队主要评估了FastSpeech模型从音频质量、生成速度(推理加速)、稳定性(鲁棒性)和可控性等方面进行评估。

研究团队表示,FastSpeech 的质量几乎相当于 Google 的 Tacotron 2 文本转语音模型,稳定性轻松超过主流 Transformer 模型。

与此同时,与基线 34% 的有效错误率相比,FastSpeech 的有效错误率为零。

(但不可否认,其稳定性测试仅涉及 50 个语义复杂的句子)此外,FastSpeech 可以在保持准确性的同时将生成语音的速度从 0.5 倍提高到 1.5 倍。

因此,研究团队表示FastSpeech快速、鲁棒、可控。

【图片来源:论文】在论文的最后,研究团队还提到,未来将把 FastSpeech 和更快的声码器组合成单个模型,以提供完整的端到端文本转语音解决方案。

来自 VentureBeat,雷锋网编译。

微软联合浙江大学开发新AI模型,解决语音助手卡顿问题

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 大搜车宣布收购云阳科技

    大搜车宣布收购云阳科技

    据投资界6月15日消息,大搜车宣布完成并购北京云阳信息技术有限公司,拥有全场景数字化能力环线汽车流通领域,打造汽车制造商的奴隶制造商。 从端到端到门店端再到用户端的“三端合一”用户旅程数字化管理系统能力进一步推动汽车行业迈向数字文明。 云阳科技成立于2007年,是

    06-18

  • 智能平衡车这块千亿蛋糕你想怎么吃?

    智能平衡车这块千亿蛋糕你想怎么吃?

    现在的平衡车有点像《这个杀手不太冷》中12岁的娜塔莉-波特曼。 你知道她将来肯定会成为美人,但你无法确认她能否给世界带来惊喜。 你等待着这一天的到来,但你不知道这一天是否真的会到来——这种美妙而令人兴奋的感觉就是平衡车给人们带来的希望。 据业内人士保守估计,平

    06-18

  • 五岳航空科技完成数千万Pre-A轮融资,由鼎兴量子

    五岳航空科技完成数千万Pre-A轮融资,由鼎兴量子

    投资圈(ID:pedaily)领投 4月25日,投资界消息,苏州五岳航空科技有限公司(以下简称:苏州五岳航空科技有限公司)航空零部件生产公司(简称“五岳航科”)已完成数千万Pre-A轮融资。 本轮融资由鼎兴量子领投,嘉兴兆昂跟投,邦华金融担任独家投资方。 融资资金将主要用于公

    06-18

  • 【融资24小时】2022年4月19日投融资事件汇总及明细

    【融资24小时】2022年4月19日投融资事件汇总及明细

    今日国内市场共发生投资披露事件32起,其中先进制造7起(葑新能源、盈盈)吉鑫、深渊蓝色航天、厚墨智能、万众易信、天方科技、苏电霸),企业服务5起(iVX、云加速、极邦科技、朗景科技、来也科技),汽车交通4(华建新能源、经纬恒润、吉能科技、拖车帮)、传统制造案例4个

    06-17

  • 由于不确定性,马斯克筹集新资金收购 Twitter 的努力已暂停

    由于不确定性,马斯克筹集新资金收购 Twitter 的努力已暂停

    根据路透的说法,特斯拉首席执行官埃隆马斯克因不确定性而暂停筹集新资金收购 Twitter 的努力。 马斯克与阿波罗全球管理公司等公司的融资谈判已被搁置,直到收购交易的前景变得更加清晰。

    06-18

  • 社区生鲜连锁品牌“明康会”获数亿元融资

    社区生鲜连锁品牌“明康会”获数亿元融资

    据投资界(ID:pedaily)4月8日消息,社区生鲜连锁品牌“明康会”近日获得新一轮融资的融资。 本次融资由中国农垦产业发展基金、浙江凉山乡村振兴基金投资领投,金额数亿元。 据明康惠相关人士介绍,获得融资后,明康惠将重点关注乡村振兴、零售门店扩张、企业数字化能力提升

    06-17

  • 谢诺辰途荣膺【2020科创之星】最佳科创投资机构

    谢诺辰途荣膺【2020科创之星】最佳科创投资机构

    谢诺辰图荣获最佳科技投资机构“2020科技创新之星”称号。 只有下功夫科技创新,才能撑起国家的重要武器。 在科创板开业一周年之际,“科创板一周年峰会暨科创之星评选颁奖典礼”在上海虹桥基金小镇隆重举行。 本次会议云集了众多知名创投机构。 投资者的盛宴。 在大会核心活

    06-18

  • 美我家装获7000万元A轮融资,由IDG资本、北极光创投联合投资

    美我家装获7000万元A轮融资,由IDG资本、北极光创投联合投资

    据投资界7月31日消息,美我家装已完成1万元A轮融资。 本轮融资由IDG资本、北极光创投跟投、初芯资本跟投。 该资金将主要用于内部IT系统建设。   此前,美沃家居曾于2016年获得万元天使轮融资,这是美沃家居继天使轮融资后再次获得资本青睐。   美我是定位于服务27-35岁人

    06-17

  • 周鸿祎再次爆料,360新款路由器等产品谍照泄露

    周鸿祎再次爆料,360新款路由器等产品谍照泄露

    周教主又“调皮”了。 他刚刚宣布将于6月11日在北京举办路由器新品发布会,大家都在猜测会发布什么新品。 当时,周鸿祎在周六凌晨深夜发的“自我推销”微博中提前透露了自己的新产品。 是没有什么新意还是依然沿用“家族式前脸”设计?在老周泄露的新品谍照中,一大一小两款新

    06-18

  • 拉手网IPO定价区间在13美元至15美元之间,最高融资8000万

    拉手网IPO定价区间在13美元至15美元之间,最高融资8000万

    据北京时间11月8日消息,拉手网提交的F-1文件修订版今日显示,该公司将发行5000股美国存托股票(ADS),1股ADS相当于36股普通股,发行价格区间为13至15美元。 按最高价15美元计算,拉手网IPO(首次公开募股)融资金额可达1万美元。

    06-18

  • 鹰谷光电总部基地一期工程主体结构已封顶

    鹰谷光电总部基地一期工程主体结构已封顶

    据“南安发布”公众号,鹰谷光电总部基地一期工程主体结构已封顶最近被封顶了。 据了解,鹰谷光电是一家专业从事半导体光电器件、组件、模块及制导、惯性导航和导航系统研发、生产和销售的高科技民营企业。 公司基于自主知识产权和自有芯片制造线,专业从事半导体光电探测器、

    06-06

  • 工业富联参与设立东南数字化转型投资基金,总规模10亿

    工业富联参与设立东南数字化转型投资基金,总规模10亿

    据投资界8月20日消息,东南数字化转型投资基金签约仪式近日在福建举行。 该基金是推动工业互联网与工业融合的重要参与者。 措施。 东南数字化转型投资基金总规模10亿元,分期募集。 福建省电子信息产业创业投资合伙企业和莆田金融控股有限公司作为政府LP,各出资2亿元。 根据

    06-18