首页 > 科技启迪 > 内容

机器听觉领域五位大咖探讨语音前沿 - CCF-GAIR 2020年8月7日至9日

发布于:2024-06-17 编辑:匿名 来源:网络

,全球人工智能与机器人峰会(CCF-GAIR)在深圳正式召开。

CCF-GAIR峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)协办,鹏城实验室、深圳市人工智能与机器人研究院协办。

从2018年学术界与工业界的融合,到2016年的产业落地,再到2018年的垂直细分,再到2017年人工智能40周年,峰会一直致力于打造规模最大、层次最高、国内人工智能和机器人领域最具跨界的学术和产业会议。

和投资平台。

8月8日,由深圳市人工智能学会与CCF语音对话与听力专业组共同举办的“前沿语音技术”专场拉开帷幕。

专场由北京大学教授学院、深圳市人工智能学会副理事长弗拉基米尔·邹月娴教授主持。

专家、学者五位语音领域专家到场,涵盖“空间声场控制、语音分离、声纹识别、语音转换、端到端语音识别”。

五个专业领域讨论尖端语音技术的发展。

可以说,这是一次信息丰富、学术氛围浓厚的特殊活动。

西北工业大学智能声学与情境通信研究中心张雯教授:开放空间声场主动控制技术第一位演讲嘉宾是西北工业大学智能声学与情境通信研究中心张雯教授。

演讲的标题是《开放空间声场主动控制技术》。

张雯·教授博士毕业于澳大利亚国立大学,现任西北工业大学航海学院教授、博士生导师。

他曾在澳大利亚联邦科学与工业研究组织和澳大利亚国立大学工程与计算学院工作。

曾在《IEEE Signal Processing Magazine》、《IEEE/ACM Transactions on Audio, Speech and Language Processing》、《Journal of the Acoustical Society of America》等国际权威期刊上发表论文。

在会议上发表论文60余篇,2011年获得澳大利亚研究理事会“早期职业研究员奖”(ARC DECRA),2016年入选中国国家人才计划青年项目。

目前,张雯-教授的研究兴趣主要是包括语音和声学信号处理、主动噪声控制和机器人语音交互。

张雯教授在演讲中主要从空间声场重构技术、空间多区域声场控制技术、空间主动噪声场控制技术三个部分阐述了开放式空间声场主动控制技术。

在空间声场重建方面,主要涉及两种技术:一是波场合成WFS,二是Ambisonics。

张雯教授指出,最近比较流行的是Ambisonics的面向场景的编解码技术,它以声波辐射模式为基函数对声场进行建模,通过处理Ambisonics实现声场重构和控制。

波域转换后的??信号。

在空间多区域声场控制技术方面,张雯教授提出了空间多区域声场控制系统,利用扬声器阵列同时控制多个区域的声场。

典型应用包括在各种公共环境和嘈杂环境中生成个人声音区域。

在环境中产生一个安静的区域。

除了提出技术本身的应用场景外,张雯教授还提出了评估技术可行性的理论。

根据声区的位置和亮区的期望信号得到可行性系数来重建声场。

越接近1,可实现性越好。

高,越接近0,可实现性越低。

在空间主动噪声场控制技术方面,张雯教授介绍,区域主动噪声??控制通过麦克风阵列、扬声器阵列和声场控制技术相结合,实现三维空间区域的降噪效果。

演讲最后,张雯教授从新型麦克风设计和人工智能与分布式声学相结合的信号处理两个方面提到了最新的工作思考。

张雯教授说,信号处理中要注意的是语音信号和噪声信号的宽带随机性,特别是中高频和快速变化信号的跟踪能力。

在这种情况下,声场控制的难度急剧增加,将会有大量的工作需要开展。

滴滴AI实验室专家高级研究员宋辉:基于深度学习的语音分离技术进展第二位嘉宾是滴滴AI实验室专家高级研究员宋辉。

他分享的话题是《基于深度学习的语音分离技术进展》。

宋辉博士毕业于清华大学,从事语音技术行业10余年。

曾就职于百度语音技术部、滴滴AI Labs语音研究实验室。

在语音算法研发、产品化和商业化方面拥有丰富的经验。

在本次演讲中,宋辉博士介绍了语音分离技术的发展现状,详细阐述了基于深度学习的单通道语音分离技术的发展、各种技术方案的优缺点和适用场景,以及未来面临的挑战。

宋辉博士首先展示了当前流行的单通道语音分离技术在两个不同公开数据集上的性能,其中WSJ0-2mix是纯测试集,WHAM是对应的噪声测试集。

在相对理想的纯数据集上,单通道分离技术近两年在SI-SDRi指数上取得了长足的进步。

对于更接近真实环境的噪声场景,目前学术界的研究还不是特别完整。

与安静环境相比,SI-SDR指标会有几个dB的差距。

在噪声数据集中表现更好的单通道方法尚未经过充分的测试和评估。

宋辉博士指出,单通道语音分离可以抽象为“Encoder-Separator-Decoder”的基本框架。

Encoder用于将一维混合语音变换到另一个二维空间,Separator用于在这个二维空间中进行学习。

相对于每个说话人的掩码,在元素级别与混合语音相乘,得到每个分离的变换域信号,Decoder将每个信号反变换回时域。

目前主流的分离方法有两种:时域和频域。

频域方法的优点是可以与传统信号处理方法(如频域波束形成)更加融合,可以获得更加稀疏和结构化的声学特征表示。

但其缺点也很明显,例如精确的相位重构困难以及需要较长的窗长才能满足频率分辨率要求而导致的时延较长等。

宋辉博士在演讲中主要从u-PIT、Deep CASA、Voice filter、SBF-MTSAL-Concat四种方法阐述了频域语音分离和目标说话人提取任务的技术路线。

近年来,基于时域的语音分离技术越来越受到人们的关注。

宋辉博士还对时域语音分离技术进行了分析。

与频域方法相对应,时域方法可以将混合语音变换为实数域潜在空间,使用数据驱动的形式来学习其特征表示。

例如,可以使用 1-D CNN 或更深的 Encoder 来完成此转换。

时域分离方法不需要处理相位重构问题,延迟比较短,可以达到采样点级别的延迟,非常适合实时性要求较高的场景。

在具体方法方面,宋辉博士主要介绍了Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+等几种代表性方法。

随后,宋辉博士介绍了单通道语音分离技术的几个研究方向,包括Separator的改进、Encoder/Decoder的改进和优化、训练机制的改进以及如何有效地利用说话人嵌入信息来完成高- 质量特定的说话人提取。

最后,宋辉博士总结道,目前在学术界和工业界,基于时域的分离方法比较流行。

在未来展望方面,宋辉博士表示,希望不断提高神经网络的泛化能力,使各种分离网络在真实环境中都能取得满意的结果;他希望未来能够发现更多的语音分离场景和应用。

昆山杜克大学电气与计算机工程副教授教授明:基于深度编码的声纹识别及相关任务接下来是昆山杜克大学电气与计算机工程副教授教授李明,他的演讲题目为《基于深度编码的声纹识别及其关联任务》。

李明博士毕业于南加州大学,现任昆山杜克大学电气与计算机工程系副教授。

他还是武汉大学计算机学院兼职教授、博士生导师。

研究方向包括音频语音信息处理、多模态行为信号分析等。

发表学术论文多篇,目前担任IEEE语音与语言技术委员会委员、语音对话与听力专委会委员中国计算机学会专业组委员,中国人工智能学会人工心理与人工情感专委会专委会委员,APSIPA语音与语言处理技术委员会委员,IEEE学会高级会员。

李明,副教授,担任Interspeech、说话人语言识别领域主席。

带领团队于2019年、2018年、2018年三次获得INTERSPEECH副语言挑战赛第一名,ASRU19阿拉伯语识别第一名,interspeech20无畏步说话人识别第一名,指导学生荣获ISCSLP Best学生论文奖和 IEEE CTECE 最佳学生论文奖。

最佳论文奖。

2007年荣获IBM Fellow,2016年荣获ISCA 5年最佳期刊论文奖。

在演讲中,李明和副教授首先从特征提取、模型构建、鲁棒性处理等几个步骤介绍了传统声纹方法、分类器设计,然后介绍了基于端到端深度学习框架的声纹识别网络设计。

李明副教授提到,基于深度编码的声纹识别与传统的参数化建模方法有一定的结构类比。

例如,利用卷积神经网络进行特征提取,利用编码层网络进行统计并得到固定维度的特征向量,利用全连接网络进行后端分类等。

在李明看来,基于深度编码的声纹识别是对传统技术的升级:一方面,基于深度编码的声纹识别更加准确,效果更好;另一方面,声纹深度编码还可以用于说话人记录、多说话人合成、特定人的语音变化、特定人的语音分离等一系列相关任务。

紧接着,李明副教授分享了声纹深度编码在说话人日志中的应用,介绍了如何通过LSTM、Vector-To-Sequence等方法更好地建模说话人片段序列相似度矩阵,以及如何使用匈牙利算法和预处理reduce李明和教授副教授还介绍了一种具有声纹深度编码一致性约束的多说话人合成系统框架。

除了传统的TTS输出外,在输出端增加了声纹网络,使得合成网络输出的语音的声纹编码与给定目标说话人的声纹编码保持一致,提高了语音的相似度。

向目标说话者合成语音。

中国科学技术大学电子工程与信息科学系副教授凌振华:基于表征解耦的非并行语料说话人切换第四位演讲嘉宾是电子工程与信息科学系副教授凌振华中国科学技术大学电子工程与信息科学学院.凌振华的主要研究领域包括语音信号处理和自然语言处理。

主持和参与国家自然科学基金、国家重点研发计划、安徽省演讲项目等多项科研项目。

发表论文10余篇,论文被引用10余次。

曾获得国家科技进步二等奖和IEEE信号处理学会最负盛名的奖项。

最佳青年作者论文奖。

在暴雪挑战赛国际语音合成技术评测、语音转换挑战赛国际语音转换技术评测等活动中多次获得测试指标第一名。

副教授凌振华现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听力与对话专业组委员、中国计算机学会语音分会学术委员会委员。

中国语言学会、全国人机语音通信学术会议常委。

2006年担任IEEE/ACM TASLP期刊副主编。

在这次前沿语音技术专场中,教授凌振华副教授的演讲主题是《基于表征解耦的非平行语料话者转换》。

说话人转换也称为语音转换,是指在不改变文本内容的情况下改变语音中的说话人身份信息。

凌振华副教授在发言中主要从语音转换所依据的语料库类型出发,介绍了平行语料库下语音转换的技术演进过程,并推广到非平行语料库下的语音转换。

其中,在并行语料库条件下,传统的语音转换是基于GMM(高斯混合模型)实现的。

2000年以后,深度学习技术被引入到语音转换任务中,相继提出了基于生成训练的生成训练深度神经网络(GTDNN)等模型。

然而,GMM和DNN在对齐源和目标语音帧的过程中都面临着错误和不合理的问题。

近年来提出的序列到序列(seq2seq)语音转换方法可以有效改善这一问题,提高转换后语音的自然度和相似度。

进一步,凌振华副教授谈到了非平行语料库条件下的语音转换,并表示这种场景在实际应用中很常见,难度也比较大。

基于非并行数据构建并行数据以及分离语音中的文本和说话人表示是实现非并行语音转换的两种主要技术途径。

随后,凌振华副教授重点介绍了提出的基于特征解耦的序列到序列语音转换方法。

该方法在序列到序列建模框架下实现了语音中文本相关内容和说话人相关内容的分离,并取得了优异的效果。

传统逐帧处理方法的非并行语音转换质量接近于使用相同规模的并行数据的序列到序列语音转换效果。

最后,副孔令振华表示:在语音转换过程中,序列到序列建模方法在时长调整、长期相关性建模等方面有其优势,但该方法应从并行数据条件扩展到非并行数据条件存在挑战。

特征解耦是解决这个问题的有效方法。

通过序列到序列框架下的模型结构和损失函数设计,可以获得相对独立的文本和说话人表示,进一步实现非并行数据条件下的高质量语音转换。

上海交通大学计算机系余凯教授:端到端半监督语音识别技术进展 最后出场的是上海交通大学计算机系余凯教授。

于凯教授是上海交通大学苏州人工智能研究院执行院长、Spichi创始人兼首席科学家。

清华大学学士、硕士学位,英国剑桥大学博士。

长期从事语音技术研究及产业化工作。

发表论文10余篇,荣获ISCA计算机语音和语言与语音通信最佳期刊论文奖,InterSpeech、IEEE SLT、ISCSLP等国际会议杰出论文奖,美国国家标准局演讲奖。

认知评价、国际口语对话系统研究挑战赛等研究评价冠军。

于凯教授担任多个领域旗舰会议的分区主席和程序委员会主席。

国家青年千人计划入选者、国家自然科学基金委杰出青年学者、IEEE高级会员、首届IEEE中国大陆高校语言与文字处理技术委员会委员()。

现任IEEE Transactions on Speech and Language Processing编委、中国人工智能产业发展联盟学术与知识产权组组长、中国计算机学会语音对话与听力专业组副主任。

荣获中国人工智能学会吴文俊科技进步奖、“《科学中国人》年度人物”、中国计算机学会青竹奖。

在前沿语音环节,教授于恺发表了题为“《端到端及半监督语音识别技术进展》”的演讲。

在余凯看来,端到端语音识别降低了识别系统的复杂度,减少了参数数量,简化了训练流水线。

当前的端到端框架主要有两种类型——同步框架和异步框架;解决分类和对齐问题。

余凯和教授在演讲中主要讨论了异步端到端。

它最大的特点是输出和输入没有统一的时钟,有两个不同的网络。

机器听觉领域五位大咖探讨语音前沿 - CCF-GAIR 2020年8月7日至9日

Encoder从整体输入序列中提取特征置信度,然后Decoder以自回归的方式输出标签序列,然后通过注意力机制(Attention)处理输入输出对齐。

同时,教授于凯还指出,端到端识别系统面临两大挑战:“在线解码的延迟问题、文本资源和语言空间限制”。

为了解决在线解码的延迟问题,需要采用异步端到端模型进行在线解码。

主要有三种方法——固定短期窗口预测(Neural Transducer)、基于单帧触发的变长窗口方法(MoChA,Triggered Attention)、基于多帧累积触发阈值的方法(AdaptiveCom邹月娴教授gSteps)。

针对文本资源和语言空间约束的挑战,可以采用模型融合(Fusion)、语言模型模块嵌入、半监督训练等方法来解决问题。

除了端到端模型之外,余凯和教授还提到了数据处理。

从海量数据升级到高质量、准确的大数据,需要进行自监督预训练、半监督训练和生存数据训练。

此外,于恺和教授还提到了如何在没有数据的情况下无中生有。

余凯和教授说:大多数无中生有的方法都是通过引入生成模型来解决的,而判别性方法则严重依赖数据。

只有拥有足够的数据,才能解决可辨别性问题。

教授于凯在演讲中主要介绍了两种“生成丰富的副语言信息”的方法:一是利用VAE对低资源数据下的说话人空间进行建模,在综合数据时,从潜变量的先验分布中进行采样,得到用于 ASR 训练的虚拟演讲者的语音;二是不使用句子级VAE,而是使用音素级VAE来增加合成音频中副语言信息的多样性。

随着最后一位嘉宾的演讲结束,前沿语音环节也落下帷幕。

各嘉宾演讲汇编将于稍后发布,敬请关注。

机器听觉领域五位大咖探讨语音前沿 - CCF-GAIR 2020年8月7日至9日

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 看专精特新的“小巨人”NO.01 -成立4年获得5轮融资,专精特新大数据领域的“小巨人”

    看专精特新的“小巨人”NO.01 -成立4年获得5轮融资,专精特新大数据领域的“小巨人”

    中科文革于今年3月成立。 成立四年内完成五轮融资,被专精特新评为国家“小巨人”企业。 2019年,中科文阁与阿里云合作,通过云服务器ECS(弹性计算服务)为核心业务提供底层支持。 强强联合,用数字技术陪伴企业成长,创造社会价值。 2018年春天,时任中科院自动化研究所副所

    06-18

  • 告别,一人爆款

    告别,一人爆款

    5月23日,随着总决赛三强的形成,云智易物联网平台与云瀚核心城联合举办的第一个为期9个月的“《智慧产品圈》”活动“寻找热点”智能硬件产品展”在深圳会展中心正式落下帷幕。 从行业角度来看,本次活动的意义不在于奖项本身,而在于为智能硬件行业打造爆款产品梳理思路。 现

    06-18

  • OpenAI董事会重启与Altman谈判;库克透露继任计划; NVIDIA第三季度营收增长三倍,警告出口管制影响

    OpenAI董事会重启与Altman谈判;库克透露继任计划; NVIDIA第三季度营收增长三倍,警告出口管制影响

    据悉,OpenAI董事会正在与Altman就退货事宜进行谈判。 11 月 22 日消息,据彭博社报道,OpenAI 董事会目前正在与 Sam Altman 进行谈判,讨论 ChatGPT 前 CEO 可能回归的事宜。 知情人士称,阿尔特曼和至少一名董事会成员、Quora 首席执行官亚当德安杰洛 (Adam 德安杰洛) 正在

    06-17

  • 华夏银控股股权投资基金拟募资50亿元

    华夏银控股股权投资基金拟募资50亿元

    据业内人士透露,华夏银控股股权投资基金将于2020年5月10日在上海正式启动,该基金将专注于传统领域的产业升级行业。 上海富源银控投资管理有限公司成为华夏银控股权投资基金的核心管理机构。    据悉,华夏银控股股权投资基金拟募集总额50亿元,其中一期计划募集总额20亿

    06-17

  • 驭势科技获B轮融资,博世战略投资

    驭势科技获B轮融资,博世战略投资

    据投资界消息,2月26日,驭势科技宣布获得博世B轮战略投资。 同期投资的还包括深创投(深圳创新投资集团)、中金资本、厦门七匹狼节能环保基金和重庆两江服务业基金等VC、PE和地方战略新兴产业基金。 据了解,驭势科技专注于自动驾驶关键技术的研发。 凭借其U-Drive智能驾驶

    06-17

  • 新生产力,焕新在江苏——阿里云中小企业数字化发展论坛成功举办

    新生产力,焕新在江苏——阿里云中小企业数字化发展论坛成功举办

    发展数字经济是培育新生产力的重要途径。 帮助企业实现“上云、用数据、赋能智能”,是推动形成以云为核心的新质生产力的重要路径。 4月25日,由阿里云主办的中小企业数字化发展论坛在南京建业高新区成功举办。 活动现场,阿里云推出江苏企业专属权益,提供数百万专属云券,加

    06-18

  • 京东股价暴跌,京东金融能否力挽狂澜?

    京东股价暴跌,京东金融能否力挽狂澜?

    京东(纳斯达克股票代码:JD)股价自周三开盘以来一直下跌。 截至收盘,公司股价跌至20.06美元。 今年5月京东登陆纳斯达克首日,其开盘价已跌破21.75美元。 日均价格创下5月27日上市第三天以来新低。 据悉,近期的暴跌只是京东步入慢车道的必然结果。 过去一年,京东股价累计

    06-18

  • 埃斯顿宣布定向增发10亿元,小米长江产业基金参与投资

    埃斯顿宣布定向增发10亿元,小米长江产业基金参与投资

    据投资界7月24日消息,埃斯顿(47岁)近日凌晨发布定向增发计划。 公司拟以11.62元/股的价格向中国通用技术出售。 (集团)控股有限公司、国家制造业转型升级基金有限责任公司、湖北小米长江产业基金合伙企业(有限合伙)向三特定对象发行股份,认购金额4亿元、4亿元、 、 2

    06-18

  • 出境自驾游平台“租车”完成启明创投数千万美元C轮融资

    出境自驾游平台“租车”完成启明创投数千万美元C轮融资

    据投资界5月8日消息,出境自驾游平台“租车”完成启明创投数千万美元C轮融资完成数千万美元C轮融资。 投资方为启明创投。 年神租车获得经纬中国天使轮融资,2018年9月获得启明创投领投的A轮融资,2018年获得广发信德领投的B轮和B+轮融资。 据了解,C轮融资将主要用于加大研发

    06-17

  • Gartner:阿里云市场份额翻倍,全球市场“看向彼岸”

    Gartner:阿里云市场份额翻倍,全球市场“看向彼岸”

    7月10日,权威研究机构Gartner发布全球云计算市场数据。 2018年阿里云全球市场份额近一倍,位居全球第一。 市场是“坐三看二”。 分析人士认为,阿里云对研发的投入近乎激进,建立了全球最丰富的技术产品矩阵,并带来强劲增长。 据Gartner统计,2019年全球云计算市场进一步向

    06-18

  • 星巴克第二季度营收66.7亿美元,中国同店销售额增长91%

    星巴克第二季度营收66.7亿美元,中国同店销售额增长91%

    星巴克(SBUX.US)发布了截至3月28日的财年第二季度财报。 财报显示,公司第二季度营收66.68亿美元,同比增长11.2%。

    06-18

  • 阿里巴巴神战山东站暨智慧谷创新创业大赛在聊城开幕

    阿里巴巴神战山东站暨智慧谷创新创业大赛在聊城开幕

    12月8日,阿里巴巴神战山东站暨智慧谷创新创业大赛在聊城正式开幕。 聊城高新技术产业开发区管委会副书记、管委会副主任郭志刚,聊城高新区信息技术产业专家负责人鹏杰,山东壹街区产业发展集团总裁高庆民阿里云智能山东大学区副总经理田茂金、创头条总裁李茂达等,以及聊城高

    06-17