工业和信息化部:有序推进工业领域化石能源削减和高效利用
06-18
,全球人工智能与机器人峰会(CCF-GAIR)在深圳正式召开。
CCF-GAIR峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)协办,鹏城实验室、深圳市人工智能与机器人研究院协办。
从2018年学术界与工业界的融合,到2016年的产业落地,再到2018年的垂直细分,再到2017年人工智能40周年,峰会一直致力于打造规模最大、层次最高、国内人工智能和机器人领域最具跨界的学术和产业会议。
和投资平台。
8月8日,由深圳市人工智能学会与CCF语音对话与听力专业组共同举办的“前沿语音技术”专场拉开帷幕。
专场由北京大学教授学院、深圳市人工智能学会副理事长弗拉基米尔·邹月娴教授主持。
专家、学者五位语音领域专家到场,涵盖“空间声场控制、语音分离、声纹识别、语音转换、端到端语音识别”。
五个专业领域讨论尖端语音技术的发展。
可以说,这是一次信息丰富、学术氛围浓厚的特殊活动。
西北工业大学智能声学与情境通信研究中心张雯教授:开放空间声场主动控制技术第一位演讲嘉宾是西北工业大学智能声学与情境通信研究中心张雯教授。
演讲的标题是《开放空间声场主动控制技术》。
张雯·教授博士毕业于澳大利亚国立大学,现任西北工业大学航海学院教授、博士生导师。
他曾在澳大利亚联邦科学与工业研究组织和澳大利亚国立大学工程与计算学院工作。
曾在《IEEE Signal Processing Magazine》、《IEEE/ACM Transactions on Audio, Speech and Language Processing》、《Journal of the Acoustical Society of America》等国际权威期刊上发表论文。
在会议上发表论文60余篇,2011年获得澳大利亚研究理事会“早期职业研究员奖”(ARC DECRA),2016年入选中国国家人才计划青年项目。
目前,张雯-教授的研究兴趣主要是包括语音和声学信号处理、主动噪声控制和机器人语音交互。
张雯教授在演讲中主要从空间声场重构技术、空间多区域声场控制技术、空间主动噪声场控制技术三个部分阐述了开放式空间声场主动控制技术。
在空间声场重建方面,主要涉及两种技术:一是波场合成WFS,二是Ambisonics。
张雯教授指出,最近比较流行的是Ambisonics的面向场景的编解码技术,它以声波辐射模式为基函数对声场进行建模,通过处理Ambisonics实现声场重构和控制。
波域转换后的??信号。
在空间多区域声场控制技术方面,张雯教授提出了空间多区域声场控制系统,利用扬声器阵列同时控制多个区域的声场。
典型应用包括在各种公共环境和嘈杂环境中生成个人声音区域。
在环境中产生一个安静的区域。
除了提出技术本身的应用场景外,张雯教授还提出了评估技术可行性的理论。
根据声区的位置和亮区的期望信号得到可行性系数来重建声场。
越接近1,可实现性越好。
高,越接近0,可实现性越低。
在空间主动噪声场控制技术方面,张雯教授介绍,区域主动噪声??控制通过麦克风阵列、扬声器阵列和声场控制技术相结合,实现三维空间区域的降噪效果。
演讲最后,张雯教授从新型麦克风设计和人工智能与分布式声学相结合的信号处理两个方面提到了最新的工作思考。
张雯教授说,信号处理中要注意的是语音信号和噪声信号的宽带随机性,特别是中高频和快速变化信号的跟踪能力。
在这种情况下,声场控制的难度急剧增加,将会有大量的工作需要开展。
滴滴AI实验室专家高级研究员宋辉:基于深度学习的语音分离技术进展第二位嘉宾是滴滴AI实验室专家高级研究员宋辉。
他分享的话题是《基于深度学习的语音分离技术进展》。
宋辉博士毕业于清华大学,从事语音技术行业10余年。
曾就职于百度语音技术部、滴滴AI Labs语音研究实验室。
在语音算法研发、产品化和商业化方面拥有丰富的经验。
在本次演讲中,宋辉博士介绍了语音分离技术的发展现状,详细阐述了基于深度学习的单通道语音分离技术的发展、各种技术方案的优缺点和适用场景,以及未来面临的挑战。
。
宋辉博士首先展示了当前流行的单通道语音分离技术在两个不同公开数据集上的性能,其中WSJ0-2mix是纯测试集,WHAM是对应的噪声测试集。
在相对理想的纯数据集上,单通道分离技术近两年在SI-SDRi指数上取得了长足的进步。
对于更接近真实环境的噪声场景,目前学术界的研究还不是特别完整。
与安静环境相比,SI-SDR指标会有几个dB的差距。
在噪声数据集中表现更好的单通道方法尚未经过充分的测试和评估。
宋辉博士指出,单通道语音分离可以抽象为“Encoder-Separator-Decoder”的基本框架。
Encoder用于将一维混合语音变换到另一个二维空间,Separator用于在这个二维空间中进行学习。
相对于每个说话人的掩码,在元素级别与混合语音相乘,得到每个分离的变换域信号,Decoder将每个信号反变换回时域。
目前主流的分离方法有两种:时域和频域。
频域方法的优点是可以与传统信号处理方法(如频域波束形成)更加融合,可以获得更加稀疏和结构化的声学特征表示。
但其缺点也很明显,例如精确的相位重构困难以及需要较长的窗长才能满足频率分辨率要求而导致的时延较长等。
宋辉博士在演讲中主要从u-PIT、Deep CASA、Voice filter、SBF-MTSAL-Concat四种方法阐述了频域语音分离和目标说话人提取任务的技术路线。
近年来,基于时域的语音分离技术越来越受到人们的关注。
宋辉博士还对时域语音分离技术进行了分析。
与频域方法相对应,时域方法可以将混合语音变换为实数域潜在空间,使用数据驱动的形式来学习其特征表示。
例如,可以使用 1-D CNN 或更深的 Encoder 来完成此转换。
时域分离方法不需要处理相位重构问题,延迟比较短,可以达到采样点级别的延迟,非常适合实时性要求较高的场景。
在具体方法方面,宋辉博士主要介绍了Conv-TasNet、DPRNN-TasNet、SpEx、SpEx+等几种代表性方法。
随后,宋辉博士介绍了单通道语音分离技术的几个研究方向,包括Separator的改进、Encoder/Decoder的改进和优化、训练机制的改进以及如何有效地利用说话人嵌入信息来完成高- 质量特定的说话人提取。
最后,宋辉博士总结道,目前在学术界和工业界,基于时域的分离方法比较流行。
在未来展望方面,宋辉博士表示,希望不断提高神经网络的泛化能力,使各种分离网络在真实环境中都能取得满意的结果;他希望未来能够发现更多的语音分离场景和应用。
昆山杜克大学电气与计算机工程副教授教授明:基于深度编码的声纹识别及相关任务接下来是昆山杜克大学电气与计算机工程副教授教授李明,他的演讲题目为《基于深度编码的声纹识别及其关联任务》。
李明博士毕业于南加州大学,现任昆山杜克大学电气与计算机工程系副教授。
他还是武汉大学计算机学院兼职教授、博士生导师。
研究方向包括音频语音信息处理、多模态行为信号分析等。
发表学术论文多篇,目前担任IEEE语音与语言技术委员会委员、语音对话与听力专委会委员中国计算机学会专业组委员,中国人工智能学会人工心理与人工情感专委会专委会委员,APSIPA语音与语言处理技术委员会委员,IEEE学会高级会员。
李明,副教授,担任Interspeech、说话人语言识别领域主席。
带领团队于2019年、2018年、2018年三次获得INTERSPEECH副语言挑战赛第一名,ASRU19阿拉伯语识别第一名,interspeech20无畏步说话人识别第一名,指导学生荣获ISCSLP Best学生论文奖和 IEEE CTECE 最佳学生论文奖。
最佳论文奖。
2007年荣获IBM Fellow,2016年荣获ISCA 5年最佳期刊论文奖。
在演讲中,李明和副教授首先从特征提取、模型构建、鲁棒性处理等几个步骤介绍了传统声纹方法、分类器设计,然后介绍了基于端到端深度学习框架的声纹识别网络设计。
。
李明副教授提到,基于深度编码的声纹识别与传统的参数化建模方法有一定的结构类比。
例如,利用卷积神经网络进行特征提取,利用编码层网络进行统计并得到固定维度的特征向量,利用全连接网络进行后端分类等。
在李明看来,基于深度编码的声纹识别是对传统技术的升级:一方面,基于深度编码的声纹识别更加准确,效果更好;另一方面,声纹深度编码还可以用于说话人记录、多说话人合成、特定人的语音变化、特定人的语音分离等一系列相关任务。
紧接着,李明副教授分享了声纹深度编码在说话人日志中的应用,介绍了如何通过LSTM、Vector-To-Sequence等方法更好地建模说话人片段序列相似度矩阵,以及如何使用匈牙利算法和预处理reduce李明和教授副教授还介绍了一种具有声纹深度编码一致性约束的多说话人合成系统框架。
除了传统的TTS输出外,在输出端增加了声纹网络,使得合成网络输出的语音的声纹编码与给定目标说话人的声纹编码保持一致,提高了语音的相似度。
向目标说话者合成语音。
中国科学技术大学电子工程与信息科学系副教授凌振华:基于表征解耦的非并行语料说话人切换第四位演讲嘉宾是电子工程与信息科学系副教授凌振华中国科学技术大学电子工程与信息科学学院.凌振华的主要研究领域包括语音信号处理和自然语言处理。
主持和参与国家自然科学基金、国家重点研发计划、安徽省演讲项目等多项科研项目。
发表论文10余篇,论文被引用10余次。
曾获得国家科技进步二等奖和IEEE信号处理学会最负盛名的奖项。
最佳青年作者论文奖。
在暴雪挑战赛国际语音合成技术评测、语音转换挑战赛国际语音转换技术评测等活动中多次获得测试指标第一名。
副教授凌振华现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听力与对话专业组委员、中国计算机学会语音分会学术委员会委员。
中国语言学会、全国人机语音通信学术会议常委。
2006年担任IEEE/ACM TASLP期刊副主编。
在这次前沿语音技术专场中,教授凌振华副教授的演讲主题是《基于表征解耦的非平行语料话者转换》。
说话人转换也称为语音转换,是指在不改变文本内容的情况下改变语音中的说话人身份信息。
凌振华副教授在发言中主要从语音转换所依据的语料库类型出发,介绍了平行语料库下语音转换的技术演进过程,并推广到非平行语料库下的语音转换。
其中,在并行语料库条件下,传统的语音转换是基于GMM(高斯混合模型)实现的。
2000年以后,深度学习技术被引入到语音转换任务中,相继提出了基于生成训练的生成训练深度神经网络(GTDNN)等模型。
然而,GMM和DNN在对齐源和目标语音帧的过程中都面临着错误和不合理的问题。
近年来提出的序列到序列(seq2seq)语音转换方法可以有效改善这一问题,提高转换后语音的自然度和相似度。
进一步,凌振华副教授谈到了非平行语料库条件下的语音转换,并表示这种场景在实际应用中很常见,难度也比较大。
基于非并行数据构建并行数据以及分离语音中的文本和说话人表示是实现非并行语音转换的两种主要技术途径。
随后,凌振华副教授重点介绍了提出的基于特征解耦的序列到序列语音转换方法。
该方法在序列到序列建模框架下实现了语音中文本相关内容和说话人相关内容的分离,并取得了优异的效果。
传统逐帧处理方法的非并行语音转换质量接近于使用相同规模的并行数据的序列到序列语音转换效果。
最后,副孔令振华表示:在语音转换过程中,序列到序列建模方法在时长调整、长期相关性建模等方面有其优势,但该方法应从并行数据条件扩展到非并行数据条件存在挑战。
特征解耦是解决这个问题的有效方法。
通过序列到序列框架下的模型结构和损失函数设计,可以获得相对独立的文本和说话人表示,进一步实现非并行数据条件下的高质量语音转换。
上海交通大学计算机系余凯教授:端到端半监督语音识别技术进展 最后出场的是上海交通大学计算机系余凯教授。
于凯教授是上海交通大学苏州人工智能研究院执行院长、Spichi创始人兼首席科学家。
清华大学学士、硕士学位,英国剑桥大学博士。
长期从事语音技术研究及产业化工作。
发表论文10余篇,荣获ISCA计算机语音和语言与语音通信最佳期刊论文奖,InterSpeech、IEEE SLT、ISCSLP等国际会议杰出论文奖,美国国家标准局演讲奖。
认知评价、国际口语对话系统研究挑战赛等研究评价冠军。
于凯教授担任多个领域旗舰会议的分区主席和程序委员会主席。
国家青年千人计划入选者、国家自然科学基金委杰出青年学者、IEEE高级会员、首届IEEE中国大陆高校语言与文字处理技术委员会委员()。
现任IEEE Transactions on Speech and Language Processing编委、中国人工智能产业发展联盟学术与知识产权组组长、中国计算机学会语音对话与听力专业组副主任。
荣获中国人工智能学会吴文俊科技进步奖、“《科学中国人》年度人物”、中国计算机学会青竹奖。
在前沿语音环节,教授于恺发表了题为“《端到端及半监督语音识别技术进展》”的演讲。
在余凯看来,端到端语音识别降低了识别系统的复杂度,减少了参数数量,简化了训练流水线。
当前的端到端框架主要有两种类型——同步框架和异步框架;解决分类和对齐问题。
余凯和教授在演讲中主要讨论了异步端到端。
它最大的特点是输出和输入没有统一的时钟,有两个不同的网络。

Encoder从整体输入序列中提取特征置信度,然后Decoder以自回归的方式输出标签序列,然后通过注意力机制(Attention)处理输入输出对齐。
同时,教授于凯还指出,端到端识别系统面临两大挑战:“在线解码的延迟问题、文本资源和语言空间限制”。
为了解决在线解码的延迟问题,需要采用异步端到端模型进行在线解码。
主要有三种方法——固定短期窗口预测(Neural Transducer)、基于单帧触发的变长窗口方法(MoChA,Triggered Attention)、基于多帧累积触发阈值的方法(AdaptiveCom邹月娴教授gSteps)。
针对文本资源和语言空间约束的挑战,可以采用模型融合(Fusion)、语言模型模块嵌入、半监督训练等方法来解决问题。
除了端到端模型之外,余凯和教授还提到了数据处理。
从海量数据升级到高质量、准确的大数据,需要进行自监督预训练、半监督训练和生存数据训练。
此外,于恺和教授还提到了如何在没有数据的情况下无中生有。
余凯和教授说:大多数无中生有的方法都是通过引入生成模型来解决的,而判别性方法则严重依赖数据。
只有拥有足够的数据,才能解决可辨别性问题。
教授于凯在演讲中主要介绍了两种“生成丰富的副语言信息”的方法:一是利用VAE对低资源数据下的说话人空间进行建模,在综合数据时,从潜变量的先验分布中进行采样,得到用于 ASR 训练的虚拟演讲者的语音;二是不使用句子级VAE,而是使用音素级VAE来增加合成音频中副语言信息的多样性。
随着最后一位嘉宾的演讲结束,前沿语音环节也落下帷幕。
各嘉宾演讲汇编将于稍后发布,敬请关注。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-06
06-18
最新文章
3月,腾讯《王者荣耀》在全球App Store和Google Play吸引了2.57亿美元,同比增长63%
生鲜传奇宣布完成数亿元B+轮融资
裁员20%?红杉中国回应:胡说,员工总数不降反升
第二次影视创新“闯”短剧世界:看、留、跳都是钱
ASML:从飞利浦弃儿到光刻之王
宁康瑞珠获数千万元A轮融资 横琴金投、翰颐资本投资
智能金融服务生态平台科客完成A+轮融资
拼多多九鼎:信息披露无懈可击,竞争对手才是“浇水”的