首页 > 科技启迪 > 内容

Spichi CTO周伟达：语音技术优先服务AIoT - CCF-GAIR 2019

发布于：2024-06-17 编辑：匿名来源：网络

雷锋网：7月12日至7月14日，第四届全球人工智能与机器人峰会（CCF-GAIR）在深圳正式举行。

本次峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办。

其得到了深圳市政府的大力指导，是国内人工智能和机器人学术界和产业界的重要论坛。

是产业界和投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域强大的跨境交流合作平台。

目前，智能语音技术已成为下一代人机交互方式，并得到了业界的认可。

智能交互、就近唤醒、全双工等已成为当前语音技术的前沿技术讨论。

在CCF-GAIR“5G+AIoT”专场上，Spichi CTO 周伟达就语音交互技术进行了演讲，主题为《语音交互技术在 IoT 方向的应用与挑战》。

在Spichi CTO 周伟达的演讲中，周伟达指出智能语音目前面临三大挑战，即低功耗、远场交互和高噪声、全场景智能交互。

首先，在低功耗方面，周伟达在讲话中提到了低功耗算法、低功耗芯片以及软硬件一体化解决方案。

讲话结束后，周伟达在接受雷锋网采访时还强调了低功耗。

他认为：“低功耗是语音技术发展的方向之一。

它是涉及语音交互的整个链条，从前端信号处理到语音合成，再到扬声器播放，每个环节都必须实现低功耗。

”此外，对于软硬件结合的行业创新，周伟达在采访中表示，一方面是AI计算的加速，即在现有平台上植入算法，加速计算；另一方面是芯片的创新。

他说：“AI芯片将打破传统的冯诺依曼组件架构，然后从外部输入数据和指令，然后有一个架构将它们计算后输入出来。

有可能数据和计算是一起完成的。

所以我们认为将会出现一些革命性的技术突破。

”针对远场交互和高噪声的挑战，周伟达在演讲中提出了麦克风阵列、降噪、多模态交互、全双工系统等解决方案。

此外，为了解决全场景智能语音交互的挑战，周伟达提出了多设备联动机制，通过正面唤醒、附近唤醒、语义唤醒等解决方案，解决家庭场景下的多设备智能问题。

选择和多模态直视唤醒。

醒来拼图。

对于全双工语音系统，周伟达在采访中补充道。

他表示，Spichi首先希望提高人机交互的自然度。

主要集中在两个方面。

一方面是处理降噪，提高VAD。

;另一方面是完整的意图判断。

不仅如此，未来全双工技术不仅会提升自然度，还会提升智能；包括感知智能和认知智能。

除了演讲中提到的三大挑战外，隐私安全也是语音交互在物联网领域应用中值得关注的问题。

对此，周伟达在接受采访时表示，隐私保护是最基本的。

行业想要发展，隐私就必须得到保护和尊重。

目前，Spichi不仅专注于语音技术，还开发自己的AI芯片。

周伟达在接受采访时表示，要发展语音技术产业，斯皮奇必须做得更多。

事实上，Spichi最初主要投资于AI算法。

为了落地技术并为客户提供更好的服务，Spichi持续提供多个层面的解决方案。

值得注意的是，本次演讲的特别主题是“5G+AIoT”。

对于5G的进步和发展对物联网的影响，周伟达在接受采访时表示：“未来接入5G后，室内设备访问数据的能力将会更加流畅、更快。

”对于室外设备来说，比如如车载设备、地铁售票机等，周伟达认为语音交互的速度可以迅速提高。

未来，带有语音交互设备的购票机上约70%的用户将选择通过语音方式购票，而不是使用按钮或触摸屏。

通过5G连接互联网后，未来户外设备将提供越来越便捷的服务。

以下是周伟达在CCF-GAIR会议上的讲话内容。

雷锋网在不改变原意的情况下进行了编辑整理：Spichi成立于2001年，十多年来一直从事AI尤其是语音交互方面的技术研发。

以及技术和内容服务。

物联网领域语音技术面临的挑战： 1、低功耗。

我们需要在耳机设备上进行语音交互并且一直在听，这需要非常高的功耗。

这部分技术稍后会详细介绍。

2、远场、高噪声。

我现在拿着的麦克风是用于近场麦克风语音采集的。

在智能家居环境中，不可能一直拿着麦克风或者携带麦克风与设备进行语音交互。

在智能音箱、智能电视和各种智能家电，以及各种户外场景中，我们希望人们能够摆脱手持麦克风，与设备进行自然、智能的语音交互。

那么，远场语音交互面临哪些问题呢？信噪比低。

在远场语音交互中，由于距离麦克风很远，首先面临的问题就是信噪比低。

信件回复比率低。

如果本机播放音乐和合成声音并与您互动，本机的混响将返回到本地设备。

因此，面临的第二个问题是信回比低。

环境噪音干扰。

除了本机发出的声音之外，我们还面临着电视对扬声器的干扰，或者周围许多人聊天的干扰。

在商店场景中，遇到的最大问题是：在封闭的商店中，两排电视平放在一起。

房间的三面墙上都有电视。

这些电视打开演示，同时就有大量购买。

参观者，主讲人和促销员如何在这样的场景中进行演示，包括向大家展示语音交互的体验？在这样的场景下，挑战是非常大的。

外界干扰对目标人声影响很大。

因此，第三个问题是信号干扰功率比非常低。

远场相互作用。

无论是在当今的环境、家庭环境，甚至是露天环境中，60dB的混响时间都是非常长的。

在开放场景中，人们相互交流时消除背后的混响并获得清晰的语音也是非常具有挑战性的。

3、全场景智能交互。

物联网应用中使用了多种设备。

目前我们涉及物联网领域的多个设备场景，并且有很多产品搭载了SPEED语音技术。

那么，问题出在哪里呢？语音技术还不能实现非常通用的语音识别，语音识别带来的很多领域知识及其背后的语音模型都需要定制。

正常情况下，日常沟通是没有问题的，现代机器可以轻松解决这个问题。

但是当我们面对一些特殊的专业术语，一些外来词，中文加英文，对于这样的语言模型，就需要对机器进行定制，需要输入热词。

那么，如何方便开发者和客户定制人机语音交互技能，是我们从优化实验室单一设备、单一产品技术走向市场化、规模化面临的巨大挑战。

如何实现低功耗？目前业界的解决方案基本上是“算法+硬件”。

一块芯片的功耗取决于芯片的供电、芯片的面积、芯片的主屏。

我们必须严格筛选这些部分。

当然，业内也有很多专注于制作低功耗芯片的专业公司。

如何在硬件上实现多级分类和复用？事实上，在很多场景下，人与机器大多数时候并没有交互。

那么，我们能否在安静场景下进行降级降级呢？在出现语音的场景中，我们使用VAD进行检测并启动语音采样，并开始后续的语音监控。

当人们唤醒它并有目的、有针对性地与机器设备交互时，我们可以检测到人的意图：他正在与机器交互，而不是与其他人或其他场景聊天。

在这种情况下，实现低功耗需要分层处理和降频处理。

低功耗处理需要通过算法解决当前硬件无法解决的问题。

我们需要一个模拟的 VAD。

过去，大多数VAD都是在麦克风采样后使用VAD算法来检测语音。

这里我们可以检测的是：是否有系统启动的声音？另外，为了满足人们的交互需求，设备在白天和夜间都受到监控。

Spichi CTO周伟达：语音技术优先服务AIoT - CCF-GAIR 2019

在极其安静的情况下，设备处于睡眠状态。

在夜间安静的场景下，设备也应该像人一样休息。

在这一部分中，我们应用硬件模拟VAD来监测接收到麦克风信号后周围声音场景的能量强度。

第二个是数字硬件的VAD。

我们要解决的问题是，在有声音的环境中，声音可能是噪音、人声或者其他设备的声音。

我们需要用数字信号来处理算法来检测是否是人声。

如果此时检测到人声，则说明麦克风观察到了人声。

如果不进行缓存，后续进行语音唤醒和声纹识别时，数据就会丢失。

因此，采样时必须进行缓冲和缓存，以完整保留人类语音。

之后我们需要结合一级信号处理和一级唤醒，这就是初始目标的识别。

检测人员时，附近会有很多干扰声音。

要实现低功耗，首先要做第一级简单处理，然后做第二级高精度处理，然后对人的声纹进行判断和监听，然后再做本地识别。

整个过程，原本复杂的算法一下子就解决了。

但为了满足低功耗的要求，我们逐步提升计算性能，逐渐在极少数场景下启用高功耗，在大部分场景下保持低功耗。

在物联网领域，解决低功耗问题需要“硬件+算法”。

其实我们是从算法的需求来定义芯片的。

这部分，深聪智能CTO朱先生（雷锋网注：深聪智能CTO朱成宇），深聪智能由Spichi与中芯国际旗下投资公司中芯聚源共同成立。

合资公司）将在AI芯片专场上详细介绍如何在芯片上实现低功耗语音检测、语音唤醒、语音信号处理等功能。

如何解决远场、高噪声问题？随着智能音箱、智能电视等各类智能设备的推出，业界普遍采用麦克风阵列技术进行远场信号处理。

Spichi的麦克风阵列主要包括圆形六麦克风阵列、圆形四麦克风阵列、线性四麦克风阵列和两麦克风阵列。

在Spichi的实验室中，麦克风阵列的最大数量是三十二个麦克风。

即使放置在大型会议室，也可以对每个人进行详细的监控。

另外，在开放环境下，我们实现了分布式麦克风阵列。

从设备的麦克风阵列来看，环形四麦克风和环形六麦克风的间距相对较短。

然而，分布式麦克风阵列不会受到空间或麦克风源之间的距离的限制。

它是开放式的，麦克风可以在空间内任意布置。

在降噪方面，户外可穿戴场景面临的主要问题是风噪降低。

我们与多家快递公司、物流公司合作，将语音唤醒、声纹识别集成到耳机中。

当快递小哥在外面快速骑行时，无论是下单还是送货，都需要打电话。

风会直接吹到麦克风上。

遇到的一个典型问题是风噪声。

那么，如何解决风噪问题呢？ Spichi从硬件、软件和结构等方面都很好地抑制了风噪声。

当算法无法解决问题时，在耳机上，不仅可以通过空气传播来采集语音，还可以通过振动或触摸来采集语音。

众所周知，除了空气麦克风和骨感麦克风之外，还有通过振动采集人类语音的皮肤接触式麦克风。

如何将接触传播和空气传播两种不同性质的采集单元结合起来进行降噪处理和融合？目前，Spichi正在尝试此类技术。

当与其他人互动时，我们的第一反应是直视，也可能是直接的声音或接近反应。

有一个场景你可以体会到，如果我们单纯依靠语音监听，我们打电话时的互动往往比面对面的互动不自然。

是什么原因？当人们只依靠听力时，他们经常会在电话中竞争或等待对方说话。

我说完就等你回复，不知道你什么时候回复。

在这样的场景下，真正的智能交互是多模态交互。

除了语音之外，还必须与其他传感器配合，尤其是视觉。

在智能交互方面，虽然大多数机器的语音识别能力越来越好，支持的技能也越来越多，但人机交互和人机交互之间仍然存在差距。

具体有哪些方面？呢绒？首先是自然性。

如今，当人们与机器交互时，尤其是成年人与机器交互时，每个人都会怀疑机器的技能。

当人类和设备交互时，他们都是以命令为导向的。

他们希望机器说话后能快速做出反应。

人类是非常强大的。

然而，也有一些场景是人们把机器当人对待的。

说几个典型的场景：在孩子的教育中，孩子会对机器说一些平时不敢对父母说的话，与机器聊天、谈心。

这是因为对话技术变得越来越自然。

人机对话技术遇到的问题是交互的自然性。

这种自然性包括哪些方面呢？首先，当人与机器交互时，机器应该停止。

它无法预测这句话是否充分表达了这个人的意图。

它仍在聆听，如果有噪音也不会停止。

第二个是它在不该停止的时候停止了。

人们说话时停顿了一下，但机器认为人们已经说完了，并做出相应的反应，说“我不明白你的意思”。

对于这些场景，单点技术很容易解决。

人声检测、VAD检测、语音识别判断句子的完整性和意图的完整性。

最大的难点在于整个系统架构，从前端采集的信号处理到意图判断。

如果判断延迟太高，机器反应就跟不上人的节奏。

在智能回复方面，我们贴近人际互动的节奏，能够很好地理解对方的意图，并且能够回答和回应。

如今，Spichi系统的集成将把语音信号的处理和识别转移到本地，加速这一进程。

在某些场景下，已经实现了人与机器的自然交互。

以上就是我提到的自然交互的两个方面。

另外，有人打断机器对话，机器能够自然地接听对话。

听完一段机器声音，播放出来的时候人们就已经听懂了。

有时人们会很用力地说：“闭嘴，我告诉你我的下一个意图。

”这时，人们常常会打断机器。

还有另外一个场景。

去年谷歌的 Duplex 大会上，全世界人民最热烈的掌声是机器给餐厅打电话预约地点和时间的时候。

中间还有一个细节。

另一家餐厅的服务人员说道：“您要预约。

” “有多少人？”，然后是“你什么时候到达？”这两句话中间短暂的停顿，机器“嗯嗯”了一声。

就是这一声“嗯哼”，让全世界的耳朵都亮了。

这是什么原因呢？当人的意图没有完全表达出来的时候，机器要在这么短的时间内做出反应，在毫秒内做出“嗯哼”的决定，这对整个系统的架构提出了巨大的挑战。

未来，我们也希望人机交互能够更加智能化：智能中断、智能纠错、抗干扰。

全场景语音交互：多设备联动+DUI平台随着单一智能设备在家庭中的普及，多个智能设备出现在许多家庭中。

当两个智能设备出现时，仍然使用语音唤醒进行交互是反人类的产品设计。

那么为什么要在此类产品中使用反人类产品呢？困难在于，我们在制作语音交互设备时，如果设备一直在监听而不唤醒，设备常常会误判。

虽然识别没有问题，但是会误导设备与人交互，误判会导致用户体验不佳。

这里，我们需要解决多设备交互、多设备联动。

比如家里有多台设备，是否可以实现前端唤醒？附近可以叫醒吗？或者附近互动？另外，语义选择就是通过设备监控人的语音，判断当前人是否正在对设备说话，是否与机器覆盖的规模和意图一致。

最后，多模态视觉交互是利用视觉设备和红外设备来感受人与机器之间的表情和眨眼的交流。

使用多模态来确定人是否正在与机器通信，然后机器会做出相应的响应。

面向多场景应用，在Spichi DUI平台上，用户可以自定义语义、对话、内容和技能。

人机语音交互经过多个环节，即识别、语义理解、对话管理、语音合成、内容服务。

这些任务都是在后台执行的。

真正培养出一门好技能，涉及到各个模块的优化。

Spichi刚刚开始服务物联网，花了一年半的时间与客户合作打造出第一台场景设备。

对于这种技术，实验室可以做，个人也可以做demo。

但当谈到产业化和市场化时，SPEECH面临的最大问题是：能否做成一个客户可以快速开发和营销的系统？定制？如果客户喜欢我们的标准功能加上简单的定制，Spichi开发的DUI平台可以在7分钟内完成；如果完全由客户定制，一项技能一天就能完成。

人机语音交互的主要目的是获取信息资源和内容，实现订票、听音乐、看电视等功能的操作。

这是最直接、最刚性的需求。

要实现这些操作，后端需要非常丰富的内容资源。

对于这些内容资源，Spichi在业内有很多内容提供商，无论是互联网还是移动互联网。

人机语音交互和AIoT有何特别之处？以前，我们无论是通过手机还是PC听音乐，都可以浏览自己喜欢的歌手、喜欢的歌曲，还可以听一半的歌曲或者快速切换歌曲。

想象一下没有屏幕、只有语音交互的扬声器设备。

那么，如何快速获取自己想要的内容呢？目前最全的音乐库约有3200万首歌曲，一个人经常听的歌曲最多。

那么，如何在超过3200万首歌曲中找到你经常听的歌曲，让你可以在闲暇时，或者在你累的时候，听的歌就是你想要的音乐，你想要的电视想看的是你没看过的同品类优质大片？这是智能设备上的优质内容源服务。

那里不仅内容来源可供您选择，而且还推荐大量适合您的喜好和您最关心的内容。

在AIoT中，除了单个设备的智能化，我们还需要打通全屋的智能化。

在Spichi的DUI平台上，我们为开发者开放了各种智能家居互联协议。

目前我们已经开放了20多个协议，可以与其他智能设备平台互联互通，互相调用对方的信息，互相共享信息。

针对多场景的应用，我们希望为开发者提供最便捷的通用解决方案选择。

目前，Spichi在物联网方向为开发者提供了几个品类的标准综合解决方案：家庭语音解决方案。

为冰箱、空调、洗衣机、控制面板、电脑、小家电、厨房电器、卫浴电器等各类智能家居设备提供解决方案。

我们为各类智能手机、智能手环、智能手表、智能平板提供低功耗户外场景语音解决方案。

我们为儿童故事机、机器、手表、学习平板、编程机器人提供完整的解决方案。

我们为各类企业会议系统提供远场语音采集、信号处理、语音增强、通话音质改善，提高办公效率，包括新闻发布会防混响、防啸叫语音采集、实时语音转写、语音会议摘要。

提供提取、实时翻译等解决方案。

Spichi的所有语音技术都优先服务于AIoT。

我们坚信好的语音技术一定能够服务于每一位普通观众、普通用户。

只有让每个用户真正体验到交互的自然性和便捷性以及信息获取的便捷性，才能让每个用户真正接受语音交互技术在设备中的应用。

本次峰会结束后，我们将推出CCF GAIR峰会完整视频以及“人工智能投资研究中心”各大主题白皮书，包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。

“AI投研邦”会员可免费观看全年峰会视频和研究报告内容，并扫描二维码进入会员页面学习更多的。

峰会期间，您将享受独家即时折扣优惠。

您可以直接进入页面领取，也可以私信助教小木（微信：moocmm）咨询。

（最后一天还有50个名额，赶紧抢吧。

Spichi CTO周伟达：语音技术优先服务AIoT - CCF-GAIR 2019

站长声明

标签：

上一篇：艾棣维欣生物或将赴港上市，专注预防性和治疗性疫苗研发

下一篇：新闻 -深圳首支村集体产业投资基金成立，规模3亿元

中国光伏产业为何如此痴迷中东？

第28届联合国气候变化大会在阿联酋迪拜召开，备受关注。中东投资人Alice也进入了今年最忙碌的时刻。她在专注本土化投资的机构亿达资本担任“总经理董事”。她先后投资并支持多家中国企业落户中东，帮助其拓展国际业务。今年以来，Easy Capital团队已经接待了几波中国企业

06-18
小米2018年手机销量达1.187亿部，AIoT成为收入增长引擎

雷锋网消息，小米近日发布了截至12月31日的第四季度财报，以及全年业绩报告。财报数据显示：小米第四季度营收为2100万元，较去年同期的1.4亿元增长26.5%；净利润为人民币18.53亿元，较上年同期的人民币5.5亿元增长0.7%。。全年，小米总营收151.5亿元，较全年2.4亿元增长52

06-18
CSS2016安全极客秀：安全领袖峰会秒变“矩阵”

你以为黑客只针对你的电脑和手机吗？那你对黑客还不太了解。在黑客手中，机器人不仅可以变身为窃听专家、窃取你的隐私，还可以变身为机器代理，完成对现实世界信息系统的入侵；索尼PS4不仅可以玩《生化危机》，还可以越狱玩《超级马里奥》；就连国家安全局的网站也无可奈何。

06-17
「Using.AI」获数千万元Pre-A轮融资，君联资本、金沙江联合资本出手

投资圈（ID：pedaily）7月26日消息，据36氪广东、深圳贝尔信息科技报道优思科技股份有限公司（以下简称“优思科技”）已完成数千万元Pre-A轮融资。投资方为君联资本、金沙江联合资本。本轮融资将主要用于公司新产品研发及业务拓展。 “Using.AI”是一家研发工业和能源AI智能

06-18
三星第8代V-NAND已开始量产

三星半导体作为一家全球半导体公司，按照在一年一度的闪存峰会和一年一度的三星内存技术日上的承诺，三星7日宣布已经开始量产生产 1Tb（太字节）三位单元 (TLC) 第 8 代 V-NAND，具有三星产品中最高的存储密度。全新1Tb V-NAND拥有当前三星V-NAND中最高的存储密度，可为全球

06-06
济南将设立总规模10亿元的民营中小企业发展基金

6月17日上头条。近日，山东省济南市委、市政府召开新闻发布会，发布解读《关于加快推动民营经济高质量发展的实施意见》相关情况。会上，济南金融投资基金控股集团有限公司表示，将设立总规模10亿元的民营中小企业发展基金，重点投资高成长、高新技术领域民营企业前期要激发

06-18
瑞幸咖啡被“泰国瑞幸”起诉20亿

“李逵”败给“李鬼”，“李鬼”也起诉“李逵”。这样戏剧性的一幕，正在瑞幸咖啡与泰国*50R集团之间上演。据泰国多家媒体报道，12月19日上午，泰国*50R集团（50R集团）正式向法院提起诉讼，请求法院判令中国瑞幸咖啡赔偿经济损失1亿泰铢（约20亿元）。法院已受理此案。泰

06-18
台积电全球化隐忧

台积电欧洲、日本新工厂又有新消息。 11月21日，有媒体报道称，台积电正在考虑在熊本建设第三家工厂，生产3纳米芯片。预计相关投资将达到约1亿美元。台积电目前正在熊本县建设工厂，预计生产12纳米半导体。不久前，11月初，德国联邦反垄断局批准台积电与德国半导体公司博世

06-18
大数据解决方案提供商“九丈云迹”获3亿元C轮融资

5月18日消息，大数据解决方案提供商“九丈云迹DataCanvas”宣布完成3亿元C轮融资。本轮融资由尚轩资本、赛富投资基金领投，君紫投资、灵杰资本等投资机构跟投。据介绍，本轮融资完成后，获得的资金将用于进一步完善AI基础软件布局。九章云集DataCanvas将推出新一代HSAP实

06-18
【创业24小时】2023年4月24日

投融资昨天，国内市场共发生12起投资披露事件，其中先进制造3起（莱顿电子、中科航天、铼赛智能）、医疗和医疗3起健康案例（标新生物、烟得乐、一日健）、房地产案例2个（裕城御龙、美济山庄）、电商零售案例1个（伊纱曼妮）、汽车交通案例1个（格鲁博科技）、教育案例1个（扬

06-18
众文获超2000万元A3轮融资，智联招聘

投资圈（ID：pedaily）7月12日消息，今年一季度，创新职业教育平台众文完成A3轮融资本轮融资总额1万元。本轮融资由智联招聘领投，网易、汉能、创始人跟投。据悉，众闻此前已获得智联招聘、腾讯、网易传媒、汉能创投等多家投资方合计过亿元融资。智文在用户流量、品牌支持和

06-18
沃峰科技的智能机器人帮助企业内部沟通，实现高效团队

.wp-block-column h3{margin-left:0} 在当今快节奏的商业环境中，企业内部沟通是成功的关键因素之一。面对员工提出的各种问题，快速、准确的响应成为提高团队效能的必由之路。为了满足这一需求，越来越多的企业转向智能机器人解决方案，而沃峰科技凭借过硬的技术实力和丰富

06-17