首页 > 科技启迪 > 内容

苹果发布论文揭秘Siri

发布于:2024-06-17 编辑:匿名 来源:网络

苹果跨平台Siri虚拟助手在全球拥有超过5亿用户。

显然,语音识别是苹果感兴趣的重要领域之一。

上周,苹果发表了一系列预印本研究论文,研究如何改进语音触发检测和验证以及语言识别技术。

【图片来源:Patently Apple 所有者:Patently Apple】说话人验证和语音触发检测在第一篇论文中,苹果研究人员团队提出了一种经过训练来执行自动语音识别任务的人工智能模型。

苹果发布论文揭秘Siri

它还可以执行说话人识别任务。

正如他们在摘要中解释的那样,Speech Kong 识别的命令通常以触发短语为前缀(例如“嘿,Siri”),检测此触发短语涉及两个步骤。

首先,AI必须判断输入音频中的语音内容是否与触发短语的语音内容匹配(语音触发检测);其次,AI必须确定说话者的声音是否与注册用户或用户的声音匹配(语音验证)。

通常,这两项任务都是独立考虑的。

但合著者假设,了解语音发起者可能有助于推断声音信号中的语音内容,反之亦然,这将有助于评估这两种属性。

对此,研究人员设计了三套能够学习语音和说话人信息的模型,并在一组包含超过0小时的带注释样本的数据上进行训练,其中几小时的音频带有语音标签(其余为说话人标签) 。

不仅如此,超过 100 名受试者在一系列声学环境中使用智能扬声器设备为语料库做出了贡献,包括安静的房间、房间内电视或厨房设备发出的外部噪音以及录音机以高音量播放音乐。

值得注意的是,还添加了来自电视、广播和播客的数小时不包含触发短语的连续录音,以测量“误报”率。

这些模型显示出学习语音和说话人信息的能力,同时在每项任务上至少实现与具有相同数量参数(控制训练过程某些属性的变量)的基线模型相同的准确性。

事实上,在所提出的三种模型中,其中一种在“多个”设置中优于说话者验证基线,在与文本无关的任务中比基线提高了 7.6%。

研究人员认为,这样的实验结果非常有趣,因为这些模型是使用不相关的数据集进行训练的,也就是说,每个音频样本要么有语音标签,要么有说话人标签,而不是两者都有。

观察结果,研究人员提出了一种灵活的设计,通过连接不同任务的训练数据,而不是为每个训练示例获取多个标签,在多个相关任务上训练模型。

从实际角度来看,能够在两个任务之间共享计算可以节省设备内存、计算时间或延迟以及功耗/电池消耗。

【图片来源:venturebeat 作者:venturebeat】 虚假触发缓解 在研究中,有一项补充研究减少了虚假触发的发生,即语音助手有意忽略 Siri 的语音助手。

研究人员表示,他们使用了图神经网络(GNN),这是一种在图结构上运行的人工智能模型,其中每个节点都与一个标签相关联,其目标是在没有基本事实的情况下预测节点。

的标签。

研究人员在论文中写道:语音触发的智能助手通常会在开始监听用户请求之前检测到触发短语……错误的触发通常来自背景噪音或听起来与触发短语相似的语音。

因此,减少误触发是构建以隐私为中心的非侵入式智能助手的重要方面。

在未来的工作中,该团队计划将基于 GNN 的处理扩展到其他任务,例如用户意图分类。

多语言说话人识别 在另一篇论文中,苹果研究人员探索了专为多语言使用者量身定制的说话人语言识别系统。

他们表示,语音识别系统对于大多数语言都具有很高的准确性。

然而,当多种语言出现时,这种语言识别系统的表现就不尽人意了。

因此,基于这个实现,研究人员决定对说话人语言识别系统进行研究。

值得注意的是,最近由 《华盛顿邮报》 委托进行的一项研究表明,谷歌和亚马逊制造的流行智能音箱理解母语人士口音的可能性比非美国口音高出 30%。

同时,像 Switchboard 这样的语料库也被证明对来自该国特定地区的用户存在明显的偏见。

该语料库也是IBM、微软等公司用来衡量语音模型错误率的数据集。

针对这种情况,合著者将有关使用模式的知识集成到一个听写系统中,该系统能够为来自 60 多个地区的说话者做出决策。

其中,声学子模型将根据语音信号传达的证据进行预测,而上下文感知预测组件则考虑各种交互式上下文信号。

通过这两方面的预测,选择最优的单语自动语音识别系统。

应当理解,上下文信号包含关于发出听写请求的条件的信息,包括关于安装的听写区域、当前选择的听写区域以及用户在发出请求之前是否切换听写区域的信息。

重要的是,当语音信号太短时,它们有助于依靠声学模型产生可靠的预测。

例如,如果用户同时安装了英语和德语,则像“naIn”这样的短而模糊的句子可能是德语中的否定词“nein”,或者是英语中的数字“nine”。

此外,为了评估该系统,研究人员还开发了一个名为“平均用户准确率”的自定义指标(雷锋网出版社,AUA,平均用户准确率),他们认为这可以更好地反映模型的准确性。

“人口水平”使用模式。

通过对多语言说话者的口述话语的内部语料库以及相应的交互上下文信息进行严格训练,它在所有语言组合上实现了 87% 的平均准确率,同时与基线相比,最坏情况的准确率提高了 60 以上%。

此外,在团队调整参数以平衡准确性和延迟与在设备上运行模型的计算负载之后,平均延迟从 2 秒减少到 1.2 秒,对 AUA 的影响不超过 0.05%。

雷锋网注:本文编译自 Venturebeat 版权文章。

未经授权禁止转载。

详情请参阅转载说明。

苹果发布论文揭秘Siri

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 劳力士在二手市场“跳水”

    劳力士在二手市场“跳水”

    以劳力士、百达翡丽为代表的高端品牌在二手市场日益“失宠”,引发二手表商和杠杆炒家叫苦不迭。 来自上海的制表师商奢和小主制表师创始人沈正奇向时代财经透露,“我们年底回收的一只爱彼橡树系列5的价格高达1万元。 今年7月,以1万元的价格出售。 他直接损失了1万元。 “这

    06-17

  • 共享床位关闭现场调查:不合规床位依然存在,专业VC上门检查

    共享床位关闭现场调查:不合规床位依然存在,专业VC上门检查

    才流行不到两周的共享床位因存在“安全隐患”这两天就“封城”了。 新闻话题。 据报道,北京、上海、成都等城市出现了长约2米、宽约1米、形似太空舱的“共享床”,并因火灾隐患相继被关闭。   真相是什么?   猎云网进行了现场调查,并致电拥有“共享床”的公司北京睡眠科

    06-18

  • 中芯国际与ASML签订12亿美元订单

    中芯国际与ASML签订12亿美元订单

    相关消息:中芯国际成熟工艺设备供货许可证获批。 中芯国际宣布,公司已完成2020年3月16日至2020年3月的批量采购协议,2日12个月期间与ASML集团签署采购订单,用于采购ASML产品,订单总金额1 美元,,,.中芯国际目前提供0.35微米至14纳米不同技术节点的晶圆代工和技术服务。 其

    06-06

  • 对外投资合作指南(澳大利亚)——中资企业在澳大利亚开展投资合作应注意的问题及对策

    对外投资合作指南(澳大利亚)——中资企业在澳大利亚开展投资合作应注意的问题及对策

    8.中资企业在澳大利亚开展投资合作应注意的问题及对策 8.1 对澳大利亚投资合作的主要风险 合作面临以下风险: (一)疫情 目前,澳大利亚新冠肺炎(COVID-19)疫情依然严峻。 截至今年7月,澳大利亚仍未完成接近覆盖全体人口的疫苗接种。 澳大利亚于 2018 年 12 月 1 日开放边

    06-18

  • 又一位车企老板濒临破产:匆匆交棒95后孙女

    又一位车企老板濒临破产:匆匆交棒95后孙女

    又一位汽车公司老板濒临破产:1995年出生的孙女匆忙交出大权。 在重庆首富造车的梦想破灭了。 8月27日晚间,力帆股份发布半年报。 上半年,力帆不仅亏损26亿元,净资产降幅也扩大至96.12%,只剩下1亿元。 第二天开盘,力帆的股价就跌停。 这家成立20多年的老牌国产车企濒临破

    06-18

  • 据河北新闻网报道,石家庄市将设立两大产业发展基金,总规模达200亿元

    据河北新闻网报道,石家庄市将设立两大产业发展基金,总规模达200亿元

    投资界(ID:pedaily)9月13日消息,为深入贯彻落实石家庄市第十一次党代会精神石家庄市按照市两会精神,充分发挥政府产业基金促投资、扩投资、稳增长的关键作用,推动新一代电子信息两大产业发展生物医药率先取得突破。 石家庄市将设立石家庄市主导产业发展基金(以下简称“

    06-18

  • 投资界新闻 - SI集团与上海医药集团联合设立500亿生物医药产业基金

    投资界新闻 - SI集团与上海医药集团联合设立500亿生物医药产业基金

    投资界消息(ID:pedaily),上海医药与上海医药集团将联合设立上海生物医药产业基金,规模达1亿第一期1亿多元,最终规模1亿左右。   据财联社报道,上海医药董事长周军表示,产业基金不是简单的投资基金,而是一个平台。 “两家公司未来将打造几个大平台,推动上海医药生物

    06-17

  • 1800亿巨头低价卖,只卖36亿

    1800亿巨头低价卖,只卖36亿

    为什么低价卖? 出奇。 一家市值1亿美元的公司最近被以5亿美元的低价出售。 其股东包括但不限于阿里巴巴、京东、腾讯。 它就是Farfetch,一家成立于2008年的英国奢侈品电商平台,2009年在纽约证券交易所上市。 这次的买家是韩国公司Coupang。 官网显示,其成立于2007年,总部

    06-17

  • 同性恋社交应用Zank是如何冲出红海并获得B轮融资的?

    同性恋社交应用Zank是如何冲出红海并获得B轮融资的?

    就在昨天,同性恋社交软件Zank宣布获得上市公司昆仑万维的数千万元B轮融资。 赞克创始人和首席执行官凌绝顶表示,融资资金将用于完善同志电子商务平台的建设和直播产品的开发。 资本看好“粉色经济” 互联网进入移动时代以来,社交软件层出不穷,充斥着人们的手机。 在以微信

    06-18

  • OpenAI与微软成立1亿美元AI创业基金

    OpenAI与微软成立1亿美元AI创业基金

    》5月27日,OpenAI正式宣布成立OpenAI创投基金,将通过该基金向AI公司投资1亿美元。 OpenAI正在寻找少量早期初创公司,这些公司所在的领域人工智能可以产生变革性影响,例如医疗保健、气候变化和教育,以及基于生产力的人工智能工具。

    06-17

  • B轮融资3180万美元, 2年内已获得4轮融资,营收超15亿元,这家售油公司已经实现全面盈利!

    B轮融资3180万美元, 2年内已获得4轮融资,营收超15亿元,这家售油公司已经实现全面盈利!

    据投资界8月24日消息,找游网宣布公司已完成1万美元B轮融资,由DCM领投,Wagonbang跟投,SIG耀明亚洲、云九等A轮投资方本轮融资,云启资本、GGV纪源资本、Venture Partners均继续跟投。 冲盈资本担任本轮融资独家募资方。   找油网创始人与CEO吕健表示:“未来,找油网将在

    06-18

  • 存储芯片需求放缓,三星电子高管表示没有减产计划

    存储芯片需求放缓,三星电子高管表示没有减产计划

    TechWeb 据报道,目前存储芯片市场形势并不乐观。 由于对全球经济衰退的担忧而导致的需求放缓已经影响了终端产品的开发。 需求反过来又影响存储芯片的需求。 有研究机构预测,NAND闪存和DRAM的价格正在下降,明年市场供过于求的情况将加剧。 存储芯片需求放缓和价格下降将不

    06-06