首页 > 科技启迪 > 内容

苹果发布论文揭秘Siri

发布于：2024-06-17 编辑：匿名来源：网络

苹果跨平台Siri虚拟助手在全球拥有超过5亿用户。

显然，语音识别是苹果感兴趣的重要领域之一。

上周，苹果发表了一系列预印本研究论文，研究如何改进语音触发检测和验证以及语言识别技术。

【图片来源：Patently Apple 所有者：Patently Apple】说话人验证和语音触发检测在第一篇论文中，苹果研究人员团队提出了一种经过训练来执行自动语音识别任务的人工智能模型。

苹果发布论文揭秘Siri

它还可以执行说话人识别任务。

正如他们在摘要中解释的那样，Speech Kong 识别的命令通常以触发短语为前缀（例如“嘿，Siri”），检测此触发短语涉及两个步骤。

首先，AI必须判断输入音频中的语音内容是否与触发短语的语音内容匹配（语音触发检测）；其次，AI必须确定说话者的声音是否与注册用户或用户的声音匹配（语音验证）。

通常，这两项任务都是独立考虑的。

但合著者假设，了解语音发起者可能有助于推断声音信号中的语音内容，反之亦然，这将有助于评估这两种属性。

对此，研究人员设计了三套能够学习语音和说话人信息的模型，并在一组包含超过0小时的带注释样本的数据上进行训练，其中几小时的音频带有语音标签（其余为说话人标签）。

不仅如此，超过 100 名受试者在一系列声学环境中使用智能扬声器设备为语料库做出了贡献，包括安静的房间、房间内电视或厨房设备发出的外部噪音以及录音机以高音量播放音乐。

值得注意的是，还添加了来自电视、广播和播客的数小时不包含触发短语的连续录音，以测量“误报”率。

这些模型显示出学习语音和说话人信息的能力，同时在每项任务上至少实现与具有相同数量参数（控制训练过程某些属性的变量）的基线模型相同的准确性。

事实上，在所提出的三种模型中，其中一种在“多个”设置中优于说话者验证基线，在与文本无关的任务中比基线提高了 7.6%。

研究人员认为，这样的实验结果非常有趣，因为这些模型是使用不相关的数据集进行训练的，也就是说，每个音频样本要么有语音标签，要么有说话人标签，而不是两者都有。

。

观察结果，研究人员提出了一种灵活的设计，通过连接不同任务的训练数据，而不是为每个训练示例获取多个标签，在多个相关任务上训练模型。

从实际角度来看，能够在两个任务之间共享计算可以节省设备内存、计算时间或延迟以及功耗/电池消耗。

【图片来源：venturebeat 作者：venturebeat】虚假触发缓解在研究中，有一项补充研究减少了虚假触发的发生，即语音助手有意忽略 Siri 的语音助手。

研究人员表示，他们使用了图神经网络（GNN），这是一种在图结构上运行的人工智能模型，其中每个节点都与一个标签相关联，其目标是在没有基本事实的情况下预测节点。

的标签。

研究人员在论文中写道：语音触发的智能助手通常会在开始监听用户请求之前检测到触发短语……错误的触发通常来自背景噪音或听起来与触发短语相似的语音。

因此，减少误触发是构建以隐私为中心的非侵入式智能助手的重要方面。

在未来的工作中，该团队计划将基于 GNN 的处理扩展到其他任务，例如用户意图分类。

多语言说话人识别在另一篇论文中，苹果研究人员探索了专为多语言使用者量身定制的说话人语言识别系统。

他们表示，语音识别系统对于大多数语言都具有很高的准确性。

然而，当多种语言出现时，这种语言识别系统的表现就不尽人意了。

因此，基于这个实现，研究人员决定对说话人语言识别系统进行研究。

值得注意的是，最近由《华盛顿邮报》委托进行的一项研究表明，谷歌和亚马逊制造的流行智能音箱理解母语人士口音的可能性比非美国口音高出 30%。

同时，像 Switchboard 这样的语料库也被证明对来自该国特定地区的用户存在明显的偏见。

该语料库也是IBM、微软等公司用来衡量语音模型错误率的数据集。

针对这种情况，合著者将有关使用模式的知识集成到一个听写系统中，该系统能够为来自 60 多个地区的说话者做出决策。

其中，声学子模型将根据语音信号传达的证据进行预测，而上下文感知预测组件则考虑各种交互式上下文信号。

通过这两方面的预测，选择最优的单语自动语音识别系统。

应当理解，上下文信号包含关于发出听写请求的条件的信息，包括关于安装的听写区域、当前选择的听写区域以及用户在发出请求之前是否切换听写区域的信息。

重要的是，当语音信号太短时，它们有助于依靠声学模型产生可靠的预测。

例如，如果用户同时安装了英语和德语，则像“naIn”这样的短而模糊的句子可能是德语中的否定词“nein”，或者是英语中的数字“nine”。

此外，为了评估该系统，研究人员还开发了一个名为“平均用户准确率”的自定义指标（雷锋网出版社，AUA，平均用户准确率），他们认为这可以更好地反映模型的准确性。

“人口水平”使用模式。

通过对多语言说话者的口述话语的内部语料库以及相应的交互上下文信息进行严格训练，它在所有语言组合上实现了 87% 的平均准确率，同时与基线相比，最坏情况的准确率提高了 60 以上%。

此外，在团队调整参数以平衡准确性和延迟与在设备上运行模型的计算负载之后，平均延迟从 2 秒减少到 1.2 秒，对 AUA 的影响不超过 0.05%。

雷锋网注：本文编译自 Venturebeat 版权文章。

未经授权禁止转载。

详情请参阅转载说明。

站长声明

标签：

上一篇：雷曼兄弟房地产IPO拟融资34.5亿美元

下一篇：陕西榆林成立百亿产业链基金

家装行业服务平台一品家居网获500万天使融资

据投资界（ID：pedaily）6月17日消息，据36氪报道，S2B2C家居装饰行业服务平台“一品家居网”近日获得天使轮融资1万元，由家装行业天使投资人梁先生投资，投后估值1万元。本轮融资将用于装修企业营销获客平台的运营投资、团队建设、城市运营商招募以及建材供应链平台优化等

06-18
聚焦上海智能制造未来，产业共赢 -全球首届“未来产业之星”竞赛动员会暨未来材料专场活动在上海举行

为落实《上海打造未来产业创新高地发展壮大未来产业集群行动方案》，加快统筹推进技术与产业融合、当前与长远融合，需要政府与有效市场相结合，对未来产业发展做出前瞻性规划。 5月31日，在上海市经济和信息化委员会、上海市产业技术创新促进会、以色列驻上海总领事馆商务处、

06-18
普华资本-普华资本捐赠首批1500件防护服驰援湖北

据投资界1月26日消息，面对湖北各地医院防护物资告罄的情况，普华资本立即行动，联手天蓝星和湖北第一线医护人员紧急筹集急需的防护物资。第一批防护服已采购完毕，正通过当地志愿者发往武汉汉口医院、武汉市第五医院、武汉市第一医院、黄冈市中心医院。、黄冈市中医院、团

06-17
「51CTO」获 2000 万美元 C 轮融资，高城资本投资

据投资界消息，2 月 17 日消息，据 36Kr 报道，IT 培训品牌「51CTO」近日完成 1 万 C 轮融资，高城资本投资资本投资。 51CTO隶属于北京无忧创想信息技术有限公司，是一家专注于IT技术创新与发展的互联网公司。为IT技术从业者提供三维的知识传播、经验分享、技术交流、职业发

06-18
青海省引导基金直接投资了7家企业，重点关注当地特色产业，

关于地方特色产业中小企业创业投资引导基金拟投资企业结果公示，根据《青海省财政厅关于做好年地方特色产业中小企业发展专项资金项目申报和创业投资引导基金扶持企业推荐工作的通知》（青财公子〔〕）的要求经各地区通过文字审查、现场核查、尽职调查、专家评审等方式，对报送

06-18
最擅长玩游戏的是AI

在AI的世界里，最先崭露头角并击败围棋顶尖人类棋手《星际争霸 2》的AlphaGo已经宣布退役。如今，高手依然崭露头角。 MOBA游戏被“攻陷”之后，AI又将触角伸向了MMORPG品类。我们今天故事中的主角就是腾讯AI LAB和天涯明月刀团队联合开发的“绝智”。随着技术的发展，“AI

06-21
亚马逊和三菱将在日本建设超过450座光伏电站

新浪科技讯北京时间9月7日下午，有消息称亚马逊和三菱将在日本建设超过450座光伏电站。

06-08
京东战略投资凯撒旅游4.5亿元

据投资界人士透露，昨日（4月24日）晚间，凯撒旅游（96.SZ）发布年度非公开发行A股股票预案，拟募集资金11.6亿元。为补充流动资金，将引入文远基金、宿迁涵邦、中国人寿、上海理成、青岛浩天作为战略投资者。公告显示，凯撒旅业本次定向增发的发行对象为文远（三亚）股权投

06-18
文档管理平台“一方云”获840万美元A+轮融资，快的创始人陈卫星领投

NewSeed新闻11月21日，企业文档管理与协作云平台“一方云”近日宣布，已筹集1万美元A+轮融资，由快的打车创始人陈卫星领投，联华资本、光速中国、经纬中国跟投。易方云于今年5月获得经纬中国1万元天使轮融资，同年8月获得光速中国1万元A轮融资。一帆云成立于2019年12月，专

06-18
美国初创公司Instawork获6000万美元C轮融资

投资社区（ID：pedaily）7月15日消息，据外媒The Spoon报道，零工平台Instawork获1万美元C轮融资。本轮融资由 Craft Ventures 领投，Grelock、Corner Ventures、Four River Group、Benchmark、Spark Capital 和 SV Angel 跟投。通过本轮融资，Instawork总融资额超过1亿美元

06-17
据欧洲一些市场研究显示，半导体产能在增加的同时，必须关注人才缺口

EE Times 芯片短缺的结束并不意味着人才短缺的结束。半导体行业具有周期性，先是需求高时期，然后是需求低时期。据德勤称，这是自 2016 年以来的第六个周期。然而，与预计到本十年末年收入将超过 1 万亿美元的行业的长期趋势相比，一些增长或下降点显得黯然失色。从德国

06-06
【融资24小时】2022年5月16日投融资事件汇总及明细

今日国内市场共发生13起投资披露事件，其中先进制造3起（千兆光电、速通半导体、雪浪云））、企业服务案例3个（实录慧图、迅能集思、地杰软件）、医疗健康案例3个（霍普金斯生物、星瑞医药、蜀丹医疗）、电商零售案例1个（九秀品牌）、农业1个（CellX）、智能硬件1（INMO）、

06-17