Groupon IPO变数陡增:涉嫌违反相关规定
06-17
史蒂芬霍金的“机械电子音”可能是世界上最容易辨认的声音之一。

但这并不是霍金自己的声音。
当霍金因肌萎缩侧索硬化症而失去说话能力时,技术还不足以让他发出自己的声音。
事实上,只有少数人能够使用语音合成器。
如今,ALS患者虽然有了更多的语音合成选择,但整体成本和时间门槛仍然较高,普及程度也有限。
近日,苹果宣布了一项新的辅助功能——个人语音(Personal Voice)(暂未推出),它不仅可以让用户免费“备份”自己的声音,同时也是安全应用 AI 技术的有趣尝试。
只需要 15 分钟的“训练”就能生成你的声音▲ 图片来自 Fastcompany 在生成式 AI 可以模仿一切的时代,用 AI 模仿一个人的声音听起来不再新奇,只是感觉有点安全隐患。
我更好奇的是苹果如何安全高效地实现个人语音功能。
据报道,iPhone、iPad和Mac用户只需根据提示录制15分钟的音频,苹果就会根据设备端机器学习技术生成与用户相同的声音。
相比之下,为失语症人士提供专业语音合成服务的公司可能需要使用专业设备来录制几个小时的语音材料,成本至少数百美元。
另一项新的无障碍功能Live Speech,允许用户在打电话、FaceTime或与他人面对面交谈时输入文字生成语音内容,为失语或说话有困难的用户提供另一种“说话”方式。
。
结合个人语音和实时语音两种功能,失语症用户可以使用生成的接近自己原始声音的语音与他人进行交流。
使用起来很方便,但是如何防止有人利用网上找到的语音素材来生成别人的声音呢?材料是随机的。
在录制 15 分钟语音素材的过程中,苹果会随机生成需要用户朗读的内容,减少其他人猜测素材的可能性。
物理距离障碍。
录制过程中,用户需要在距离设备6-10英寸(约15-25厘米)的特定空间内完成录制。
在生成过程中,所有数据都将通过Apple的Neural Engine在设备本地完成,无需上传到云端进行处理。
语音合成后,第三方应用若想使用个人语音,必须获得用户的明确授权。
即使第三方应用程序被授权使用,苹果也会使用额外的后台保护来确保第三方应用程序无法获取个人语音以及用户之前录制的语音素材。
如果你是苹果“全家桶”的用户,在生成自己的个人语音后,还可以通过iCloud将其同步到不同的设备上,并进行端到端的加密。
重要的是要了解失去自己的声音有多么重要。
人是情感动物,声音是一种非常强烈的情感触发因素。
研究表明,当一个人听到母亲的声音时,身体会释放催产素,其水平与拥抱母亲时产生的水平相似。
另一项研究表明,听到自己的声音可以增强人的自我代理能力。
这听起来有点抽象。
但当我们失去它时,它的重要性就变得显而易见。
今年3月,露丝·布伦顿被诊断出患有ALS。
那年圣诞节,她无言以对。
ALS患者介绍,大约25%的人患有“延髓起病”的肌萎缩侧索硬化症,主要症状是言语困难或吞咽困难。
此类患者的言语会逐渐变得含糊、鼻音,甚至失语。
布伦顿当机立断,确诊后立即找了一家公司做语音生成。
花了一个月的时间来回记录多个句子的语料,但最终的结果并不理想。
该公司使用一种称为“单位选择”的技术。
简单粗暴地说,它通过“拼接”来实现语音生成,将语料分割成大量小的语音单元,然后根据需要将元素组合在一起。
▲在单元选择技术下,“Bob”这个词可以被拆分成不同的语音元素。
图片来自《华盛顿邮报》该技术生成的语音可以听得很清楚,但会有一点电子音,听起来不自然。
结果,Brunton 录制的语料库与一个名为“Heather”的微软语音相结合。
不仅声音听起来和自己完全不一样,甚至还迫使英国男子用美国口音“说话”。
布伦顿自己的真实声音合成版本布伦顿的声音被困在这个声音中。
布伦顿“只会在必要时说话,不再因为他想说话而说话”。
与丈夫开玩笑、聊天的心情消失了,布伦顿也不太愿意参与多人谈话。
即使用听起来不像我的声音说“我爱你”,它的意义似乎也减弱了。
六个月后,布伦顿和丈夫奋力拿回原来录制的语音素材,找到了另一家公司,利用人工智能技术合成了更像自己的声音:听起来可能有点傻,但找回自己的声音让她感觉更加自信。
我感觉更有信心了。
波士顿儿童医院增强沟通项目的负责人约翰·M·科斯特洛 (John M. Costello) 注意到,使用更真实的语音的患者似乎能够更好地与亲近的人建立更深层次的联系。
今年圣诞节,“恢复声音”的布伦顿还用声音录制了节日祝福。
露丝觉得新的合成声音更像她自己。
然而圣诞节刚过,布伦顿就感染了新冠病毒,最终于今年2月去世。
她离开的那天晚上,她的丈夫大卫整夜握着她的手:我们有两年的时间来告别。
我们同意我们要说我们想说的一切。
很难想象,如果布伦顿后来没有采用听起来更像她自己的声音,她是否能够轻松地说出她想说的一切。
无障碍思维点亮灵感,人工智能点燃生产力。
我一直认为,无障碍设计挖掘的其实是人类多样性所创造的想象力资源。
我们去找与自己生活经历完全不同的人,聆听那些鲜为人知的故事和经历,创造出我们以前从未想象过、但对更多人友好的新生活方式。
个人声音可以帮助失语症患者患者恢复声音;它还可以帮助正在经历“刀锋声音”的我,用自己的声音与别人交谈;甚至,我很难不去想象自己是否应该使用这个声音。
将您的声音“备份”给您身边的人,以防有一天您突然去世。
AI技术就是为了实现这些富有想象力的生产力。
正如杜编辑之前所说,虽然没有追随生成式 AI 的热闹,但苹果一直用 AI 来改善用户体验——提高效率、保护隐私。
提高效率在于改进本地执行的机器学习算法和模型。
除了个人语音之外,苹果此次预览的另一项辅助功能Point and Speak也采用了本地设备端机器学习技术。
未来,视障用户将可以用手指将iPhone变成“点读机”,结合iPhone内置放大器中的Point and Speak和旁白功能——无论你点击哪里,iPhone都会阅读为您提供的文字。
。
去年的“门检测”功能的工作原理类似,允许设备上的机器学习帮助视障用户识别门并大声朗读门上和周围标志的信息。
至于隐私,根据史蒂夫·乔布斯的说法,“如果您需要他们(用户)的数据,请向他们(用户)询问。
每次。
”这在无障碍设计方面也尤为重要——因为这些功能性设计的根源在于,服务于被所谓“常规设计”忽视的人群往往是更弱势的群体,因此更需要保证隐私这些用户没有受到侵犯。
在此背景下,我们还可以展开更多关于数据应用权和透明度的讨论。
苹果这次制作Personal Voice时,与Team Gleason基金会合作,这是一个帮助患者治疗ALS的非盈利组织。
▲格里森团队基金会首席执行官布莱尔·凯西(右)该组织首席执行官布莱尔·凯西也一直在推动语音生成公司建立一套标准的录音素材设置,让用户可以直接录制这部分素材,体验不同语言生成的语音企业的效果并不是像现在这样“盲目押注”。
同时,凯西还主张语音生成公司向用户提供用户录制的语音素材数据(因为很多用户录制后可能会失语),以防止他们将来想要将这些数据用于其他技术:如果有更好的技术出来了,你不想尝试一下吗?如果你无法取回你的语音素材,你就无法尝试。
人工智能可能是我们这个时代最强大的生产力。
然而,如何使用这个力量呢?也许以人为本的无障碍设计可以给它很多指导。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
06-17
06-17
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态