首页 > 科技未来 > 内容

只需15分钟，你的iPhone就可以“复制”你的声音

发布于：2024-06-21 编辑：匿名来源：网络

史蒂芬霍金的“机械电子音”可能是世界上最容易辨认的声音之一。

但这并不是霍金自己的声音。

当霍金因肌萎缩侧索硬化症而失去说话能力时，技术还不足以让他发出自己的声音。

事实上，只有少数人能够使用语音合成器。

如今，ALS患者虽然有了更多的语音合成选择，但整体成本和时间门槛仍然较高，普及程度也有限。

近日，苹果宣布了一项新的辅助功能——个人语音（Personal Voice）（暂未推出），它不仅可以让用户免费“备份”自己的声音，同时也是安全应用 AI 技术的有趣尝试。

只需要 15 分钟的“训练”就能生成你的声音▲ 图片来自 Fastcompany 在生成式 AI 可以模仿一切的时代，用 AI 模仿一个人的声音听起来不再新奇，只是感觉有点安全隐患。

我更好奇的是苹果如何安全高效地实现个人语音功能。

据报道，iPhone、iPad和Mac用户只需根据提示录制15分钟的音频，苹果就会根据设备端机器学习技术生成与用户相同的声音。

相比之下，为失语症人士提供专业语音合成服务的公司可能需要使用专业设备来录制几个小时的语音材料，成本至少数百美元。

另一项新的无障碍功能Live Speech，允许用户在打电话、FaceTime或与他人面对面交谈时输入文字生成语音内容，为失语或说话有困难的用户提供另一种“说话”方式。

。

结合个人语音和实时语音两种功能，失语症用户可以使用生成的接近自己原始声音的语音与他人进行交流。

使用起来很方便，但是如何防止有人利用网上找到的语音素材来生成别人的声音呢？材料是随机的。

在录制 15 分钟语音素材的过程中，苹果会随机生成需要用户朗读的内容，减少其他人猜测素材的可能性。

物理距离障碍。

录制过程中，用户需要在距离设备6-10英寸（约15-25厘米）的特定空间内完成录制。

在生成过程中，所有数据都将通过Apple的Neural Engine在设备本地完成，无需上传到云端进行处理。

语音合成后，第三方应用若想使用个人语音，必须获得用户的明确授权。

即使第三方应用程序被授权使用，苹果也会使用额外的后台保护来确保第三方应用程序无法获取个人语音以及用户之前录制的语音素材。

如果你是苹果“全家桶”的用户，在生成自己的个人语音后，还可以通过iCloud将其同步到不同的设备上，并进行端到端的加密。

重要的是要了解失去自己的声音有多么重要。

人是情感动物，声音是一种非常强烈的情感触发因素。

研究表明，当一个人听到母亲的声音时，身体会释放催产素，其水平与拥抱母亲时产生的水平相似。

另一项研究表明，听到自己的声音可以增强人的自我代理能力。

这听起来有点抽象。

但当我们失去它时，它的重要性就变得显而易见。

今年3月，露丝·布伦顿被诊断出患有ALS。

那年圣诞节，她无言以对。

ALS患者介绍，大约25%的人患有“延髓起病”的肌萎缩侧索硬化症，主要症状是言语困难或吞咽困难。

此类患者的言语会逐渐变得含糊、鼻音，甚至失语。

布伦顿当机立断，确诊后立即找了一家公司做语音生成。

花了一个月的时间来回记录多个句子的语料，但最终的结果并不理想。

该公司使用一种称为“单位选择”的技术。

简单粗暴地说，它通过“拼接”来实现语音生成，将语料分割成大量小的语音单元，然后根据需要将元素组合在一起。

▲在单元选择技术下，“Bob”这个词可以被拆分成不同的语音元素。

图片来自《华盛顿邮报》该技术生成的语音可以听得很清楚，但会有一点电子音，听起来不自然。

结果，Brunton 录制的语料库与一个名为“Heather”的微软语音相结合。

不仅声音听起来和自己完全不一样，甚至还迫使英国男子用美国口音“说话”。

布伦顿自己的真实声音合成版本布伦顿的声音被困在这个声音中。

布伦顿“只会在必要时说话，不再因为他想说话而说话”。

与丈夫开玩笑、聊天的心情消失了，布伦顿也不太愿意参与多人谈话。

即使用听起来不像我的声音说“我爱你”，它的意义似乎也减弱了。

六个月后，布伦顿和丈夫奋力拿回原来录制的语音素材，找到了另一家公司，利用人工智能技术合成了更像自己的声音：听起来可能有点傻，但找回自己的声音让她感觉更加自信。

我感觉更有信心了。

波士顿儿童医院增强沟通项目的负责人约翰·M·科斯特洛 (John M. Costello) 注意到，使用更真实的语音的患者似乎能够更好地与亲近的人建立更深层次的联系。

今年圣诞节，“恢复声音”的布伦顿还用声音录制了节日祝福。

露丝觉得新的合成声音更像她自己。

然而圣诞节刚过，布伦顿就感染了新冠病毒，最终于今年2月去世。

她离开的那天晚上，她的丈夫大卫整夜握着她的手：我们有两年的时间来告别。

我们同意我们要说我们想说的一切。

很难想象，如果布伦顿后来没有采用听起来更像她自己的声音，她是否能够轻松地说出她想说的一切。

无障碍思维点亮灵感，人工智能点燃生产力。

我一直认为，无障碍设计挖掘的其实是人类多样性所创造的想象力资源。

我们去找与自己生活经历完全不同的人，聆听那些鲜为人知的故事和经历，创造出我们以前从未想象过、但对更多人友好的新生活方式。

个人声音可以帮助失语症患者患者恢复声音；它还可以帮助正在经历“刀锋声音”的我，用自己的声音与别人交谈；甚至，我很难不去想象自己是否应该使用这个声音。

将您的声音“备份”给您身边的人，以防有一天您突然去世。

AI技术就是为了实现这些富有想象力的生产力。

正如杜编辑之前所说，虽然没有追随生成式 AI 的热闹，但苹果一直用 AI 来改善用户体验——提高效率、保护隐私。

提高效率在于改进本地执行的机器学习算法和模型。

除了个人语音之外，苹果此次预览的另一项辅助功能Point and Speak也采用了本地设备端机器学习技术。

未来，视障用户将可以用手指将iPhone变成“点读机”，结合iPhone内置放大器中的Point and Speak和旁白功能——无论你点击哪里，iPhone都会阅读为您提供的文字。

。

去年的“门检测”功能的工作原理类似，允许设备上的机器学习帮助视障用户识别门并大声朗读门上和周围标志的信息。

至于隐私，根据史蒂夫·乔布斯的说法，“如果您需要他们（用户）的数据，请向他们（用户）询问。

每次。

”这在无障碍设计方面也尤为重要——因为这些功能性设计的根源在于，服务于被所谓“常规设计”忽视的人群往往是更弱势的群体，因此更需要保证隐私这些用户没有受到侵犯。

在此背景下，我们还可以展开更多关于数据应用权和透明度的讨论。

苹果这次制作Personal Voice时，与Team Gleason基金会合作，这是一个帮助患者治疗ALS的非盈利组织。

▲格里森团队基金会首席执行官布莱尔·凯西（右）该组织首席执行官布莱尔·凯西也一直在推动语音生成公司建立一套标准的录音素材设置，让用户可以直接录制这部分素材，体验不同语言生成的语音企业的效果并不是像现在这样“盲目押注”。

同时，凯西还主张语音生成公司向用户提供用户录制的语音素材数据（因为很多用户录制后可能会失语），以防止他们将来想要将这些数据用于其他技术：如果有更好的技术出来了，你不想尝试一下吗？如果你无法取回你的语音素材，你就无法尝试。

人工智能可能是我们这个时代最强大的生产力。

然而，如何使用这个力量呢？也许以人为本的无障碍设计可以给它很多指导。

站长声明

标签：

上一篇：Vision Pro深度解读：苹果发布会上没有说的18个细节

下一篇：iPhone 13 Pro Max初评：A15很强大，但主战场不在游戏

字节跳动投资了阿里前女员工

字节跳动又出手了，刚刚投资了一家中东物流公司。 11月30日消息，据彭博社报道，字节跳动投资了总部位于迪拜的物流公司iMile。公开信息显示，这是iMile的第一笔重大融资。更多细节泄露：据悉，iMile本轮融资总额为1万美元，公司估值达到3.5亿美元，其中字节跳动以较低估值投

06-17
IPC PCB技术趋势研究项目向PCB制造商开放至7月13日

6月27日，美国伊利诺伊州班诺克本——IPC针对电子行业PCB制造商的全球研究项目已经启动。本次保密调查项目是《年IPC PCB技术趋势调研报告》全球数据收集的一部分，调查截止日期为7月13日。本研究项目的目的是衡量PCB行业当前的技术能力以及能力发展的潜力未来五年。调查内

06-06
围场失败，市场成功？法拉利发布新款混合动力跑车，将电气化更进一步

在上周末的F1法国大奖赛上，法拉利经历了本赛季第一个没有积分的周末。两位车手分别获得第11名和第16名。种族。法拉利车队的车手夏尔勒克莱尔（查尔斯勒克莱尔）称这场比赛是他职业生涯中最艰难的一场比赛。在这场比赛中，他表现得很挣扎，最终落后于一辆阿尔法罗密欧。

06-21
康鹏科技回应科创板四轮IPO问询，安全事件频遭质疑

2月10日，我们获悉，上海康鹏科技股份有限公司（以下简称：康鹏科技）于2月9日同日回复科创板IPO第四轮问询。在第四轮问询中，上交所关注了康鹏科技销售、信息披露、行政处罚等六项问题。听，中小企业反馈平台。倾听用户需求，倾听创业者声音，解决中小企业痛点。点击立

06-18
为何叫嚣着取代手机的AR眼镜始终没有普及？

问一个问题：你喜欢看在线会议吗？如今，线上发布会已成为常态。在新产品发布之前，科技厂商总会成立几个拍摄团队，围绕产品拍摄短视频，然后聚集高管在白色大PPT墙前定期介绍亮点。整个过程井井有条，但看多了总会让人有同感。回到10年前，当时的会议比现在精彩得多。 20

06-21
创新型内窥镜医疗器械公司OptoMedic完成数亿元D轮融资，春华资本领投

近日，广东OptoMedic科技有限公司（以下简称“欧谱曼迪”）完成数亿元D轮融资人民币D轮融资，由春华资本领投。

06-18
品牌广告营销机构“瑟尚”获数千万元A轮融资

据12月7日消息，新晋广告营销机构——瑟尚已完成数千万元A轮融资，海纳亚洲创业投资基金SIG领投，天使轮股东天图投资跟投。本轮融资将主要用于社交内容管理平台（SCMP）的建设以及广告团队的扩充。瑟尚成立于2007年，团队成立时就已经关注到小红书平台UGC背后的“内容种植

06-18
说到底，我们还是希望蔚来能够成功

人们总是把成功视为正确，但那些尚未成功的人需要更多的精力去正确解释。蔚来创始人和李斌是经常需要解释什么是正确的人。下半年，国内新能源市场掀起价格和销售风暴。理想、小鹏等老对手均创下了月交付量纪录，甚至包括阿维塔、蓝图、智己等后来者。，也是依靠少数车型稳

06-21
专注肝外给药，Starna Therapeutics完成1.5亿元A轮融资

投资界（ID：pedaily）据5月16日消息，专注于mRNA新药研发的Starna Therapeutics宣布完成1.5亿元A轮融资。本轮融资由济峰资本（洲嶺资本）领投，源码资本、弘毅投资、耀明创投跟投。老股东高瓴创投、夏尔巴投资持续加大投资力度。这是该公司继去年12月完成战略天使轮??融资

06-18
埃林哲获近亿元A轮投资，由清澜资本

投资圈（ID：pedaily）领投据6月15日消息，企业数字化服务商上海埃林哲软件系统有限公司（以下简称埃林哲） “精要林哲”）宣布完成近亿元A轮融资，由中软国际战略LP清澜资本领投，永华投资、东明集团等基金及产业客户跟投。主要用于公司产品的研发升级和营销，加速埃林哲在

06-18
100亿，西安设立产业倍增引导基金

4月19日，西安市人民政府办公厅发布《西安市工业倍增引导基金设立方案》。方案全文如下：西安市产业倍增引导基金设立方案是为深入贯彻落实党的二十大关于构建现代产业体系的有关精神以及有关按照省委、市委全会关于做强支柱产业和新兴产业的要求，进一步创新财政资金。支持

06-18
徐州博康获超6亿元融资，中平资本、国开科技、青松资本出手

投资界（ID：pedaily）4月19日消息，徐州博康信息化学品有限公司成功募资超6亿元融资完成交付。本轮融资由中平资本、国开创投领投，武汉泽森资本、浑朴投资、云辉资本、无锡实业巨峰、山东铁道基金、青松资本、青峰资本、汇智实业、深圳前海瑟瑞、佛山恒銮等跟投。苏州国发

06-18