首页 > 科技未来 > 内容

只需15分钟,你的iPhone就可以“复制”你的声音

发布于:2024-06-21 编辑:匿名 来源:网络

史蒂芬霍金的“机械电子音”可能是世界上最容易辨认的声音之一。

只需15分钟,你的iPhone就可以“复制”你的声音

但这并不是霍金自己的声音。

当霍金因肌萎缩侧索硬化症而失去说话能力时,技术还不足以让他发出自己的声音。

事实上,只有少数人能够使用语音合成器。

如今,ALS患者虽然有了更多的语音合成选择,但整体成本和时间门槛仍然较高,普及程度也有限。

近日,苹果宣布了一项新的辅助功能——个人语音(Personal Voice)(暂未推出),它不仅可以让用户免费“备份”自己的声音,同时也是安全应用 AI 技术的有趣尝试。

只需要 15 分钟的“训练”就能生成你的声音▲ 图片来自 Fastcompany 在生成式 AI 可以模仿一切的时代,用 AI 模仿一个人的声音听起来不再新奇,只是感觉有点安全隐患。

我更好奇的是苹果如何安全高效地实现个人语音功能。

据报道,iPhone、iPad和Mac用户只需根据提示录制15分钟的音频,苹果就会根据设备端机器学习技术生成与用户相同的声音。

相比之下,为失语症人士提供专业语音合成服务的公司可能需要使用专业设备来录制几个小时的语音材料,成本至少数百美元。

另一项新的无障碍功能Live Speech,允许用户在打电话、FaceTime或与他人面对面交谈时输入文字生成语音内容,为失语或说话有困难的用户提供另一种“说话”方式。

结合个人语音和实时语音两种功能,失语症用户可以使用生成的接近自己原始声音的语音与他人进行交流。

使用起来很方便,但是如何防止有人利用网上找到的语音素材来生成别人的声音呢?材料是随机的。

在录制 15 分钟语音素材的过程中,苹果会随机生成需要用户朗读的内容,减少其他人猜测素材的可能性。

物理距离障碍。

录制过程中,用户需要在距离设备6-10英寸(约15-25厘米)的特定空间内完成录制。

在生成过程中,所有数据都将通过Apple的Neural Engine在设备本地完成,无需上传到云端进行处理。

语音合成后,第三方应用若想使用个人语音,必须获得用户的明确授权。

即使第三方应用程序被授权使用,苹果也会使用额外的后台保护来确保第三方应用程序无法获取个人语音以及用户之前录制的语音素材。

如果你是苹果“全家桶”的用户,在生成自己的个人语音后,还可以通过iCloud将其同步到不同的设备上,并进行端到端的加密。

重要的是要了解失去自己的声音有多么重要。

人是情感动物,声音是一种非常强烈的情感触发因素。

研究表明,当一个人听到母亲的声音时,身体会释放催产素,其水平与拥抱母亲时产生的水平相似。

另一项研究表明,听到自己的声音可以增强人的自我代理能力。

这听起来有点抽象。

但当我们失去它时,它的重要性就变得显而易见。

今年3月,露丝·布伦顿被诊断出患有ALS。

那年圣诞节,她无言以对。

ALS患者介绍,大约25%的人患有“延髓起病”的肌萎缩侧索硬化症,主要症状是言语困难或吞咽困难。

此类患者的言语会逐渐变得含糊、鼻音,甚至失语。

布伦顿当机立断,确诊后立即找了一家公司做语音生成。

花了一个月的时间来回记录多个句子的语料,但最终的结果并不理想。

该公司使用一种称为“单位选择”的技术。

简单粗暴地说,它通过“拼接”来实现语音生成,将语料分割成大量小的语音单元,然后根据需要将元素组合在一起。

▲在单元选择技术下,“Bob”这个词可以被拆分成不同的语音元素。

图片来自《华盛顿邮报》该技术生成的语音可以听得很清楚,但会有一点电子音,听起来不自然。

结果,Brunton 录制的语料库与一个名为“Heather”的微软语音相结合。

不仅声音听起来和自己完全不一样,甚至还迫使英国男子用美国口音“说话”。

布伦顿自己的真实声音合成版本布伦顿的声音被困在这个声音中。

布伦顿“只会在必要时说话,不再因为他想说话而说话”。

与丈夫开玩笑、聊天的心情消失了,布伦顿也不太愿意参与多人谈话。

即使用听起来不像我的声音说“我爱你”,它的意义似乎也减弱了。

六个月后,布伦顿和丈夫奋力拿回原来录制的语音素材,找到了另一家公司,利用人工智能技术合成了更像自己的声音:听起来可能有点傻,但找回自己的声音让她感觉更加自信。

我感觉更有信心了。

波士顿儿童医院增强沟通项目的负责人约翰·M·科斯特洛 (John M. Costello) 注意到,使用更真实的语音的患者似乎能够更好地与亲近的人建立更深层次的联系。

今年圣诞节,“恢复声音”的布伦顿还用声音录制了节日祝福。

露丝觉得新的合成声音更像她自己。

然而圣诞节刚过,布伦顿就感染了新冠病毒,最终于今年2月去世。

她离开的那天晚上,她的丈夫大卫整夜握着她的手:我们有两年的时间来告别。

我们同意我们要说我们想说的一切。

很难想象,如果布伦顿后来没有采用听起来更像她自己的声音,她是否能够轻松地说出她想说的一切。

无障碍思维点亮灵感,人工智能点燃生产力。

我一直认为,无障碍设计挖掘的其实是人类多样性所创造的想象力资源。

我们去找与自己生活经历完全不同的人,聆听那些鲜为人知的故事和经历,创造出我们以前从未想象过、但对更多人友好的新生活方式。

个人声音可以帮助失语症患者患者恢复声音;它还可以帮助正在经历“刀锋声音”的我,用自己的声音与别人交谈;甚至,我很难不去想象自己是否应该使用这个声音。

将您的声音“备份”给您身边的人,以防有一天您突然去世。

AI技术就是为了实现这些富有想象力的生产力。

正如杜编辑之前所说,虽然没有追随生成式 AI 的热闹,但苹果一直用 AI 来改善用户体验——提高效率、保护隐私。

提高效率在于改进本地执行的机器学习算法和模型。

除了个人语音之外,苹果此次预览的另一项辅助功能Point and Speak也采用了本地设备端机器学习技术。

未来,视障用户将可以用手指将iPhone变成“点读机”,结合iPhone内置放大器中的Point and Speak和旁白功能——无论你点击哪里,iPhone都会阅读为您提供的文字。

去年的“门检测”功能的工作原理类似,允许设备上的机器学习帮助视障用户识别门并大声朗读门上和周围标志的信息。

至于隐私,根据史蒂夫·乔布斯的说法,“如果您需要他们(用户)的数据,请向他们(用户)询问。

每次。

”这在无障碍设计方面也尤为重要——因为这些功能性设计的根源在于,服务于被所谓“常规设计”忽视的人群往往是更弱势的群体,因此更需要保证隐私这些用户没有受到侵犯。

在此背景下,我们还可以展开更多关于数据应用权和透明度的讨论。

苹果这次制作Personal Voice时,与Team Gleason基金会合作,这是一个帮助患者治疗ALS的非盈利组织。

▲格里森团队基金会首席执行官布莱尔·凯西(右)该组织首席执行官布莱尔·凯西也一直在推动语音生成公司建立一套标准的录音素材设置,让用户可以直接录制这部分素材,体验不同语言生成的语音企业的效果并不是像现在这样“盲目押注”。

同时,凯西还主张语音生成公司向用户提供用户录制的语音素材数据(因为很多用户录制后可能会失语),以防止他们将来想要将这些数据用于其他技术:如果有更好的技术出来了,你不想尝试一下吗?如果你无法取回你的语音素材,你就无法尝试。

人工智能可能是我们这个时代最强大的生产力。

然而,如何使用这个力量呢?也许以人为本的无障碍设计可以给它很多指导。

只需15分钟,你的iPhone就可以“复制”你的声音

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • Groupon IPO变数陡增:涉嫌违反相关规定

    Groupon IPO变数陡增:涉嫌违反相关规定

    简介:MarketWatch专栏作家普莱蒂(Therese Poletti)撰文称,团购网站Groupon已经踏上了万众期待的IPO之路,但该公司却然而在这个过程中却发生了一系列离奇的事情,更加涉嫌违反相关规定。 这无疑给他们本已存疑的未来增添了更多的变数。   以下为普莱蒂解说全文:   团

    06-17

  • 终于又一家PE公司巨头即将上市

    终于又一家PE公司巨头即将上市

    海外PE上市潮来了。 最新消息称,TPG已聘请摩根大通和高盛协助其准备IPO,并计划在未来几周秘密向监管机构提交申请,估值可能达到1亿美元。 TPG成立于2007年,是全球最大的私募股权投资公司之一。 如今,其管理规模已超过1亿美元。 中国最近最轰动的投资是叮当快药。 TPG并不

    06-18

  • 悦唯医疗完成近亿元A+轮融资,清科资本担任本轮融资独家财务顾问

    悦唯医疗完成近亿元A+轮融资,清科资本担任本轮融资独家财务顾问

    耀明医疗完成近亿元A+轮融资,清科资本独家代理本轮融资。 据投资界(ID:pedaily)12月28日消息,耀明医疗近日宣布完成近亿元A+轮融资。 本轮融资由诺域资本领投,启辰控股、中南创投基金跟投。 老股东IDG资本、源慧创益继续投资。 清科创投(.HK)旗下清科资本担任本轮融资

    06-18

  • Transphorm 的第三代 GaN 功率转换平台提高了抗干扰性并降低了开关噪声

    Transphorm 的第三代 GaN 功率转换平台提高了抗干扰性并降低了开关噪声

    美国商业资讯 - Transphorm Inc. 今天宣布,在设计和制造业界最高可靠性且首款符合 JEDEC 和 AEC-Q 的氮化镓 (GaN) 半导体方面处于领先地位推出第三代 (Gen III) 伏 (V) GaN FET。 采用第三代技术的功率晶体可以降低电磁干扰(EMI),提高栅极噪声抑制能力,并在电路应用中提

    06-06

  • 君实生物等5家科创板A+H股公司纳入港股通

    君实生物等5家科创板A+H股公司纳入港股通

    据统计,科创板A+H股公司共有5家创新板包括通号、君实生物、复旦张江、康熙诺、普廷科。 这意味着这五家公司的A股将纳入沪股通,H股将纳入港股通。

    06-18

  • 华映资本第六期人民币成长基金募资超21.2亿元

    华映资本第六期人民币成长基金募资超21.2亿元

    据投资界(ID:pedaily)5月20日消息,华映资本宣布关闭第六期人民币成长基金,该基金超募规模达21.2亿元。 从第一次通过到最终关闭,历时4个月。 其中,原投资者再投资率达到45.7%;加上今年早些时候设立的、即将竣工的天使基金和产业基金,华映今年新募集的人民币基金超过

    06-17

  • 东方精选正在招聘TikTok运营商,月薪2万起

    东方精选正在招聘TikTok运营商,月薪2万起

    东方精选的出海路径逐渐清晰。 1月5日,时代周报记者从招聘网站猎聘获悉,东方精选近期启动相关岗位招聘,包括内容运营经理、商务经理、运营经理以及TikTok海外店运营等,月薪在2万元至4万元不等。 元。 万元之间。 TikTok是字节跳动面向海外市场的视频社交平台。 东方精选推

    06-17

  • 搜狗同声传译3.0:引入视觉能力+知识图谱,打造语境引擎

    搜狗同声传译3.0:引入视觉能力+知识图谱,打造语境引擎

    李世石与AlphGO的“人机大战”已经过去三年了。 似乎没有人再怀疑“下棋”人类确实输给了人工智能。 人类与人工智能的下一场战斗将在哪里?同声传译(同声传译)将很可能是下一个具有挑战性的应用场景。 12月21日,基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心

    06-18

  • 智能科技完成近亿元B轮融资,长江创新

    智能科技完成近亿元B轮融资,长江创新

    领投 投资界(ID:pedaily)消息,智能科技(Chemical.AI)宣布10月完成长江创新领投的A轮投资创新,以钧山私募为后续投资方的B轮融资,融资金额近亿元。 本轮融资将用于推动智能科技(Chemical.AI)在AI制药赛道的发展,加快智能科技逆合成平台技术和自动化技术的创新速度,

    06-17

  • 肖特完整的激光雷达解决方案加速自动驾驶进程

    肖特完整的激光雷达解决方案加速自动驾驶进程

    随着自动驾驶L3量产的临近,能够接收高精度信号的激光雷达变得越来越重要。 对于激光雷达技术的迭代更新,特种玻璃和气密包装发挥着关键作用。 提供相关解决方案的肖特公司目前可以提供防护窗、光路组件、气密包装等一站式产品采购。 其中,肖特特种玻璃可以承受各种天气条件

    06-17

  • 【创业24小时】2022年10月14日

    【创业24小时】2022年10月14日

    2022年10月14日行业大公司88VIP等待携手腾讯视频。 点击查看抖音对传统电商的挑战已延伸至“9元9”领域。 点击查看腾讯诉OPPO:一场持久战。 点击查看支持这条“闲鱼”。 点击查看左侧为Byte,右侧为Meta。 国内外各大厂商的VR布局各有不同。 点击查看美团“开超市”结局,想

    06-18

  • 联想再次回应“前高管常程退出小米”:常程不承认其签名真实性

    联想再次回应“前高管常程退出小米”:常程不承认其签名真实性

    9月17日上头条,关于“前联想手机业务负责人常程违反竞业禁止义务”的“争议”,??联想集团再次回应称,竞业禁止协议已确认由其签署。 联想表示,该案已在北京市海淀区劳动人事争议仲裁委员会多次开庭审理。 “由于常程不承认其签名的真实性,仲裁委员会委托法院科技鉴定所对

    06-17