放弃高考的80后今天敲响了IPO的钟声:市值2400亿
06-18
李安的动作科幻电影《双子杀手》,政府特工亨利即将退休,却发现自己正在被被一个比自己小23岁的克隆人追赶。
杀。
为了达到这个效果,李安利用动作捕捉特效,精美还原人脸,让威尔·史密斯“返老还童”。
一位拥有“完美23岁皮肤”的年轻人也为克隆人贡献了自己的数据。
没有人永远年轻,但有些人永远年轻。
但“数字替身”可能更加贪婪。
除了拥有不老的皮肤,还可以拥有不老的声音。
召唤了时间机器《星球大战》的达斯·维德(达斯·维达饰)因身心双重毁灭而陷入原力黑暗面。
他是主要三部曲中的头号反派,也是星球大战系列中最矛盾、最悲惨的人物。
。

2016年,美国电影学会将达斯·维德评为上世纪第三大电影反派,仅次于《沉默的羔羊》的汉尼拔和《惊魂记》的诺曼·贝茨。
詹姆斯·厄尔·琼斯从2008年卢卡斯制作的第一部电影《星球大战》开始为达斯·维德配音,几乎持续了人的半生,他的声音也成为了角色的心声。
▲ 图片来自:screenrant 达斯·维德有力但略显低沉的声音,加上他深沉的呼吸,让人脊背发凉。
但我们都会变老,现在他已经 91 岁了,琼斯是时候考虑结束他的配音生涯了,他决定将自己的声音授权给乌克兰初创公司 Respeecher。
使用过去的录音和专有的人工智能算法,Respeecher 可以从旧的声音中创建新的台词。
▲ 演讲者。
图片来自:inverse 的最新成果是今年 6 月完结的星球大战衍生系列《欧比旺·克诺比》。
在节目中,雷斯佩彻重现了琼斯几十年前的音色,而不是他在《星球大战:天行者崛起》中随着时间的推移而老化的真实声音。
曾与雷斯皮彻合作的卢卡斯影业音效剪辑总监马修·伍德表示,对于达斯·维德这样的角色,50 句台词可能需要近万个文件来回切换,而大部分工作都花在对白的修改和微调上——调整。
一个有趣的细节是,在达斯·维德出场的《欧比旺·克诺比》第三集中,雷斯佩彻也出现在片尾字幕中。
▲ 图片来自:卢卡斯影业 这并不是 Respeecher 第一次与卢卡斯影业合作。
它还为《星球大战》衍生剧《曼达洛人》和《波巴·费特之书》中的年轻版卢克·天行者“配音”。
星球大战三部曲于2001年上映,当时饰演卢克·天行者的马克·哈米尔今年已经70岁了。
《曼达洛人》第二季最后一集,不到20岁的卢克·天行者登场。
该图像是由视觉效果公司 Lola VFX 使用 Deepfake 和化身创建的,声音是由 Respeecher“克隆”的。
▲《波巴·费特之书》卢克·天行者 CGI。
▲《星球大战 VI》卢克·天行者。
Respeecher所做的就是,输入数小时的高质量录音,利用AI语音合成软件和音频超分辨率算法对语音进行分析,直到系统具备“克隆”能力。
就像克隆羊需要DNA一样,克隆声音也需要先输入再输出。
说话风格、录音的起伏等细节非常重要。
因此,这项工作仍然具有高度的相关性。
“技术还无法创造表演。
”如果没有过去的现场表演,Respeecher 将会很无助。
从这个角度来看,Respeecher 的人工智能就像乘坐在时间机器上的发声设备——它重现了某人过去的特定时刻。
▲《曼达洛人》卢克·天行者。
为了重现年轻的天行者,雷斯佩彻收集了马克·哈米尔前后的配音、采访、对话补充、广播等资源。
这里还有另一个困难:让近 40 年的数据听起来就像是昨天记录的一样。
最终,卢克·天行者在两部衍生剧中只说了几句台词。
不过,没必要以数量来判断。
Respeecher想要的结果是确保合成的声音与原始声音无法区分,并且观众完全不知道它是真实的还是假的。
这家初创公司成立于 ,有一个简单的目标:克隆毫无疑问的人类语音。
超越病痛生死人类生来就有局限性,无法逃脱老病死,但科技可以拓展肉体的界限。
这不是名人声音第一次被克隆,也不会是最后一次。
2016年上映的《壮志凌云:独行侠》是《壮志凌云》的续集,其中“冰人”卡赞斯基由62岁的瓦尔·基尔默再次搬上银幕。
但回来并不那么容易。
自从 2001 年接受喉癌治疗以来,基尔默就永远失声了。
因此,《壮志凌云:独行侠》的剧本是根据基尔默的真实生活改编的。
“冰人”也患有癌症,通过打字进行交流。
他在影片中只说了一句简短的台词。
▲ 图片来自:pagesix 在现实生活中,基尔默的声音已经通过人工智能“恢复”了。
今年,Kilmer 开始与人工智能语音公司 Sonantic 合作。
在收到数小时的旧镜头后,Sonantic 首先在不破坏语音内容的情况下消除背景噪音,然后根据音频生成脚本,并将音频和文本逐段配对。
然后,语音引擎使用这些数据来训练语音模型。
困难在于 Kilmer 提供的数据比他们之前的项目少了大约 10 倍。
为此,Sonantic 研究了新算法,最终生成了 40 多种不同的语音模型,并将最好的一个交给了 Kilmer。
▲ 图片来自:vanityfair 通过自定义语音模型,Kilmer 和他的团队可以输入文本、选择合适的模式并调整音调和节奏等参数,从而实现逼真的交流。
这不仅仅是一项技术成就,更是人与人之间的沟通和联系。
基尔默本人在一份声明中表示:作为人类,沟通能力是我们生存的核心,而喉癌的影响让其他人很难理解我。
有机会用真实而熟悉的声音讲述我的故事是一份非常特别的礼物。
中国也有这样的例子。
2017年,喜马拉雅利用语音合成技术,让已故大师单田放“重复”讲故事; 2017年,《创新中国》纪录片利用AI还原了配音大师李毅的声音。
所以,当你在世上留下了痕迹,你就不能简单地“扔掉衣服,隐藏功名”。
对于仍要谋生的明星来说,声音克隆或许是一条“天堂之路”。
如果AI换脸模型Deepfake让明星“租用”自己的脸,可能会赚很多钱,语音模型也相当。
“恢复”基尔默声音的Sonantic还有一项副业:为正常声音的演员制作声音模型。
▲ 图片来自:边缘平台首先提供设置脚本,演员录制这些脚本的表演,然后将录制的音频输入到语音引擎中,并使用引擎来训练 AI 模型。
最终,当合成声音商业化时,演员们就能躺着也能分享利润,而不必自己动手,也不必担心忙碌。
2020年5月,美国AI科技公司Veritone也推出了类似平台Marvel.AI。
该公司认为,“对于运动员、演员和 KOL 来说,声音是他们个人品牌的巨大资产。
” ▲ 图片来自:Veritone 但这可能看起来像是懒惰。
如果明星都不愿意为自己代言,消费者凭什么要为他们买单? Veritone建议创建行业标准,比如提前告知听者这是合成声音,即“一个愿意战斗,另一个愿意吃苦”。
有了技术和平台,克隆名人和语音租赁可以形成产业链。
这也是科技超越肉身和时空限制的体现。
未来人人拥有“语音分身”还遥远吗?诚然,声音克隆并不是什么新鲜事,但它还需要一个日益真实和简单的过程,还远远没有达到终点。
在我们看得见或看不见的角落里,声音克隆越来越流行。
这不仅仅是名人、明星等少数人的游戏。
2017 年,加拿大人工智能初创公司 Lyrebird 开发了一种语音合成技术,声称他们的算法可以使用 1 分钟的音频样本克隆任何人的声音。
▲ Lyrebird.1分钟是一个了不起的数字。
Adobe 当时的 Project VoCo 需要至少 20 分钟的样本音频。
在琴鸟举的例子中,希拉里、克林顿和特朗普有说有笑,共同祝愿琴鸟有美好的未来。
他们的声音和语调与真人还是有些不同。
它们略显机械感,但却足以让人眼前一亮。
Lyrebird 表示,生成声纹需要相当多的计算能力,但一旦完成,发出声音就很容易,只需不到半秒就可以创建一千个句子。
这就像一个预言:跨过现实和机械的门槛后,一切都会一帆风顺。
除了需要更少的样本音频之外,语音克隆已经内置到触手可及的创意工具中。
▲ 描述。
美国音视频编辑公司Descript开发了播客编辑功能“Overdu”,可以克隆创作者的声音。
创作者输入所需的词语,即可利用原始语音生成新的音频,方便快速修改播客。
但它也远非完美。
The Verge记者体验后发现,一方面需要预先录制大量音频来训练AI;另一方面,需要预先录制大量音频来训练AI。
另一方面,生成的音频缺乏情感和节奏,但听起来确实像他自己,奇怪而又莫名的熟悉。
虽然初创公司如雨后春笋般涌现,但大型科技公司正在蓄势待发。
在今年 6 月的亚马逊 re:MARS 大会上,亚马逊首席科学家 Rohit Prasad 表示,亚马逊正在开发技术,让智能助手 Alexa 通过不到 1 分钟的音频来模仿任何人的声音。
▲ 图片来自:techcrunch 任何人,当然包括已故的亲人。
亚马逊还进行了相关演示:一个孩子让 Alexa 听睡前故事《绿野仙踪》,扬声器中传出的声音并不是常见的机械声,而是她已故祖母的声音。
亚马逊没有透露有关 Alexa 新功能的更多细节,但其底层技术已经存在多年了。
可以预见的是,语音克隆虽然不能真正取代人声,但将会得到广泛应用,比如有声读物、语音助手、视频游戏等。
Sonantic 曾说过:“CGI(计算机生成图像)对于视觉的作用, Sonantic 适合音频。
”每个人都有自己的“声音化身”,这可能已经指日可待。
另一方面,我们对“语音化身”持谨慎态度。
▲ 图片来自:Face2Face 毕竟 Deepfake 的政治谎言和色情内容造成了很多负面影响,所以不难想象语音模型会用来做什么。
如果不采取预防措施,我们的未来将是照片可以伪造、录音不可靠。
几个月前,微软发布了新的人工智能道德规则,严格限制谁可以创建合成声音、如何使用它们,并在人造声音上加上“水印”以防止滥用。
为《星球大战》而努力的雷斯佩彻曾发布过一部《年》短片,其中总统宣布月球发生了大规模灾难。
听起来很“真实”,但一切都是假的。
短片最后提醒道:“该项目使用了一系列技术,包括视频对话替换、语音转换系统和更传统的视频编辑,以显示错误消息可能是什么样子。
请验证您的来源。
”所以,Respeecher 并没有试图证明新闻和历史都可以被操纵。
相反,他们希望让人们意识到技术的存在和有用性,以及它的局限性和恶意。
现在车轮已经向前滚动了,看多了就可以更好的调节和使用。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态