语音播放文章内容由深声科技提供技术支持 您的浏览器不支持音频元素。
越来越多的研究表明,只要有足够大的语料库,人类的面部动作和言语行为就可以同步。

两年前,卡内基梅隆大学的研究人员发表了一篇论文,描述了一种将面部动作从一个人转移到另一个人的方法。
就在今年六月,三星的应用科学家推出了一种端到端模型,可以在人的头部特写中为眉毛、嘴巴、睫毛和脸颊制作动画。
仅仅几周后,Udacity 展示了一个可以根据音频旁白自动生成单口演讲视频的系统。
基于之前的研究和工作,微软研究团队本周提出了一项技术。
他们声称这项技术可以提高语音头像动画的真实感。
到目前为止,头部动画生成需要清晰、相对无噪音的中性音频。
现在,研究人员表示,他们的技术可以将音频序列分解为语音内容和背景噪声等因素,从而允许使用噪声和“情感”数据样本。
雷锋网注:图片来自微软。
众所周知,声音是不同的。
不同的人在不同的情况下使用同一个词,其持续时间、振动幅度、语调等都是不同的。
除了语音内容之外,语音本身还承载着丰富的信息,可以揭示人们的情绪状态、身份(性别、年龄、种族)和性格等。
事实上,微软研究人员提出的技术是基于变分自编码器(雷锋网互联网出版社:学习潜在显示的变分自动编码(VAE)。
VAE可以将输入音频分解为不同的表示形式,包括编码内容、表达方式和其他变化因素。
基于输入音频,从分布中采样一些内容表示序列,并将该序列与输入人脸图像一起处理。
馈送到视频生成器以制作面部动画。
为了训练和测试VAE,研究人员选择了三个数据集,如下: GRID:这是一个视听语料库,每个语料库包含34个说话者的录音; CREMA-D:包含 91 个不同种族演员的电影和电视剪辑; LRS3:包含 TED 视频中超过 100,000 个口语句子的数据库。
研究人员将 GRID 和 CREMA-D 的数据输入模型,让它识别语音和情感表征,然后使用一对定量指标——峰值信噪比 (PSNR) 和结构相似性指数 (SSIM)——评估视频生成的质量。
研究团队表示,就性能而言,他们的方法在所有指标上与其他清晰、中立的说话方法相当。
他们指出,这种方法不仅能够在整个情感范围内一致地执行,而且还与当前所有最先进的语音化身方法兼容。
值得一提的是,其特定于变体的可学习先验方法还可以扩展到其他语音因素,例如身份和性别,这可以作为未来工作的一部分进行探索。
研究人员通过在嘈杂和情绪化的音频样本上进行测试来验证他们的模型,结果表明,当音频发生变化时,该方法优于当前最先进的技术。
雷锋网注:本文整理自KYLE WIGGERS在venturebeat发表的文章。
站长声明
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件
举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
-
隐退已久的段永平背后的男人段永平,突然又重新回到了公众的视野中。 上周,“小霸王文化申请破产”的消息在网络圈热传。 这位曾经的游戏机之王的命运,引起了无尽的唏嘘。 不过,小霸王随后发表官方声明澄清,破产是“自己的事件”。 与此同时,小霸王背后的那个人段永平再次
06-18
-
投资界(ID:pedaily)7月7日报道,数字信号处理器供应商“中科豪芯”近日宣布,已完成近亿元A轮融资,由比亚迪、麦格米特等行业方共同投资。 本轮融资将主要用于加速产品研发、加大团队建设以及芯片生产和批量交付。 中科浩信成立于今年1月。 主要基于RISC-V指令集架构,专注
06-17
-
创头条获悉,6月3日,中科院在浦江创新论坛上发布《国家创新指数报告》。 报告显示,中国国家创新指数位列全球第14位,比上年上升一位,是唯一进入前15名的发展中国家。 从具体得分来看,中国国家创新指数得分为72.5分,比上年提高2.6个百分点。 与英国、芬兰、法国、爱尔兰等
06-17
-
11月是名副其实的“ARM月”。 ARM TechCon刚刚在北美落下帷幕,“ARM年度技术论坛”巡回上海、北京、深圳。 一周后的11月27日,即ARM的25岁生日,再次拉开帷幕并圆满结束。 数千名中国开发者和行业专家与ARM及生态系统合作伙伴一起参加了此次活动。 国内再次掀起ARM热潮,并引
06-17
-
随着疫情席卷全球,医疗器械、医疗检测公司股价出现大幅上涨。 3月1日,沙川管理的天弘中证全包医疗器械与服务ETF(73)正式推出。 发行期截止至3月3日,申购代码为73.Listen,中小企业反馈平台。 倾听用户需求,倾听创业者声音,解决中小企业痛点。 点击立即参与调查并获得
06-18
-
全球第二大存储芯片制造商SK海力士将投资3.16万亿韩元(26亿美元)推动芯片生产。 此举的目的是为了满足当前市场对手机和电脑的需求。 存储需求不断增长。 苹果公司和索尼公司的供应商周四表示,将在首尔南部清州投资 2.21 万亿韩元建设新工厂,以满足智能手机 NAND 闪存芯片
06-18
-
外媒报道,韩国三星电子透露有意提高晶圆代工价格。 由于三星晶圆代工主力在先进工艺,因此宣布将提价。 业界认为这是提高先进晶圆代工工艺价格的第一枪。 这也意味着晶圆代工市场的繁荣已经从成熟工艺延伸至先进工艺。 在三星之前,联电、力积电等工艺成熟的晶圆代工厂已相
06-08
-
据投资界(ID:pedaily)5月18日消息,北京科杰科技股份有限公司(以下简称科杰科技)科杰科技于今年10月宣布完成1亿元A轮融资,由华业天成资本、XVC领投,维度资本跟投,老股东考拉基金继续跟投。 据悉,本次融资将用于开发和升级国内大数据基础产品矩阵,构建综合数据能力
06-18
-
黑猫焦化计划在中国上市。 2020年9月13日,有消息称,陕西黑猫焦化股份有限公司拟在境内上市。 黑猫焦化前身为陕西黑猫焦化有限公司,成立于2017年11月,2018年12月变更为股份制公司,目前注册资本0万元,主要从事存在于焦炭、甲醇、粗苯和焦油中。 、硫酸铵、电力、蒸压
06-17
-
雷锋网1月24日报道,三星电子今日发布了第四季度及全年财报。 财报显示,三星第四季度总营收为53.33万亿韩元(约合560亿美元),与去年同期的53.32万亿韩元基本持平;营业利润为9.22万亿韩元(约合79.28亿美元)。 比去年同期的6.14万亿韩元增长50.2%。 营业利润主要来自存储
06-18
-
据投资界8月17日消息,天眼查APP显示,近日,上海赢之越信息技术有限公司发生工商变更,公司新股东为B站关联公司上海欢点信息技术有限公司、上海若星文化科技合伙企业(有限合伙)。 公司第一大股东为宋世宇,持股比例49.33%,上海欢电信息技术有限公司为第三大股东,持股比
06-17
-
l 安全和安保功能集成了设备认证、多层安全性 l 多区域冗余、高时效性网络功能和 AUTOSAR 设备支持 l 先进的信息娱乐系统集成 AWSl 进行边缘计算和网络诊断以连接和快速充电消费设备的解决方案(新加坡 - 2019 年 1 月 9 日)Molex 宣布推出其屡获殊荣的 10 Gbps 汽车以太网平
06-06
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态