首页 > 科技未来 > 内容

微软AI新技术:让你的头像照片动起来,有感情地“说话”

发布于:2024-06-18 编辑:匿名 来源:网络

语音播放文章内容由深声科技提供技术支持 您的浏览器不支持音频元素。

越来越多的研究表明,只要有足够大的语料库,人类的面部动作和言语行为就可以同步。

微软AI新技术:让你的头像照片动起来,有感情地“说话”

两年前,卡内基梅隆大学的研究人员发表了一篇论文,描述了一种将面部动作从一个人转移到另一个人的方法。

就在今年六月,三星的应用科学家推出了一种端到端模型,可以在人的头部特写中为眉毛、嘴巴、睫毛和脸颊制作动画。

仅仅几周后,Udacity 展示了一个可以根据音频旁白自动生成单口演讲视频的系统。

基于之前的研究和工作,微软研究团队本周提出了一项技术。

他们声称这项技术可以提高语音头像动画的真实感。

到目前为止,头部动画生成需要清晰、相对无噪音的中性音频。

现在,研究人员表示,他们的技术可以将音频序列分解为语音内容和背景噪声等因素,从而允许使用噪声和“情感”数据样本。

雷锋网注:图片来自微软。

众所周知,声音是不同的。

不同的人在不同的情况下使用同一个词,其持续时间、振动幅度、语调等都是不同的。

除了语音内容之外,语音本身还承载着丰富的信息,可以揭示人们的情绪状态、身份(性别、年龄、种族)和性格等。

事实上,微软研究人员提出的技术是基于变分自编码器(雷锋网互联网出版社:学习潜在显示的变分自动编码(VAE)。

VAE可以将输入音频分解为不同的表示形式,包括编码内容、表达方式和其他变化因素。

基于输入音频,从分布中采样一些内容表示序列,并将该序列与输入人脸图像一起处理。

馈送到视频生成器以制作面部动画。

为了训练和测试VAE,研究人员选择了三个数据集,如下: GRID:这是一个视听语料库,每个语料库包含34个说话者的录音; CREMA-D:包含 91 个不同种族演员的电影和电视剪辑; LRS3:包含 TED 视频中超过 100,000 个口语句子的数据库。

研究人员将 GRID 和 CREMA-D 的数据输入模型,让它识别语音和情感表征,然后使用一对定量指标——峰值信噪比 (PSNR) 和结构相似性指数 (SSIM)——评估视频生成的质量。

研究团队表示,就性能而言,他们的方法在所有指标上与其他清晰、中立的说话方法相当。

他们指出,这种方法不仅能够在整个情感范围内一致地执行,而且还与当前所有最先进的语音化身方法兼容。

值得一提的是,其特定于变体的可学习先验方法还可以扩展到其他语音因素,例如身份和性别,这可以作为未来工作的一部分进行探索。

研究人员通过在嘈杂和情绪化的音频样本上进行测试来验证他们的模型,结果表明,当音频发生变化时,该方法优于当前最先进的技术。

雷锋网注:本文整理自KYLE WIGGERS在venturebeat发表的文章。

微软AI新技术:让你的头像照片动起来,有感情地“说话”

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 首次发布 -耀视医疗获数千万元Pre-A轮融资,重点发力眼科医疗器械

    首次发布 -耀视医疗获数千万元Pre-A轮融资,重点发力眼科医疗器械

    据投资界(ID:pedaily)11月4日消息,近日,耀视(苏州)医疗科技有限公司获悉。 耀视医疗股份有限公司(以下简称:耀视医疗)完成数千万元Pre-A轮融资,投资方包括博航资本、苏高新集团旗下医疗科技一号基金。 耀明资本担任财务顾问,将继续负责后续融资。 本轮融资将用于

    06-17

  • “格陆博”完成2亿元B++轮融资,深化汽车线性控制系统发展

    “格陆博”完成2亿元B++轮融资,深化汽车线性控制系统发展

    据投资界(ID:pedaily)3月4日消息,近日格陆博科技有限公司( (以下简称“格陆博”)宣布完成2亿元B++轮融资,由百度创投、芯鼎资本、汇川万牛、湖北高新投资、紫峰资本、海涛资本、嘉基金资本联合投资,大陈创宏继续投资。 格陆博科技创始人刘兆勇博士表示,本轮融资完成

    06-17

  • 【全球财经24小时】2023年7月24日投融资事件汇总及详情

    【全球财经24小时】2023年7月24日投融资事件汇总及详情

    今日全球市场共发生23起投资披露事件,其中境内16起,境外7起。 其中,国内先进制造业9例,医疗健康行业2例,传统制造业1例,企业服务业2例,消费行业1例,消费行业1例。 旅游业。 国外医疗健康行业1例、金融行业1例、区块链行业4例、先进制造业1例。 国内事件 1、光格科技今

    06-17

  • 安瑞科技获数千万元A轮融资,由新天创投

    安瑞科技获数千万元A轮融资,由新天创投

    投资圈(ID:pedaily)领投 据12月14日消息,安瑞(上海)信息技术有限公司(以下简称“昂瑞”) “昂瑞科技”)已完成数千万元A轮融资,本轮融资由新天创投领投,产业投资人跟投,北拓资本担任财务顾问投资。 募集资金主要用于科技领域“昂瑞科技”成立于2016年,专注于建筑

    06-18

  • 谷歌自研数据中心芯片新进展:台积电明年下半年量产

    谷歌自研数据中心芯片新进展:台积电明年下半年量产

    台湾《经济日报》 2月14日,The Information援引知情人士报道称,谷歌已取得成功开发自己的服务器芯片。 按照进展,台积电预计将在下半年量产这些新芯片,并在 2020 年开始使用这些新芯片,目标是降低运营数据中心的成本,并跟上云竞争对手亚马逊的步伐。 据报道,谷歌的服务

    06-06

  • 河南设立100亿元规模信息产业发展基金,主要投向新兴信息产业领域

    河南设立100亿元规模信息产业发展基金,主要投向新兴信息产业领域

    河南省设立100亿元信息产业发展基金,主要投资新兴信息产业领域。 10月22日投资界消息,据相关媒体报道,河南省设立1000亿元信息产业发展基金,重点支持国家重大项目。 数据(河南)综合实验区引进国内外优质大数据企业,培育一批高新技术企业。   据了解,河南省信息产业发

    06-17

  • 算力、易用的产品、扎实的服务助力中小企业数字化转型 -阿里云“数智惠企-中国·江苏”行动已启动

    算力、易用的产品、扎实的服务助力中小企业数字化转型 -阿里云“数智惠企-中国·江苏”行动已启动

    随着数字化转型、智能化转型的深入,我国产业整体实力、质量效益、创新能力、竞争力、抗风险能力显着提升。 但对于全国数以万计的中小微企业来说,整体转型转型工作才刚刚开始。 如何推动中小企业科学高效数字化转型,对经济高质量发展至关重要。 作为经济大省,实体经济是江

    06-18

  • 富春环保拟以5.76亿元收购遂昌汇金80%股权

    富春环保拟以5.76亿元收购遂昌汇金80%股权

    据投资界(ID:pedaily)5月26日消息,富春环保公告称,公司拟以其旗下子公司厦门丰和、厦门丰和的股份收购厦门丰和、厦门丰和。 自有资金合计5.76亿元。 赵华棣、赵彰财、黄作恭、胡治权分别持有遂昌汇金65%、6%、3%、3%、3%的股份。 本次收购的股份总额占遂昌汇金总股本的

    06-18

  • 【创业者话题】问广西御云:云技术带来的降本增效的双重效果

    【创业者话题】问广西御云:云技术带来的降本增效的双重效果

    创想百观|主题互动——品牌AMA(AskMeAnything)赋能企业高效运营:云技术带来的降本增效协同双重效应企业上云后可以充分利用云服务提供的安全稳定的基础设施服务提供商无需投入大量资金建设数据中心,大大降低了初期投资和维护成本。 此外,云服务的高可用性和容灾机制也帮助

    06-17

  • 控股股东拟科创板IPO,原子高科暴跌或无分拆上市机会?

    控股股东拟科创板IPO,原子高科暴跌或无分拆上市机会?

    原子高科(05.OC)母公司中国通富(3.HK)计划回归A股并在科创板上市,而另一边,原子高科被投资者视为新三板“白马股”的科创科技遭遇大幅下跌,年初以来股价跌幅超过30%。

    06-17

  • 苹果的2023:新品乏味,赚钱猛

    苹果的2023:新品乏味,赚钱猛

    每年做年度回顾的时候,苹果都是绕不开的重要品牌。 尽管唱衰这家科技大公司的声音从未停止过,但苹果仍然在行业中扮演着举足轻重的角色。 无论是品牌号召力、话题热度,还是产品影响力,苹果仍处于T0级别。 科技界的大人物。 过去一年来,苹果逐步更新了部分产品,还推出了旗

    06-18

  • “基因编辑婴儿”  案宣判!贺建奎一审获刑三年,罚款 300 万

    “基因编辑婴儿” 案宣判!贺建奎一审获刑三年,罚款 300 万

    “基因编辑婴儿”案宣判!贺建奎一审被判处三年有期徒刑,并处罚金300万。 曾经震惊社会、轰动一时的“基因编辑婴儿”事件有了新的重大进展。 贺建奎被判处有期徒刑三年,并处罚金人民币1万元。 据新华社报道,12月30日,“基因编辑婴儿”一审案件在深圳市南山区人民法院公开

    06-17