首页 > 科技未来 > 内容

中科深度智能创始人程伟中:用表情和动作赋予元宇宙“真正的活力”

发布于:2024-06-17 编辑:匿名 来源:网络

虚拟人,又称数字人,通过3D建模创建图像,结合AI、MR技术、实时渲染、而云计算等技术手段让虚拟人可以实时互动。

早期,虚拟人多应用于动漫游戏领域。

随着AI深度学习的突破,虚拟人技术不断进步,企业家们开始了更多的商业化尝试。

这两年,市场需求已经不再满足于好看的车型。

如何赋予虚拟人更真实的“活力”,是企业家们一直在讨论的话题。

中科神智选择以虚拟人开发中最重要的“表情和动作生成”作为突破点。

中科深度智能专注于虚拟人动作和表情的实时生成。

以深度学习支持的多模态驾驶引擎为核心,结合模型资产处理和虚拟人渲染技术,自主研发虚拟人业务中台系统Motionverse,开发元界电商产品——自动播报、3D AIGC动画视频创作平台-自动动画、高效虚拟人实时交互产品-云小七等产品。

Motionverse可以提供SDK和管理后台,解决产品和终端问题。

主要为零售、政务、金融、文旅、媒体、游戏、医疗、教育、运营商、生产等多个行业和场景提供解决方案,赋能数字人产业发展。

在赋能元宇宙和数字人类产业发展的过程中,中科深智正在积极探索云服务模式,以加快布局多行业、多场景应用,降本增效。

目前采用纯云产品服务架构,除了使用基础云产品外,还与阿里云等服务商合作推出了云渲染、云计算等产品。

阿里云一直关注中科深智的“云模式”,在智能语音、语音交互、AI算法等技术上保持着密切的沟通。

阿里云为中科深智打造了让虚拟人“说话”的数字云解决方案。

阿里云基于其虚拟人业务中台系统,提供语音合成TTS服务,可以实现高保真、灵活配置,让虚拟人栩栩如生。

发声与真实的表情和动作相结合,可以进一步增强用户的真实感和沉浸感。

目前,中科深知在电商虚拟人直播市场的市场份额已达到70%以上,在电商领域已经相对成熟。

中科深知的探索从未局限于电子商务。

他们正在积极完成标准化工具的集成和输出,以及如何保证虚拟人在更多场景下的实时性和交互性。

在这个过程中,我们应该如何看待元宇宙的应用趋势?技术上有哪些关键突破?目前已经形成了怎样的产业生态?虚拟人厂商将如何提供更加实时、简单、低成本的虚拟人服务?第十期云谷创新讲座邀请北京中科深度智能科技有限公司创始人兼CEO程卫忠畅谈虚拟人的技术发展和产业生态。

多年从事移动互联网、游戏、虚拟宇宙领域的创业者。

他结合自己的创业经历和行业洞察,与阿里云进行了深入探讨:(以下为对话节选,阿里云整理)阿里云:对“元宇宙”一千个人有一千种理解在他们心目中,你对虚拟宇宙的概念是什么?虚拟人在虚拟宇宙中扮演什么角色?程伟忠:虚拟宇宙并不是凭空出现的。

它是互联网、移动互联网发展后,人们对信息获取的客观需求所驱动的。

在互联网出现之前,人们依赖面对面的交流。

这种信息获取方式占沟通方式的80%,获取方式基于直觉。

互联网早期,交流主要以文本为主,获取信息主要依靠大脑的想象力。

如今,各种视频直播的兴起,让信息获取变得直观。

当这种形式达到顶峰时,需要一场新的信息革命,“元宇宙”的概念就诞生了。

虚拟宇宙是现实世界的反映,也离不开“人、货、地”的概念。

在元宇宙中,主要有三个任务:一是场景的构建,即如何生成虚拟场景;第二,如何将生物移入这个虚拟宇宙,包括人、动物等;第三,如何将更新的事物搬入虚拟宇宙。

搬进很多物品。

从技术成熟度和经济效益来看,“领域”已形成成熟的产业链,突破难度相对较大; “货”因数量大、成本高等问题尚处于探索阶段;而虚拟人在成本和成本上还处于探索阶段。

从市场需求来看,发展前景广阔。

阿里云:中科智深被定义为“多模态实时驱动的虚拟人公司”。

请介绍一下什么是“多模态实时驱动虚拟人”?程伟忠:主要包括两个概念:实时和多模态。

虚拟人的技术流派主要分为2D和3D两种。

从发展的角度来看,未来3D技术将是核心,2D技术更多的是补充。

与动画制作类似,虚拟人的开发主要分为三个部分:前期模型制作、中期动作和表情处理、后期渲染。

从工作量来看,前期和后期的比例约为20%~30%,其中70%的工作量集中在动作和表情的处理上。

在数字人领域,所有围绕3D虚拟化的应用,包括现在流行的人工智能自动生成内容(AIGC),如果没有实时的动作和表情,都将很难实现真实感。

多模态实时动作表情生成是未来虚拟人发展的基础,也是AIGC的基础。

未来的虚拟人技术需要基于实时性。

从过去的一些技术应用来看,比如《阿凡达》的电影制作,采用的是非实时、离线的技术。

它的视觉呈现非常真实,但无法满足我们在虚拟世界中实时交互的需求。

多模态解决应用层面的问题。

我们从需求端出发,开放多种输入方式。

接收到输入信号后,我们利用AI生成所需的动作和信号,可以支持各种应用场景的需求。

阿里云:中科深知电商全平台AI虚拟直播带货产品——自动直播。

在终端上,你可以看到虚拟主播介绍产品并与观众打招呼互动。

从产品设计研发到实施,中科深智主要做了哪些工作?程伟忠:自播是中科智深开发的SaaS产品。

商家只需上传直播的产品文案、视频、图片,直播就会自动开始。

所有的动作和表情都是由系统生成的。

这个过程主要依赖于云服务。

据我了解,目前国内只有达摩院和中科智深采用纯云架构,大部分企业采用云+本地架构。

早期我们也采用了本地渲染、云端管理的架构,这样可以降低渲染成本和技术复杂度。

我们还发现了很多问题,比如系统升级问题,需要商家自行更新,否则会因为版本落后而降低体验。

面对商家反映的这些问题,我们开始开发纯云服务,主要面临技术挑战。

从虚拟现实技术到云计算的探索,我们与阿里云等云服务商合作研究解决。

另外,我认为虚拟人直播带货只是一个过渡阶段,也是整个元宇宙电商的一个预演。

从元宇宙的范围来看,市场需求不仅仅是虚拟人,还涉及大量的AI和XR需求。

如果商家想要使用直播,他的需求可能会变成虚拟背景。

针对这些细节场景的需求,中科深智也提供了相关产品。

如果是直播,您可以使用我们库中的虚拟背景或道具进行直播。

当这个功能满足了商家的需求时,他可能会进一步要求虚拟人一起直播。

因此,我们不能简单地理解为只能做虚拟直播。

其实需求还有很多延伸。

我认为这个市场是需求驱动的。

如果企业有需求,能够给他们带来生产力,我们就必须去做。

中科智深也在探索基于直播生态和用户需求实现“量不增价”的实现,控制渲染成本的同时增加更多实用的虚拟工具。

阿里云:对于企业来说,降低成本、增加利润是最重要的。

中科智深在这两端做了哪些工作?程伟忠:我认为目前虚拟人产品的成本主要集中在三大板块,即云服务、渲染、交互提升。

首先,从运营角度来看,主要关注的是渲染成本。

但根据中科深智的实际应用评测,采用纯云架构,商户可用的功能更多,但整体渲染资源消耗并没有增加。

,所以在实际运营过程中,核心成本仍然是云服务的成本。

另一方面,商家在使用虚拟人产品时非常注重交互体验。

以往厂商在提供交互服务时,大多使用动作库、表情库,容易产生僵尸的感觉。

随着市场的成熟,虚拟人越来越多地应用于线上线下的交互场景,对交互的质量要求也在不断提高。

因为在现实世界中,人们说话的时候,除了嘴巴动之外,四肢也会动。

缺少任何一个都会导致交互体验很差。

因此,很多商家都会遇到如何让交互更加理论化、丰富化的问题。

针对这些问题,中科深智提供实时交互动作表情生成技术解决方案,高效灵活地支持元界平台各类产品和服务,帮助企业实现更简单、更实用、更低成本的虚拟人驾驶。

阿里云:虚拟人背后的产业链是怎样的?中科深知在这里扮演什么角色?程伟忠:虚拟人产业链是围绕其发展过程而延伸和拓展的。

相对而言,早期建模相关的产业链已经成熟,而中期表达和动作生成以及后期渲染相关的产业链有待完善。

前期主要工作是创建虚拟人,由原画师设计,然后通过3D建模进行绑定。

中国3D动画已经发展了20多年。

全国大概有数以万计的3D动画公司和团队。

国内已经形成了非常成熟的产业链。

AI自动建模技术也随之兴起,但多应用于非专业和C端领域。

在中间阶段,产生动作和表情。

很多虚拟真人服务厂商都陷入了误区,尤其是一些从传统动漫行业转型而来的企业。

他们依托过去的动漫产业链,认为制作虚拟人只是一个3D模型,加上一些动作和表情。

这就导致了实际使用中无法与人、机器进行交互,这也是目前行业遇到的普遍问题。

随着2018年各种虚拟交互场景的增多,大家对这个问题的认识也会变得更加深刻。

我认为在虚拟人领域,要满足交互场景所要求的动作表情的时效性和质量,这是需要首先评估的。

技术理念需要改变。

捕获是一个传统的概念。

以往动画制作主要捕捉动作和表情。

但在元宇宙未来的应用中,捕获将是一种补充技术。

在公共场景中,只能生成,生成动作和表情的难度也不同。

在捕捉方面,动作捕捉比较容易,表情捕捉比较困难,而生成则相反。

人类的表达比动作更容易产生。

由于人的表情维度相对较少,动作又是在三维空间中运动,因此需要遵循人的运动规律。

因此,在训练算法模型时,需要对数据进行分类并进行强化学习。

目前的技术很难实现,但是我们可以针对一些主要场景做强化学习、强化数据集。

另一方面,必须强化大量约束。

阿里云:中科智深是如何训练这个模型的?不同场景的应用迁移有什么关键难点吗?程伟忠:我们目前使用一些生产数据进行基础训练,但随着算法精度要求的提高,我们很多数据都是专业收集的。

目前,动作和表达还不能像ChatGPT这样的语言那样在大规模数据上进行训练。

预计两到三年内,随着虚拟应用数量的增加和数据量的积累,可能会过渡到这样的大数据训练。

底层的人类动作逻辑是相同的,但为了在特定场景下实现更真实的交互,需要对微表情和微动作进行一些强化训练。

目前我们主要针对电商、广电、线下屏互动、娱乐等场景进行强化培训,基本覆盖了市场主流应用场景。

阿里云:目前中科深度智能主要应用在哪些方向?取得了什么进展?程伟忠:主要有两大板块,一是线下终端场景,二是APP。

先说线下终端场景。

中科深度智能创始人程伟中:用表情和动作赋予元宇宙“真正的活力”

很多线下终端场景都会放置一些交互屏幕,比如银行、医院等。

早期需要人们手动按下屏幕来操作,这对于一些不懂的老年人来说是困难的。

随着时间的推移,屏幕的灵敏度也会降低。

尽管近年来一些云交互模块已经得到应用,但在一定程度上仍然依赖于人工操作,所以使用的人很少。

另一个是APP。

很多APP也会设置2D虚拟形象,但也存在同样的问题。

无法完成复杂的交互,只能实现菜单的打开和返回。

利用虚拟人和AI可以帮助我们完成很多菜单交互。

我觉得明年或者后年,线上线下的互动场景将会成为一个潜在的市场,我们目前正在朝这个方向努力。

阿里云:中科深智的使命是创造通用的AI虚拟人,为虚拟宇宙赋予“真正的活力”。

这里有一个非常重要的词“通用AI”。

这让我想起了今年引起业界轰动的ChatGPT。

OpenAI推出的这款产品因其语言模型的成熟而被称为顶尖的聊天机器人。

那么回到中科深智的核心技术,实现通用AI虚拟人的关键是什么?程伟忠:动作表情的生成是人工智能中的一个独立领域,包括我们在内的国内几家公司已经在做了。

但大家的注意力都集中在绘图上,而不是3D生成上。

仅仅没有面部表情的模型是不够的。

对于我们来说,一家公司很难完成全部工作。

关键是外部合作。

我们的重点主要是虚拟人动作和表情的绑定标准化。

其他涉及算法、云??服务等的工作如果和阿里云等第三方服务商合作会更有优势。

阿里云创新中心简介 阿里云创新中心将阿里巴巴技术、产品、业务的生产力转化为企业发展的宝贵动力,为科技型中小企业提供更普惠、更安全、更绿色的产品和服务。

规模企业。

,为中小企业在技术创新、日常运营、职业技能培训、资本对接、跨境海外扩张等方面提供全方位支持。

截至目前,阿里云创新中心已为中小企业提供了2亿双创云资源,服务超过1万名创业者和50万家小微企业,孵化了众多高成长创新企业。

研究数据显示,顶级公司估值超过1亿,每年估值增速超过35%。

中科深度智能创始人程伟中:用表情和动作赋予元宇宙“真正的活力”

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 工业互联网服务商“未明智能”获Pre-A+轮融资,4个月内完成两轮融资

    工业互联网服务商“未明智能”获Pre-A+轮融资,4个月内完成两轮融资

    无锡未明智能科技有限公司(以下简称“未明智能”)完成Pre-A+轮融资墨量资本投资的A+轮融资 -A+轮融资。 本轮融资将继续用于产研迭代、业务拓展、人才引进和渠道建设。 7月30日,公司刚刚完成百卡创投领投的Pre-A轮融资。 未名智能成立于2007年,是金属加工领域的工业互联网

    06-18

  • “威努特”完成D轮3亿元融资

    “威努特”完成D轮3亿元融资

    据3月22日消息,北京威努特科技有限公司(“威努特”)已完成D轮3亿元融资。 本轮融资由国有资本创业投资基金有限公司领投,保利汇鑫股权基金投资管理有限公司及多家老股东跟投。 本轮融资后,公司将继续投入运营,进一步提升市场份额。 “威努特”成立于2007年,致力于为工

    06-18

  • TPG将出售和睦家医疗,交易价值约13亿美元

    TPG将出售和睦家医疗,交易价值约13亿美元

    据投资界7月30日消息,另类资产公司TPG宣布将其持有的和睦家医疗出售给新风天域(纽交所代码:NFC)医疗股权旨在打造中国最大的综合医疗服务上市公司。 该交易价值约13亿美元。 交易完成后,新公司将以 New Frontier Healthcare 名义运营,预计将在纽约证券交易所上市,代码

    06-18

  • 耀铭科技完成近亿元C轮融资,跟投深创投、李泽湘、三七互娱等,

    耀铭科技完成近亿元C轮融资,跟投深创投、李泽湘、三七互娱等,

    据投资界(ID:pedaily)7月24日消息,智能宠物硬件公司“耀明科技”宣布完成近亿元C轮融资,由深创投领投,李泽湘、三七互娱等投资方跟投。 本次融资将用于进一步加大产品研发力度,扩大市场覆盖范围。 耀明科技成立于2007年,截至2018年,耀明科技线上总销售额已突破2亿元

    06-17

  • 新势力电动自行车品牌“VELOTRIC”完成5000万元A轮融资

    新势力电动自行车品牌“VELOTRIC”完成5000万元A轮融资

    投资圈(ID:pedaily)据2月23日消息,电动自行车品牌VELOTRIC近日完成1万元A轮融资。 本轮融资由复星瑞正资本和红点创投领投,最新一轮融资使VELOTRIC的融资总额超过1万元。 VELOTRIC创始人和张曦表示,这笔资金将用于扩大公司在美国市场的影响力,打破电动自行车品牌专注于

    06-18

  • 习近平在湖北武汉考察时强调,要把科技生命线牢牢掌握在自己手中,不断提高我国发展的独立性、自主性、安全性

    习近平在湖北武汉考察时强调,要把科技生命线牢牢掌握在自己手中,不断提高我国发展的独立性、自主性、安全性

    新华网在武汉考察时该省强调,科技自力更生是国力之基、安全之关键。 我们必须全面准确全面贯彻新发展理念,深入实施创新驱动发展战略,把科技命脉牢牢掌握在自己手中,在科技自力更生、自力更生方面取得更大进步,不断提高我国发展的独立性、自主性、自力更生能力。 安全将催

    06-06

  • 印度教育科技公司iNurture获3亿卢比融资

    印度教育科技公司iNurture获3亿卢比融资

    投资界(ID:pedaily)6月8日消息,据筑道资本消息,印度教育科技初创公司iNurture教育解决方案宣布获得3亿卢比,投资方是总部位于迪拜的家族投资机构Kimera。 据了解,iNurture的公司成立于2007年,创始人是阿什温阿吉拉。 该公司与印度各地的大学和学院合作,提供行业相关

    06-17

  • 卓时智通获数千万元Pre-B轮融资,浩硕尔基金领投

    卓时智通获数千万元Pre-B轮融资,浩硕尔基金领投

    投资圈(ID:pedaily)6月12日消息,基于多模态人工智能融合传感与车联网道路协同服务商北京卓视智通科技有限公司(以下简称“卓视智通”)宣布完成数千万元Pre-B轮融资。 本轮融资由好说智尔基金领投,耀图资本跟投。 主要用于产品市场拓展、AI大模型等新技术研发、AI训练平

    06-18

  • 企业周刊- “晓多科技”基于阿里云让智能客服触手可及

    企业周刊- “晓多科技”基于阿里云让智能客服触手可及

    阿里云加速器云企业集成周刊-“晓多科技”阿里云加速器会员企业晓多科技是优秀的智能客服细分赛道作为阿里云合作伙伴,我们深度涉足自然语言对话技术,打造基于深度神经网络学习技术的专业智能客服机器人。 晓多科技深度融合阿里云丰富的基础产品、安全产品、AI产品,实现业务

    06-18

  • 5亿元,信达生物首支早期人民币基金完成募资

    5亿元,信达生物首支早期人民币基金完成募资

    投资界(ID:pedaily)消息,9月1日,BioBAY园区上市公司信达生物(1.HK)发布公告:信达生物集团发起的生物制剂(1.HK)及领先的早期人民币基金——苏州信和国清创业投资合伙企业(有限合伙)(以下简称:苏州信和国清基金)已顺利完成募资并全部关闭账户。 基金规模为5亿元

    06-18

  • 云掌金融获得两大资本支持,开启发展新篇章

    云掌金融获得两大资本支持,开启发展新篇章

    近日,华映资本旗下管理基金正式投资云掌金融,并完成工商变更。 截至目前,云掌财经已成功获得北京文投集团、深圳华商基金、上海华映资本等多家国内知名投资机构股东,为云掌财经下一步冲刺上市奠定了坚实的基础。 华映资本是中国领先的TMT领域风险投资机构。 是由上海文广

    06-18

  • 15亿,浙江诸暨产业基金成立

    15亿,浙江诸暨产业基金成立

    投资界(ID:pedaily)7月13日报道,近日,浙江诸暨经济开发区与谢诺投资产业基金签约,双方将合作设立一个基金中的基金和多个子基金。 该母基金认购规模为15亿元,由诸暨市晶创金融投资有限公司投资,谢诺投资集团旗下股权投资公司谢诺晨图担任基金管理人。 诸暨经济开发区是

    06-18