解决工业领域信息安全问题,“木连科技”完成近亿元B轮融资
06-17
虚拟人,又称数字人,通过3D建模创建图像,结合AI、MR技术、实时渲染、而云计算等技术手段让虚拟人可以实时互动。
早期,虚拟人多应用于动漫游戏领域。
随着AI深度学习的突破,虚拟人技术不断进步,企业家们开始了更多的商业化尝试。
这两年,市场需求已经不再满足于好看的车型。
如何赋予虚拟人更真实的“活力”,是企业家们一直在讨论的话题。
中科神智选择以虚拟人开发中最重要的“表情和动作生成”作为突破点。
中科深度智能专注于虚拟人动作和表情的实时生成。
以深度学习支持的多模态驾驶引擎为核心,结合模型资产处理和虚拟人渲染技术,自主研发虚拟人业务中台系统Motionverse,开发元界电商产品——自动播报、3D AIGC动画视频创作平台-自动动画、高效虚拟人实时交互产品-云小七等产品。
Motionverse可以提供SDK和管理后台,解决产品和终端问题。
主要为零售、政务、金融、文旅、媒体、游戏、医疗、教育、运营商、生产等多个行业和场景提供解决方案,赋能数字人产业发展。
在赋能元宇宙和数字人类产业发展的过程中,中科深智正在积极探索云服务模式,以加快布局多行业、多场景应用,降本增效。
目前采用纯云产品服务架构,除了使用基础云产品外,还与阿里云等服务商合作推出了云渲染、云计算等产品。
阿里云一直关注中科深智的“云模式”,在智能语音、语音交互、AI算法等技术上保持着密切的沟通。
阿里云为中科深智打造了让虚拟人“说话”的数字云解决方案。
阿里云基于其虚拟人业务中台系统,提供语音合成TTS服务,可以实现高保真、灵活配置,让虚拟人栩栩如生。
发声与真实的表情和动作相结合,可以进一步增强用户的真实感和沉浸感。
目前,中科深知在电商虚拟人直播市场的市场份额已达到70%以上,在电商领域已经相对成熟。
中科深知的探索从未局限于电子商务。
他们正在积极完成标准化工具的集成和输出,以及如何保证虚拟人在更多场景下的实时性和交互性。
在这个过程中,我们应该如何看待元宇宙的应用趋势?技术上有哪些关键突破?目前已经形成了怎样的产业生态?虚拟人厂商将如何提供更加实时、简单、低成本的虚拟人服务?第十期云谷创新讲座邀请北京中科深度智能科技有限公司创始人兼CEO程卫忠畅谈虚拟人的技术发展和产业生态。
多年从事移动互联网、游戏、虚拟宇宙领域的创业者。
他结合自己的创业经历和行业洞察,与阿里云进行了深入探讨:(以下为对话节选,阿里云整理)阿里云:对“元宇宙”一千个人有一千种理解在他们心目中,你对虚拟宇宙的概念是什么?虚拟人在虚拟宇宙中扮演什么角色?程伟忠:虚拟宇宙并不是凭空出现的。
它是互联网、移动互联网发展后,人们对信息获取的客观需求所驱动的。
在互联网出现之前,人们依赖面对面的交流。
这种信息获取方式占沟通方式的80%,获取方式基于直觉。
互联网早期,交流主要以文本为主,获取信息主要依靠大脑的想象力。
如今,各种视频直播的兴起,让信息获取变得直观。
当这种形式达到顶峰时,需要一场新的信息革命,“元宇宙”的概念就诞生了。
虚拟宇宙是现实世界的反映,也离不开“人、货、地”的概念。
在元宇宙中,主要有三个任务:一是场景的构建,即如何生成虚拟场景;第二,如何将生物移入这个虚拟宇宙,包括人、动物等;第三,如何将更新的事物搬入虚拟宇宙。
搬进很多物品。
从技术成熟度和经济效益来看,“领域”已形成成熟的产业链,突破难度相对较大; “货”因数量大、成本高等问题尚处于探索阶段;而虚拟人在成本和成本上还处于探索阶段。
从市场需求来看,发展前景广阔。
阿里云:中科智深被定义为“多模态实时驱动的虚拟人公司”。
请介绍一下什么是“多模态实时驱动虚拟人”?程伟忠:主要包括两个概念:实时和多模态。
虚拟人的技术流派主要分为2D和3D两种。
从发展的角度来看,未来3D技术将是核心,2D技术更多的是补充。
与动画制作类似,虚拟人的开发主要分为三个部分:前期模型制作、中期动作和表情处理、后期渲染。
从工作量来看,前期和后期的比例约为20%~30%,其中70%的工作量集中在动作和表情的处理上。
在数字人领域,所有围绕3D虚拟化的应用,包括现在流行的人工智能自动生成内容(AIGC),如果没有实时的动作和表情,都将很难实现真实感。
多模态实时动作表情生成是未来虚拟人发展的基础,也是AIGC的基础。
未来的虚拟人技术需要基于实时性。
从过去的一些技术应用来看,比如《阿凡达》的电影制作,采用的是非实时、离线的技术。
它的视觉呈现非常真实,但无法满足我们在虚拟世界中实时交互的需求。
多模态解决应用层面的问题。
我们从需求端出发,开放多种输入方式。
接收到输入信号后,我们利用AI生成所需的动作和信号,可以支持各种应用场景的需求。
阿里云:中科深知电商全平台AI虚拟直播带货产品——自动直播。
在终端上,你可以看到虚拟主播介绍产品并与观众打招呼互动。
从产品设计研发到实施,中科深智主要做了哪些工作?程伟忠:自播是中科智深开发的SaaS产品。
商家只需上传直播的产品文案、视频、图片,直播就会自动开始。
所有的动作和表情都是由系统生成的。
这个过程主要依赖于云服务。
据我了解,目前国内只有达摩院和中科智深采用纯云架构,大部分企业采用云+本地架构。
早期我们也采用了本地渲染、云端管理的架构,这样可以降低渲染成本和技术复杂度。
我们还发现了很多问题,比如系统升级问题,需要商家自行更新,否则会因为版本落后而降低体验。
面对商家反映的这些问题,我们开始开发纯云服务,主要面临技术挑战。
从虚拟现实技术到云计算的探索,我们与阿里云等云服务商合作研究解决。
另外,我认为虚拟人直播带货只是一个过渡阶段,也是整个元宇宙电商的一个预演。
从元宇宙的范围来看,市场需求不仅仅是虚拟人,还涉及大量的AI和XR需求。
如果商家想要使用直播,他的需求可能会变成虚拟背景。
针对这些细节场景的需求,中科深智也提供了相关产品。
如果是直播,您可以使用我们库中的虚拟背景或道具进行直播。
当这个功能满足了商家的需求时,他可能会进一步要求虚拟人一起直播。
因此,我们不能简单地理解为只能做虚拟直播。
其实需求还有很多延伸。
我认为这个市场是需求驱动的。
如果企业有需求,能够给他们带来生产力,我们就必须去做。
中科智深也在探索基于直播生态和用户需求实现“量不增价”的实现,控制渲染成本的同时增加更多实用的虚拟工具。
阿里云:对于企业来说,降低成本、增加利润是最重要的。
中科智深在这两端做了哪些工作?程伟忠:我认为目前虚拟人产品的成本主要集中在三大板块,即云服务、渲染、交互提升。
首先,从运营角度来看,主要关注的是渲染成本。
但根据中科深智的实际应用评测,采用纯云架构,商户可用的功能更多,但整体渲染资源消耗并没有增加。
,所以在实际运营过程中,核心成本仍然是云服务的成本。
另一方面,商家在使用虚拟人产品时非常注重交互体验。
以往厂商在提供交互服务时,大多使用动作库、表情库,容易产生僵尸的感觉。
随着市场的成熟,虚拟人越来越多地应用于线上线下的交互场景,对交互的质量要求也在不断提高。
因为在现实世界中,人们说话的时候,除了嘴巴动之外,四肢也会动。
缺少任何一个都会导致交互体验很差。
因此,很多商家都会遇到如何让交互更加理论化、丰富化的问题。
针对这些问题,中科深智提供实时交互动作表情生成技术解决方案,高效灵活地支持元界平台各类产品和服务,帮助企业实现更简单、更实用、更低成本的虚拟人驾驶。
阿里云:虚拟人背后的产业链是怎样的?中科深知在这里扮演什么角色?程伟忠:虚拟人产业链是围绕其发展过程而延伸和拓展的。
相对而言,早期建模相关的产业链已经成熟,而中期表达和动作生成以及后期渲染相关的产业链有待完善。
前期主要工作是创建虚拟人,由原画师设计,然后通过3D建模进行绑定。
中国3D动画已经发展了20多年。
全国大概有数以万计的3D动画公司和团队。
国内已经形成了非常成熟的产业链。
AI自动建模技术也随之兴起,但多应用于非专业和C端领域。
在中间阶段,产生动作和表情。
很多虚拟真人服务厂商都陷入了误区,尤其是一些从传统动漫行业转型而来的企业。
他们依托过去的动漫产业链,认为制作虚拟人只是一个3D模型,加上一些动作和表情。
这就导致了实际使用中无法与人、机器进行交互,这也是目前行业遇到的普遍问题。
随着2018年各种虚拟交互场景的增多,大家对这个问题的认识也会变得更加深刻。
我认为在虚拟人领域,要满足交互场景所要求的动作表情的时效性和质量,这是需要首先评估的。
技术理念需要改变。
捕获是一个传统的概念。
以往动画制作主要捕捉动作和表情。
但在元宇宙未来的应用中,捕获将是一种补充技术。
在公共场景中,只能生成,生成动作和表情的难度也不同。
在捕捉方面,动作捕捉比较容易,表情捕捉比较困难,而生成则相反。
人类的表达比动作更容易产生。
由于人的表情维度相对较少,动作又是在三维空间中运动,因此需要遵循人的运动规律。
因此,在训练算法模型时,需要对数据进行分类并进行强化学习。
目前的技术很难实现,但是我们可以针对一些主要场景做强化学习、强化数据集。
另一方面,必须强化大量约束。
阿里云:中科智深是如何训练这个模型的?不同场景的应用迁移有什么关键难点吗?程伟忠:我们目前使用一些生产数据进行基础训练,但随着算法精度要求的提高,我们很多数据都是专业收集的。
目前,动作和表达还不能像ChatGPT这样的语言那样在大规模数据上进行训练。
预计两到三年内,随着虚拟应用数量的增加和数据量的积累,可能会过渡到这样的大数据训练。
底层的人类动作逻辑是相同的,但为了在特定场景下实现更真实的交互,需要对微表情和微动作进行一些强化训练。
目前我们主要针对电商、广电、线下屏互动、娱乐等场景进行强化培训,基本覆盖了市场主流应用场景。
阿里云:目前中科深度智能主要应用在哪些方向?取得了什么进展?程伟忠:主要有两大板块,一是线下终端场景,二是APP。
先说线下终端场景。

很多线下终端场景都会放置一些交互屏幕,比如银行、医院等。
早期需要人们手动按下屏幕来操作,这对于一些不懂的老年人来说是困难的。
随着时间的推移,屏幕的灵敏度也会降低。
尽管近年来一些云交互模块已经得到应用,但在一定程度上仍然依赖于人工操作,所以使用的人很少。
另一个是APP。
很多APP也会设置2D虚拟形象,但也存在同样的问题。
无法完成复杂的交互,只能实现菜单的打开和返回。
利用虚拟人和AI可以帮助我们完成很多菜单交互。
我觉得明年或者后年,线上线下的互动场景将会成为一个潜在的市场,我们目前正在朝这个方向努力。
阿里云:中科深智的使命是创造通用的AI虚拟人,为虚拟宇宙赋予“真正的活力”。
这里有一个非常重要的词“通用AI”。
这让我想起了今年引起业界轰动的ChatGPT。
OpenAI推出的这款产品因其语言模型的成熟而被称为顶尖的聊天机器人。
那么回到中科深智的核心技术,实现通用AI虚拟人的关键是什么?程伟忠:动作表情的生成是人工智能中的一个独立领域,包括我们在内的国内几家公司已经在做了。
但大家的注意力都集中在绘图上,而不是3D生成上。
仅仅没有面部表情的模型是不够的。
对于我们来说,一家公司很难完成全部工作。
关键是外部合作。
我们的重点主要是虚拟人动作和表情的绑定标准化。
其他涉及算法、云??服务等的工作如果和阿里云等第三方服务商合作会更有优势。
阿里云创新中心简介 阿里云创新中心将阿里巴巴技术、产品、业务的生产力转化为企业发展的宝贵动力,为科技型中小企业提供更普惠、更安全、更绿色的产品和服务。
规模企业。
,为中小企业在技术创新、日常运营、职业技能培训、资本对接、跨境海外扩张等方面提供全方位支持。
截至目前,阿里云创新中心已为中小企业提供了2亿双创云资源,服务超过1万名创业者和50万家小微企业,孵化了众多高成长创新企业。
研究数据显示,顶级公司估值超过1亿,每年估值增速超过35%。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-18
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态