首页 > 科技未来 > 内容

中科深度智能创始人程伟中：用表情和动作赋予元宇宙“真正的活力”

发布于：2024-06-17 编辑：匿名来源：网络

虚拟人，又称数字人，通过3D建模创建图像，结合AI、MR技术、实时渲染、而云计算等技术手段让虚拟人可以实时互动。

早期，虚拟人多应用于动漫游戏领域。

随着AI深度学习的突破，虚拟人技术不断进步，企业家们开始了更多的商业化尝试。

这两年，市场需求已经不再满足于好看的车型。

如何赋予虚拟人更真实的“活力”，是企业家们一直在讨论的话题。

中科神智选择以虚拟人开发中最重要的“表情和动作生成”作为突破点。

中科深度智能专注于虚拟人动作和表情的实时生成。

以深度学习支持的多模态驾驶引擎为核心，结合模型资产处理和虚拟人渲染技术，自主研发虚拟人业务中台系统Motionverse，开发元界电商产品——自动播报、3D AIGC动画视频创作平台-自动动画、高效虚拟人实时交互产品-云小七等产品。

Motionverse可以提供SDK和管理后台，解决产品和终端问题。

主要为零售、政务、金融、文旅、媒体、游戏、医疗、教育、运营商、生产等多个行业和场景提供解决方案，赋能数字人产业发展。

在赋能元宇宙和数字人类产业发展的过程中，中科深智正在积极探索云服务模式，以加快布局多行业、多场景应用，降本增效。

目前采用纯云产品服务架构，除了使用基础云产品外，还与阿里云等服务商合作推出了云渲染、云计算等产品。

阿里云一直关注中科深智的“云模式”，在智能语音、语音交互、AI算法等技术上保持着密切的沟通。

阿里云为中科深智打造了让虚拟人“说话”的数字云解决方案。

阿里云基于其虚拟人业务中台系统，提供语音合成TTS服务，可以实现高保真、灵活配置，让虚拟人栩栩如生。

发声与真实的表情和动作相结合，可以进一步增强用户的真实感和沉浸感。

目前，中科深知在电商虚拟人直播市场的市场份额已达到70%以上，在电商领域已经相对成熟。

中科深知的探索从未局限于电子商务。

他们正在积极完成标准化工具的集成和输出，以及如何保证虚拟人在更多场景下的实时性和交互性。

在这个过程中，我们应该如何看待元宇宙的应用趋势？技术上有哪些关键突破？目前已经形成了怎样的产业生态？虚拟人厂商将如何提供更加实时、简单、低成本的虚拟人服务？第十期云谷创新讲座邀请北京中科深度智能科技有限公司创始人兼CEO程卫忠畅谈虚拟人的技术发展和产业生态。

多年从事移动互联网、游戏、虚拟宇宙领域的创业者。

他结合自己的创业经历和行业洞察，与阿里云进行了深入探讨：（以下为对话节选，阿里云整理）阿里云：对“元宇宙”一千个人有一千种理解在他们心目中，你对虚拟宇宙的概念是什么？虚拟人在虚拟宇宙中扮演什么角色？程伟忠：虚拟宇宙并不是凭空出现的。

它是互联网、移动互联网发展后，人们对信息获取的客观需求所驱动的。

在互联网出现之前，人们依赖面对面的交流。

这种信息获取方式占沟通方式的80%，获取方式基于直觉。

互联网早期，交流主要以文本为主，获取信息主要依靠大脑的想象力。

如今，各种视频直播的兴起，让信息获取变得直观。

当这种形式达到顶峰时，需要一场新的信息革命，“元宇宙”的概念就诞生了。

虚拟宇宙是现实世界的反映，也离不开“人、货、地”的概念。

在元宇宙中，主要有三个任务：一是场景的构建，即如何生成虚拟场景；第二，如何将生物移入这个虚拟宇宙，包括人、动物等；第三，如何将更新的事物搬入虚拟宇宙。

搬进很多物品。

从技术成熟度和经济效益来看，“领域”已形成成熟的产业链，突破难度相对较大； “货”因数量大、成本高等问题尚处于探索阶段；而虚拟人在成本和成本上还处于探索阶段。

从市场需求来看，发展前景广阔。

阿里云：中科智深被定义为“多模态实时驱动的虚拟人公司”。

请介绍一下什么是“多模态实时驱动虚拟人”？程伟忠：主要包括两个概念：实时和多模态。

虚拟人的技术流派主要分为2D和3D两种。

从发展的角度来看，未来3D技术将是核心，2D技术更多的是补充。

与动画制作类似，虚拟人的开发主要分为三个部分：前期模型制作、中期动作和表情处理、后期渲染。

从工作量来看，前期和后期的比例约为20%~30%，其中70%的工作量集中在动作和表情的处理上。

在数字人领域，所有围绕3D虚拟化的应用，包括现在流行的人工智能自动生成内容（AIGC），如果没有实时的动作和表情，都将很难实现真实感。

多模态实时动作表情生成是未来虚拟人发展的基础，也是AIGC的基础。

未来的虚拟人技术需要基于实时性。

从过去的一些技术应用来看，比如《阿凡达》的电影制作，采用的是非实时、离线的技术。

它的视觉呈现非常真实，但无法满足我们在虚拟世界中实时交互的需求。

多模态解决应用层面的问题。

我们从需求端出发，开放多种输入方式。

接收到输入信号后，我们利用AI生成所需的动作和信号，可以支持各种应用场景的需求。

阿里云：中科深知电商全平台AI虚拟直播带货产品——自动直播。

在终端上，你可以看到虚拟主播介绍产品并与观众打招呼互动。

从产品设计研发到实施，中科深智主要做了哪些工作？程伟忠：自播是中科智深开发的SaaS产品。

商家只需上传直播的产品文案、视频、图片，直播就会自动开始。

所有的动作和表情都是由系统生成的。

这个过程主要依赖于云服务。

据我了解，目前国内只有达摩院和中科智深采用纯云架构，大部分企业采用云+本地架构。

早期我们也采用了本地渲染、云端管理的架构，这样可以降低渲染成本和技术复杂度。

我们还发现了很多问题，比如系统升级问题，需要商家自行更新，否则会因为版本落后而降低体验。

面对商家反映的这些问题，我们开始开发纯云服务，主要面临技术挑战。

从虚拟现实技术到云计算的探索，我们与阿里云等云服务商合作研究解决。

另外，我认为虚拟人直播带货只是一个过渡阶段，也是整个元宇宙电商的一个预演。

从元宇宙的范围来看，市场需求不仅仅是虚拟人，还涉及大量的AI和XR需求。

如果商家想要使用直播，他的需求可能会变成虚拟背景。

针对这些细节场景的需求，中科深智也提供了相关产品。

如果是直播，您可以使用我们库中的虚拟背景或道具进行直播。

当这个功能满足了商家的需求时，他可能会进一步要求虚拟人一起直播。

因此，我们不能简单地理解为只能做虚拟直播。

其实需求还有很多延伸。

我认为这个市场是需求驱动的。

如果企业有需求，能够给他们带来生产力，我们就必须去做。

中科智深也在探索基于直播生态和用户需求实现“量不增价”的实现，控制渲染成本的同时增加更多实用的虚拟工具。

阿里云：对于企业来说，降低成本、增加利润是最重要的。

中科智深在这两端做了哪些工作？程伟忠：我认为目前虚拟人产品的成本主要集中在三大板块，即云服务、渲染、交互提升。

首先，从运营角度来看，主要关注的是渲染成本。

但根据中科深智的实际应用评测，采用纯云架构，商户可用的功能更多，但整体渲染资源消耗并没有增加。

，所以在实际运营过程中，核心成本仍然是云服务的成本。

另一方面，商家在使用虚拟人产品时非常注重交互体验。

以往厂商在提供交互服务时，大多使用动作库、表情库，容易产生僵尸的感觉。

随着市场的成熟，虚拟人越来越多地应用于线上线下的交互场景，对交互的质量要求也在不断提高。

因为在现实世界中，人们说话的时候，除了嘴巴动之外，四肢也会动。

缺少任何一个都会导致交互体验很差。

因此，很多商家都会遇到如何让交互更加理论化、丰富化的问题。

针对这些问题，中科深智提供实时交互动作表情生成技术解决方案，高效灵活地支持元界平台各类产品和服务，帮助企业实现更简单、更实用、更低成本的虚拟人驾驶。

阿里云：虚拟人背后的产业链是怎样的？中科深知在这里扮演什么角色？程伟忠：虚拟人产业链是围绕其发展过程而延伸和拓展的。

相对而言，早期建模相关的产业链已经成熟，而中期表达和动作生成以及后期渲染相关的产业链有待完善。

前期主要工作是创建虚拟人，由原画师设计，然后通过3D建模进行绑定。

中国3D动画已经发展了20多年。

全国大概有数以万计的3D动画公司和团队。

国内已经形成了非常成熟的产业链。

AI自动建模技术也随之兴起，但多应用于非专业和C端领域。

在中间阶段，产生动作和表情。

很多虚拟真人服务厂商都陷入了误区，尤其是一些从传统动漫行业转型而来的企业。

他们依托过去的动漫产业链，认为制作虚拟人只是一个3D模型，加上一些动作和表情。

这就导致了实际使用中无法与人、机器进行交互，这也是目前行业遇到的普遍问题。

随着2018年各种虚拟交互场景的增多，大家对这个问题的认识也会变得更加深刻。

我认为在虚拟人领域，要满足交互场景所要求的动作表情的时效性和质量，这是需要首先评估的。

技术理念需要改变。

捕获是一个传统的概念。

以往动画制作主要捕捉动作和表情。

但在元宇宙未来的应用中，捕获将是一种补充技术。

在公共场景中，只能生成，生成动作和表情的难度也不同。

在捕捉方面，动作捕捉比较容易，表情捕捉比较困难，而生成则相反。

人类的表达比动作更容易产生。

由于人的表情维度相对较少，动作又是在三维空间中运动，因此需要遵循人的运动规律。

因此，在训练算法模型时，需要对数据进行分类并进行强化学习。

目前的技术很难实现，但是我们可以针对一些主要场景做强化学习、强化数据集。

另一方面，必须强化大量约束。

阿里云：中科智深是如何训练这个模型的？不同场景的应用迁移有什么关键难点吗？程伟忠：我们目前使用一些生产数据进行基础训练，但随着算法精度要求的提高，我们很多数据都是专业收集的。

目前，动作和表达还不能像ChatGPT这样的语言那样在大规模数据上进行训练。

预计两到三年内，随着虚拟应用数量的增加和数据量的积累，可能会过渡到这样的大数据训练。

底层的人类动作逻辑是相同的，但为了在特定场景下实现更真实的交互，需要对微表情和微动作进行一些强化训练。

目前我们主要针对电商、广电、线下屏互动、娱乐等场景进行强化培训，基本覆盖了市场主流应用场景。

阿里云：目前中科深度智能主要应用在哪些方向？取得了什么进展？程伟忠：主要有两大板块，一是线下终端场景，二是APP。

先说线下终端场景。

中科深度智能创始人程伟中：用表情和动作赋予元宇宙“真正的活力”

很多线下终端场景都会放置一些交互屏幕，比如银行、医院等。

早期需要人们手动按下屏幕来操作，这对于一些不懂的老年人来说是困难的。

随着时间的推移，屏幕的灵敏度也会降低。

尽管近年来一些云交互模块已经得到应用，但在一定程度上仍然依赖于人工操作，所以使用的人很少。

另一个是APP。

很多APP也会设置2D虚拟形象，但也存在同样的问题。

无法完成复杂的交互，只能实现菜单的打开和返回。

利用虚拟人和AI可以帮助我们完成很多菜单交互。

我觉得明年或者后年，线上线下的互动场景将会成为一个潜在的市场，我们目前正在朝这个方向努力。

阿里云：中科深智的使命是创造通用的AI虚拟人，为虚拟宇宙赋予“真正的活力”。

这里有一个非常重要的词“通用AI”。

这让我想起了今年引起业界轰动的ChatGPT。

OpenAI推出的这款产品因其语言模型的成熟而被称为顶尖的聊天机器人。

那么回到中科深智的核心技术，实现通用AI虚拟人的关键是什么？程伟忠：动作表情的生成是人工智能中的一个独立领域，包括我们在内的国内几家公司已经在做了。

但大家的注意力都集中在绘图上，而不是3D生成上。

仅仅没有面部表情的模型是不够的。

对于我们来说，一家公司很难完成全部工作。

关键是外部合作。

我们的重点主要是虚拟人动作和表情的绑定标准化。

其他涉及算法、云??服务等的工作如果和阿里云等第三方服务商合作会更有优势。

阿里云创新中心简介阿里云创新中心将阿里巴巴技术、产品、业务的生产力转化为企业发展的宝贵动力，为科技型中小企业提供更普惠、更安全、更绿色的产品和服务。

规模企业。

，为中小企业在技术创新、日常运营、职业技能培训、资本对接、跨境海外扩张等方面提供全方位支持。

截至目前，阿里云创新中心已为中小企业提供了2亿双创云资源，服务超过1万名创业者和50万家小微企业，孵化了众多高成长创新企业。

研究数据显示，顶级公司估值超过1亿，每年估值增速超过35%。

站长声明

标签：

上一篇：凤凰卫视与中国移动签订长期合同，计划重新在主板上市

下一篇：“星云互联网”完成近2亿元B轮融资，华控基金领投，

解决工业领域信息安全问题，“木连科技”完成近亿元B轮融资

木连科技近日宣布完成B轮融资。本轮融资由华义创投领投，金额近亿元。据介绍，木莲科技成立于今年2月。是一家面向工业互联网、专注于工控安全产品开发和技术研究的国家高新技术企业。工业互联网安全和工业控制安全是近年来网络安全行业的投资热点。需求增长和政策引导是

06-17
健身房火爆持续，连宇健身获天使融资500万元

据投资界3月20日消息，另一家24H智能健身房连宇健身近日宣布获得天使融资1万元，投资方为七宝资产。据悉，本轮融资将用于智能设备和软件的技术研发升级以及品牌推广。　　连宇成立于2007年，店内的智能健身器材均为定制版，内置连宇自有智能芯片。可与手环、连玉健身APP、

06-18
成都卤菜品牌“火浩”获数千万元A轮融资，傲牛资本投资

投资界（ID：pedaily）10月8日消息，成都卤菜品牌“火浩”已完成数十轮融资数百万元A轮融资，投资方为傲牛资本，青通资本担任长期独家投资方。本轮融资将主要用于产品研发、品牌建设、供应链升级和渠道建设。 “火豪”2007年诞生于成都，希望做正宗、美味的卤制品。为了保证

06-17
中兴通讯控股子公司“金砖新科”获战略投资

投资界（ID：pedaily）消息，2019年3月12日，国内分布式数据库公司——金砖新科股份有限公司获得战略投资。中国移动投资公司出手，持有8.3%股份，成为公司第三大股东。中国建设银行、中国银行所属投资机构同步参与本次投资。金转信科是中兴通讯的控股子公司。其核心产品是

06-17
加速可再生能源部署，突尼斯计划到2030年建设3.8GW光伏系统！

据外媒报道，突尼斯政府近日表示，已制定目标，提高光伏发电在该国电力结构中的比重。到2020年，国家将发展光伏系统装机容量3.8GW。突尼斯工业、能源和矿业部长内拉努伊拉贡吉在近日举行的可再生能源发展研讨会上宣布了该国的光伏战略。突尼斯政府制定了加快电力结构多元化

06-08
智慧城市的核心——监控

当今的城市是有生命的实体。随着时间的推移，它们不断发展、壮大并变得更加复杂，但它们面临的许多最紧迫的问题仍然存在，例如改善公共服务和监控犯罪。与以前不同，城市管理者现在能够应用分析来解决这些问题。而监控将成为智慧城市的核心。这些技术有助于满足各种日常城

06-18
高通放弃联姻后，恩智浦斥资17.6亿美元携手Marvell

雷锋网报道，2019年5月29日晚，Marvell宣布将其Wi-Fi和蓝牙芯片组合业务出售给Marvell恩智浦17.6亿美元（现金）；该业务部门拥有约 30 万名员工，在本财年为 Marvell 创造了约 3 亿美元的收入，恩智浦预计今年收入将翻一番。两家公司表示，此次收购将于 2020 年第一季度完成

06-17
呼叫中心客服质检系统应用场景及案例分析

.wp-block-column h3{margin-left:0} 如今，为了提供更高效、专业的服务，很多企业都选择采用呼叫中心客户服务质量检验体系。检查系统。不仅提高了服务质量和客户满意度，也给企业带来了实实在在的商业利益。本文将通过具体案例分析来探讨呼叫中心客服质检系统在不同场景下

06-18
Gartner：中国大陆晶圆代工市场份额将升至全球第二位，仅次于台湾

近日，Gartner研究副总裁盛凌海向集微分享了中国大陆半导体产业发展现状及预测.com。他提到，大陆半导体企业目前仅占全球市场份额的6.7%。其中DRAM、微处理器、FPGA、GPU、NAND Flash等产品远远落后于海外，基本处于空白。从产业链各环节来看，大陆企业在EDA、IP核、设备

06-08
飞宝智能完成天使轮融资

投资圈（微信ID：pedaily）据11月4日消息，飞宝（南京）智能科技有限公司（简称飞宝智能）近日完成天使轮融资，投资方为合伙人有创投、资深再生资源专家和物流专家。本轮融资后，飞宝智能将加大市场推广和平台研发的投入，充分发挥资本的驱动和放大作用，通过市场化的方式，

06-17
“三餐有食材”再获数千万元A+轮融资

6月22日，“三餐有食材”近日完成数千万元A+轮融资，由中海投资领投紧随其后的是梅花创投投的。本轮融资是三美收里半年内完成的第三轮融资。前两轮融资由梅花创投和英诺天使基金投资。

06-17
并购基金七大投资主题

并购基金的概念在国内提出已久，但成功案例的并购基金还很少。这部分是由于并购投资项目的周期所致。好的案例需要很长时间才能出现；另一方面，也与国内大部分并购基金刚刚起步，很多还没有找到真正有效的玩法有关。　　接下来我将讨论并购基金的国内外比较、并购基金的七

06-18