职业教育品牌“成拉教育”获6600万Pre-A轮融资
06-17
10月18日,火山语音首位超现实数字员工小灿正式登场。
在最新发布的品牌TVC中,小灿以虚拟产品经理的身份加入了火山之声团队。
刚刚步入职场的小灿就和普通的新人一样。
他还将为能否顺利加入这份工作而挣扎。
入职第一天他也将整装待发,对美好的实习生活充满期待。
TVC中的她阳光可爱,在日常职场中与同事们并没有表现出任何不服气的样子。
她在开会的时候会紧张,她希望自己的成长能够得到大家的认可和重视。
在短短的一分钟短篇故事中,她展示了虚拟数字人丰富的情感世界,直观如眼前。
据了解,小灿由霍山之声与朝夕光年江南团队联合打造,其形象融入了艺术美感。
无论是从数字人的外观和动作,还是到面部微表情、皮肤纹理,甚至头发材质的细节,都具有高度的真实感。
随着小灿的发布,霍山语音团队具备了为3D超写实数字人物制作一整套图像设计、资产制作、高成本影视级CG管道视频内容的能力。
从外部的制作能力到内部的数字人AI驱动来看,火山语音团队都拥有最先进、领先的技术储备,比如AI驱动的口型方向。

该团队采用业界领先的非自回归模型唇形生成网络合成与输入文本或语音完全匹配的唇形,准确率高达 98.55%。
在AI驱动的动作层面,团队基于创新的Motion Blening技术,可以在切换动作时生成过渡帧,让数字人在各种动作切换时不仅能实现毫秒级的切换,还能拥有自然的动作切换效果。
和难以察觉的平滑效果;另外我们还对AI表情与嘴型联合建模、基于语音语义的动作生成,即协同语音技术进行了前瞻性的预研工作,并取得了阶段性成果,这些成果将全部应用于数字真人视频创作、互动和直播等场景。
值得一提的是,此次发布的超写实数字人还拥有“一音频秒级音色再现”技术(零镜头TTS),可以实现真人音色、说话风格、声学环境等的高保真再现。
其他特征。
基于完全自主研发的核心技术架构,关键指标保持行业前列。
此外,节奏模块基于大型自回归GPT模型。
目前训练数据超过20万小时,架构具有高度可扩展性。
未来预计支持超过10000小时的数据训练;模块支持语码转换,即无论提示是中文还是英文,都可以支持直接输出中文、英文及混合内容。
原创音频生成-中文效果生成-英文效果现在霍山语音团队已经建立了包括2D、3D卡通、3D超写实等在内的虚拟数字人产品矩阵,涵盖“广播数字人”和“互动数字人”其中,广播数字人可以通过输入文字或语音生成自然、生动的数字人广播视频。
互动数字人作为广播数字人的升级版,依托霍山语音长期积累的成熟语音交互技术。
它可以“善于听”、“善于说”、“会思考”,可以与用户进行面对面的实时互动。
“交互式数字人集成了全双工语音交互链路,前向兼容语音和文本输入,后向兼容2D和3D数字人表现力。
整体端到端交互时延在ms左右,性能先进。
”团队总结道。
路。
今年6月,火山引擎虚拟人数字平台获得信息通信研究院首批数字人系统基础能力认证。
在“实时高保真孪生数字人关键技术研发及应用示范”项目建设中,霍山语音团队凭借行业领先的AI语音技术和全栈语音产品解决方案能力参与该项目的第三个课题“实时高保真孪生数字人”“人类通用开发平台”正在建设中,正在与江南游戏工作室合作,打造支持定制、适合各类场景的数字人智能“对话”系统。
融合交互理解、智能对话管理、智能驾驶三大模块,满足多种场景需求。
实现多模态交互对话。
霍山语音技术支撑的虚拟数字人始终聚焦于播音、互动、直播三大核心领域。
通过火山引擎,面向金融、汽车、传媒等多个核心行业,提供涵盖“金融客服”、“智能导航”等领域的服务。
、“智能助手”、“虚拟直播”等场景细分解决方案,并可落地于内容制作、视频直播、车载环境等众多场景,为用户带来全新的交互服务和专业的智能体验。
雷锋网(公众号:雷锋网)雷锋网版权文章未经授权禁止转载。
详情请参见转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-06
06-21
06-08
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投