看新视野NO.06|金沙江周奇:科技投资者要坚持长期潜伏,善于把握技术成熟度
06-18
虚拟现实 (VR) 技术的目的是提供身临其境的体验。
然而,到目前为止,不说无法模拟的嗅觉和触觉,就连在 VR 中能够体验到的音频也并不如视觉上的完美。
相信体验过一些VR设备的用户会发现VR中的音频失真度比较高。
这些问题在这一年里都得到了认识。

然而,为什么即使有解决方案,模拟真实的 VR 音频仍然如此困难呢?以下为北卡罗来纳大学教授学院主席、IEEE院士林明春在国际数字感知大会上的演讲节选。
为了便于理解,适当增减了一些内容:VR视频有所改进,声频仍处于80年代的水平。
袁昱博士刚才也提到了有跟踪和延迟的问题,还有一个问题是如何创造体验并捕捉它。
很多人都没有解决这个问题。
另外就是人与VR环境的交互。
目前,VR/AR领域已经开展的很多研究都是关于如何显示——视觉显示。
然而,触摸是一个非常具有挑战性的话题。
我们的皮肤可以传达感官,但如果你想知道如何采样,你可能需要运行数千次。
那么这个标准是什么呢?它可以由许多计算机进行预算。
我们尝试了不同的设备。
在这个研究领域,如果你是开发者或者研究人员,你会受到启发去研究这个领域,但是如果你是物理学家,你就会知道这是一个非常困难的问题。
今天我要详细讲的是,我们在VR中的音频实时渲染不是很好。
VR视频已经进步,但声频仍停留在20世纪80年代的水平。
在VR中,当位置不同、障碍物不同时,声音也不同,但目前我们还没有与声音进行交互。
在VR系统中体验某些内容时,有声和无声的体验有很大不同,这意味着沉浸感是否深浅。
想象一下,当我们处于交互式VR环境中时,我们如何使用录音来创建效果? ——声音控制在哪里?如果您在观看视频时没有听到声音,您将不知道发生了什么。
VR也是如此。
如果您听不到声音,您将不知道发生了什么。
为了保证AR环境中的视觉保真度,动态图像必须以每秒20-30帧的频率刷新。
单位时间的刷新率赋予图像一维时间信息。
为了实现声音和图像更好的信息融合,声音的三维方位信息必须与图像显示的三维信息融合,图像的刷新时间必须与图像显示的时间信息融合。
声音。
重要的是,我们人类想要感知这个声音,也就是我们在生理层面感受空间中的声音时,怎样才能得到实时的感觉呢?如果声音无法实时渲染,依靠外部配音,那么实际的声音轨迹只能是固定的2D效果,而不能让我们区分声音的来源和让声音像现实一样的材质,就是,当视频画面可以移动,但配音中的声源是固定的,这就大大降低了VR系统中的真实感。
另一方面,通过配音,不可能100%模拟每个场景中可以产生的声音。
例如,当木材、金属、流体等一系列复杂元素交叉碰撞时,模拟配音只能粗略地完成;并且,在虚拟空间中,声音的传播会穿过墙壁等一些障碍物,因此无法模拟配音。
所有这些造成的问题是高失真。
最后,如果每一帧的声音都需要外部模拟和匹配,那么数万帧的内容将需要庞大的配音工程。
更大的问题是,耳朵的形状实际上决定了每个人听到的声音都是不同的。
因此,我们要做的就是依靠算法根据人体生理状况,实时自动渲染生成场景中的声频。
它需要建模、建立音频数据库、建立算法。
难以捉摸的解决方案声音模拟的目的是使用计算机生成的声音来接近真实世界的声音。
从频域角度来看,两者的频谱分量相当接近。
现实世界中的任何声音都可以被视为具有独特幅度和相位的许多正弦波分量的混合。
声音的建模可以理解为声音的频谱分析。
我们先来了解一下声音传播的数学函数和几何方面是如何表示的:在模拟声音时,需要使用方程来计算声音传播的压力波,它是欧姆的四次方——这是一个非常高的频率,需要超级计算机要完成计算需要数倍升级的CPU。
例如,在教堂中,会使用不同的材料来模拟内部分散的声音,它们会有不同的吸收率。
因为材料的品质有本质的不同,不同的材料会有不同的效果。
模拟应该如何进行?以流体声音为例,目前的计划是用很多材质与一缸水碰撞,然后捕捉这些单点水滴的声音材质,并将其转换为代码。
那么在未来出现的新环境中,计算机可以利用算法将不同的材质合成为适合场景活动的声音。
其作用可以被认为是声音克隆。
有了这样的模拟能力,VR就可以让用户在水中进行互动。
否则,用户在VR中游泳根本没有感觉。
推而广之,不同的材料可以用来模拟不同的声音,而模拟万物也需要大量的材料。
又比如,当一颗珠子落在木板上时,根据珠子的大小、形状、速度和质量的不同,发出的声音也不同。
然后根据过去收集到的声源素材自动合成声音,比如各种木材的碰撞,铁块和木块的碰撞等。
因此,我们面临的困难有两个层面:第一个是基础建模的难度。
我们有大量的声源对象需要建模;二是基于模型生成声音的算法难度较大,需要复杂的逻辑和庞大的计算量。
数量。
目前我们能做的就是水流、滚珠轴承等少数型号。
另外,在模拟环境中,为了时刻观察运动的实体,计算机生成的图像对应的视点必须能够像电影镜头不断放大一样实时切换,实现声音的良好融合和图像一样,听点应跟随视点的变化。
在头部跟踪中,听音点的实时切换是非常有必要的。
当头部姿势发生变化时,为了保证生成的虚拟声源的位置保持静止,必须反向切换相应的头部脉冲响应函数。
不过,可以说,所有这些物理声音都可以通过模拟来一一生成。
我们可以利用这个技术来获得多渠道的交互,所以这是一个多模态的交互。
该技术的研究已经在进行中,将是未来突破的重点和难点。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态