阿里影业正式成为阿里巴巴集团子公司,未来将加速业务整合
06-17
IEEE x ATEC IEEE x ATEC技术分享会是由专业技术学会IEEE和前沿技术探索社区ATEC联合主办的技术沙龙。
邀请业界专家学者分享推动数字化发展的前沿探索和技术实践。
在社会数字化进程中,随着网络化、智能化服务不断深入,服务衍生的各种风险也不容忽视。
本次分享会的主题是《网络欺诈的风险与对抗》。
五位嘉宾将从不同技术领域、不同角度分享网络诈骗场景中的风险及应对措施。
以下是王亦洲教授的讲话。
演讲者|王亦洲,北大博雅特聘教授,前沿计算研究中心副主任,ATEC技术经典高级顾问委员会专家《基于对抗博弈的主动跟踪算法研究》 大家好,我是来自北大的王亦洲。
今天我主要介绍如何构建多智能体博弈机制来实现鲁棒的主动目标跟踪。
具体来说,我将简要介绍主动目标跟踪任务和虚拟环境等前期工作,然后重点介绍主动目标跟踪的四种多智能体博弈机制。
主动跟踪简介主动跟踪是日常生活中比较常见的现象和技巧,比如自动驾驶跟车、无人机跟踪天空中的某些目标、视频监控时锁定某些目标、云台摄像机跟踪动作等。
在计算机视觉领域,主动跟踪也是一个比较前沿的研究课题。
但要真正实现主动目标跟踪,你会遇到很多不同的挑战。
例如,在录制一些惊险的特技镜头时,摄影师不仅要把镜头对准演员,还要同时适应复杂的地形环境,调动肢体跟随演员。
技术难度可能比演员表演特技还要高。
而且整个过程中,从感知到行动,都需要非常快速、准确地执行。
然而,这对于目前的机器人来说几乎是不可能完成的任务。
为了真正实现复杂场景下的主动目标,我们的模型需要适应多样化的工作环境(包括不同的天气和光照条件);它还必须克服障碍物遮挡(即避障)。
例如,当遇到障碍物时,我们需要找到绕过障碍物的最短路径;还必须克服动态干扰因素的影响,避免混乱。
如果是多摄像头跟踪场景,还需要考虑如何实现高效的多智能体协作。
这些是主动跟踪的一些挑战。
传统上,主动跟踪分为两个部分。
一种称为被动跟踪器。
该算法首先根据边界框的移动锁定输入图像中的目标对象,例如以边界框的形式,然后将其输入到控制器。
在里面,调整相机的移动。
我们提出的方法是端到端跟踪方法。
输入图像序列并直接输出动作。
感知和决策可以同时优化并相互适应,相应的中间表示也会更加紧凑。
为了训练这种端到端的感知决策网络,目前有两种流行的方法,一种是模仿学习(IL),另一种是强化学习(RL)。
模仿学习样本的效率会更高,但需要引入专家数据进行训练,数据分布难免会出现偏差,模型的泛化能力会比较差。
对于跟踪模型来说,模型的泛化能力至关重要。
因此,我们使用强化学习。
我们只需要设计一个简单的奖励函数,机器人就可以通过自主探索环境来通过试错来学习技能。
构建有效的虚拟环境当我们让机器人在一个场景中移动时,如果是真实的场景,由于机器人的成本较高,机器人在场景中移动时可能会造成一些损坏,并且增加实验的负担也比较大,所以成本非常高。
我们建议构建一个机器人可以主动学习的 UnrealCV 虚拟环境,从中我们可以获得高度逼真的视觉观察、准确的地面实况和实时交互,包括多智能体交互。
该项目已开源。
因为我们日常生活中的环境是多变的,所以日常环境的一些变化都可以在近乎真实的环境中模拟出来,不仅是室内,室外,室外天气的变化,室内光线的变化,各种环境的变化。
外观、各种纹理,甚至物理属性都可以调整。
在虚拟环境中,你不仅可以学习地球上的物理,甚至还可以学习火星和月球上的物理。
因此,虽然这种近乎真实的环境可能是对真实环境的建模,某种意义上是简单的,但它实际上具有更丰富的潜力,可以更多地改变环境,让机器人能够适应各种情况。
这种改变可能会让在这里学到的技能变得更加通用。
因此,我们认为机器人或智能体所处环境的复杂性决定了它最终训练的智能水平。
下面我将简要介绍一系列将认知心理学的一些机制引入到主动跟踪场景中以提高跟踪器的跟踪水平的工作。
我介绍四类工作:一是逐一跟踪;二是跟踪。
第二个仍然是一一对应,但是会有一些与目标非常相似的干扰;三是多摄像机跟踪一个目标;最后一种是越来越多,比如N个摄像机,M个目标物体。
一对一跟踪策略首先引入一对一。
在《一与一》中,我们介绍了心理理论,一种心理学机制。
它是人类认识他人心理状态的能力。
例如,当我与他人交流时,我能够知道对方的信念、意图,甚至他的知识。
有了这个能力,就可以帮助多Agent代理提高通信效率。
我们将这种机制应用到主动跟踪的过程中。
这里的目标和跟踪器是两个相互竞争的代理。
目标的任务是逃跑,逃离追踪者的视线;跟踪器必须始终锁定目标,两者就成为游戏对。
我们在这里引入了心理理论来创造一个更聪明的逃亡者。
它不仅可以根据所看到的环境选择路径,还可以了解跟踪者当前观察到的一些场景,并猜测跟踪者的策略。
它是什么。
也就是说,我在心里猜测你会如何跟随我。
通过在追踪游戏中引入心理理论,我们希望训练Target拥有更好的逃跑策略。
因为逃亡者和追踪者的能力都是从头开始同时成长的,所以逃亡者和追踪者的能力在学习过程中会有所起伏。
这个博弈机制是不对称的,因为我们的最终目标是训练跟踪器,所以我们会围绕如何训练一个更适合跟踪器学习的目标模型来改进我们的对抗机制,包括奖励函数结构和目标的模型设计。
要实现竞争机制,最关键的是设计奖励函数(Reward Structure)。
一般来说,纯对抗性竞争的奖励函数是零和奖励结构。
但如果是零和游戏,目标一开始就会跑得很远,这会导致跟踪器的学习效率降低。
因此,我们认为当目标移动到观测范围之外时,会在原来的基础上增加一个额外的惩罚项。
惩罚项的值取决于目标与跟踪器观察边界之间的距离。
为了使目标能够学习有针对性的对策,我们进一步提出了跟踪器感知目标。
其设计思想是《孙子兵法》中知己知彼、百战不胜的思想。
从认知心理学的角度来说,就是了解和估计对手的心理状态/意图。
只要你比对手多思考一个层次,你就能找到有效的对抗策略。
例如,当跟踪器根据图像估计目标正在从屏幕中心向左移动时,它就会倾向于向左转。
如果我们的目标此时能够多思考一步,能够想到跟踪器左转的倾向,那么它就能反过来输出一个右转的动作,这样就会导致跟踪误差增大。
在具体实现中,除了目标自身的视觉观察之外,我们还允许目标获得跟踪器的额外观察和动作输出作为模型的输入。
我们在这里还引入了一个辅助任务,即预测跟踪器的即时奖励值,以隐式建模跟踪器的动态特性。
我们将这种算法放入近乎真实的虚拟环境中,包括城市环境、雪村、地下车库、花园和城市街道,随后发现,虽然我们是在不真实的虚拟环境中进行训练,但它转移到了近乎真实的虚拟环境中。
在真实的虚拟环境中,仍然可以很好地跟踪目标物体。
一对多的跟踪策略仍然是一对一的跟踪,但是有了扰乱者的参与,就形成了一对多的博弈机制。
例如,在一场足球直播中,追踪器将司线裁判的光头误认为是足球。
同时,我们在实验中发现,现有的SOTA模型也非常容易被场景中的相似物体误导和混淆,最终导致跟踪丢失。
针对这个问题,我们提出了混合博弈解决策略,其中包括Target和Tracker之间的竞争关系,以及破坏者和Target之间的合作关系,即他们必须合作欺骗Tracker。
在奖励方面,目标和追踪者可以是零和游戏,也可以是前面介绍的混合奖励结构; Distractor和Target之间形成合作策略。
Distractors的奖励是能否吸引Tracker的注意力并移动到Tracker视野中相对中心的位置。
距离中心越近,追踪器就越能识别出它是目标,此时获得的奖励就越高。
因此,在这种奖励结构下,我们训练跟踪者、目标者和干扰者,每个人都有自己的策略。
我们使用两种训练方法。
一是首先在抽象环境中训练元策略。
有了这个元策略之后,它就充当了老师的角色。
这时,我们引入视觉输入来训练学生如何在真实的视觉环境中进行跟踪。
。
这时,学生的跟踪策略应该接近老师的Meta Policies策略。
我们用K-L散度来描述它们的差异。
我们需要最小化这种差异。
通过这两个训练过程,我们最终可以训练出三个角色的策略。
我们发现在训练过程中,出现越来越多的干扰现象。
也就是说,干扰者参与干扰的程度越来越高,干扰能力也越来越高。
在这个过程中,随着干扰的增加,一些SOTA或者一些现有的先进方法的性能会下降。
我们提出的方法的性能受干扰的影响较小。
在混合博弈下,最终训练出来的Tracker比现有的一些方法有明显的优势。
多对一跟踪策略是由多个摄像机跟踪一个目标。
这种场景通常发生在视频监控场景中。
该场景中有可疑人员或目标人员。
我们在大场景下布置多个摄像机。
场景非常复杂,容易出现此类障碍。
它可以利用这些障碍物来隐藏。
这时候可以多摄像头使用吗?切勿将其扔到相机下方。
这里引用一个心理机制,叫Herd mentality,就是从众心理。
当一个人在人群中做出决定时,往往会受到大多数人的干扰,从而产生从众心理。
如果我们在这个环境中布置四个摄像头,如果三个摄像头能够相对较好地看到目标,即使其中一个摄像头当前由于遮挡而看不到目标,它仍然可以根据其他三个摄像头的指向看到目标。
该摄像机的角度瞄准他们所指向的位置。
此时,当Target出现时,可以快速恢复跟踪,从而提高整个系统的跟踪稳定性。
针对这种情况,我们设计了一个模型。
有两种跟踪模式,当目标可见时使用基于视觉的跟踪。
如果看不到,则跟踪器指向的位置将根据其他相机的位姿指向的位置来确定。
有一个切换器决定使用哪种跟踪模式。
我们将其部署在这个环境中,发现跟踪效果非常好。
多对多跟踪策略最后我们看一下多摄像机跟踪多个目标的模型。
它实际上解决了覆盖问题。
例如,当四个摄像头需要跟踪六个物体时,它们可以在有限的资源下最大程度地覆盖该物体。
我们这里采用的机制是层级机制。
在社会结构形成的过程中,有的是领导者,有的是略处于底层的执行者。
这种层级机制可以将复杂的任务进行结构性分解,具有分工明确、决策合理、权责明确的优点。
因此,我们考虑利用这种机制来设计一个可计算的多智能体分层模型。
该框架主要分为两层,包括一个集中式协调器和多个分布式执行器。
运行时,协调器收集各个执行器的观测信息,进行全局规划,为各个执行器分配具体的任务目标,即指定需要跟踪的具体目标;每个执行器被分配了特定的任务后,它通过采取一系列基本动作(即左转/右转/保持原样)来完成指定的跟踪任务。
然后重复这两个步骤。
这样,目标覆盖问题将分解为不同时间尺度的两个子任务,即目标分配和目标跟踪。
此时协调器和执行器都可以直接使用目前流行的单智能体强化学习方法进行训练优化。
这里,协调者的团队奖励取决于覆盖范围;每个演员的奖励仅与摄像机和指定目标之间的角度偏差有关。
为了实现可扩展和通用的层次结构,我们仍然需要克服两个挑战:1)对于协调器来说,它需要能够灵活地处理可变数量的传感器和目标之间的分配,因为相机网络和目标不同场景下的分布会发生变化。
有一个很大的不同; 2) 对于表演者来说,一个人需要能够在给定任何目标组合的情况下表现良好。
就像军队里的士兵必须无条件服从上级命令,执行任务一样。
为此,我们采取了一系列实用方法来应对这些挑战,采用自注意力模块来处理可变长度输入并获得独立于输入顺序的状态表示。
为了更好地估计全局值,我们近似每对传感器-目标分配的边际贡献(AMC),以更准确地估计和分解全局值并指导协调器。
了解更高效的分配策略。
对于执行器,提出了基于目标条件的过滤器,去除与指定目标无关的观测信息,从而提高执行器策略的鲁棒性。
考虑到训练的稳定性,整体训练策略采用两阶段逐步训练的方式。
对目标集进行采样并生成伪目标来训练执行器策略;然后使用现有的执行器策略来训练协调策略。
这避免了协调者和执行者一起训练时不可避免地进行探索的随机性所导致的训练不稳定。
最后,我们还将心智理论引入到这项工作中。
我们将这种猜测和协商的机制称为ToM2C(面向目标的多主体通信与心理理论合作)。
为了解决一个问题,给定输入后,我们通过融合其他人的输入来猜测其他人想要跟踪的目标,然后选择性地与目标不一致的对象进行通信,最后在决策者模块中决定跟随谁。
该策略最终取得了非常好的跟踪效果。
总结:我们结合心理学和博弈论的认知机制来解决主动跟踪问题,一系列的工作取得了比较好的跟踪效果。
至于长远目标,我希望融合机器人学、博弈论、信息论、社会心理学等领域的知识,最终打造出一个多功能、协作、有温度的通用机器人,服务于人类社会的发展。

我的报告到此结束,谢谢大家。
阅读原文,转载自雷锋网。
如需转载,请前往雷锋网官网申请授权。
听,中小企业反馈平台倾听用户的需求,倾听企业家的声音,解决中小企业的痛点。
点击立即参与调查并获得礼物。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-17
06-18
06-17
06-18
06-17
06-21
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态