小鹏汽车宣布完成C+轮近5亿美元融资,高瓴、红杉等投资
06-17
在竞技手游中与6亿用户竞争:专注于复杂游戏中的多智能体游戏。
2019年11月,全球首届“AI《球球大作战》:Go-Bigger多智能体决策智能挑战赛”正式拉开帷幕。
作为面向全球技术开发者和在校学生的技术大赛,本次大赛旨在促进决策智能相关领域技术人才的培养,打造全球领先、原创、开放的决策人工智能开源技术生态。
借竞赛之际,雷锋网&人工智能科技评论采访了本次竞赛的核心设计团队成员刘宇和周航。
其中之一是商汤科技研究总监,他也是OpenDILab项目的负责人;另一个是前星际职业选手iA。
目前在商汤决策智能游戏AI团队担任高级职务的研究员,通过不同的路径达到了同一个目标。
他们如何通过“博弈×决策”的方式走到一起,他们会对高手什么样的“策略”更感兴趣?除了现实之外,还有另一个世界,那就是游戏世界。
它将世俗的智慧、弱者与强者、爱情与忠诚的背叛、策略与计划都转移到一个狭小的空间里。
成功和名声都在令人钦佩的时刻。
游戏以无边无际的世界来诠释人情的酸甜苦辣。
古人封蛊王,今封人工脑王。
科学技术的进步让对抗的秘密浮出水面。
现在这个竞赛被命名为Go-Bigger多智能体决策智能挑战赛。
本次大赛由OpenDILab主办,上海人工智能实验室作为学术指导,商汤决策情报团队、巨人网络等多家机构联合打造。
受巨人网络自主研发的超人气休闲竞技手游《球球大作战》的启发,多方联合推出全球首款AI版本《球球大作战》。
Go-Bigger 游戏环境:用“学术游戏”来形容它。
“从赛事组织各方来看,Go-Bigger的学术价值非常明显。
它由上海人工智能实验室学术指导,商汤科技、巨人网络、上汽集团人工智能共同主办。
该实验室由世界各地高校主办,由人工智能学术联盟、浙江大学上海高等研究院、上海交通大学清远研究院共同主办,并得到OSCHINA和Deep的支持。
强化学习实验室。
从行业出发,聚焦底层技术,进一步整合各大大学和实验室,其实是商汤的原创基因。
1、做大竞争决策策略 周航和刘宇都说过,“门槛”。
大型游戏的时长很低,但上限很高。
”与 agar.io 和《球球大作战》 等热门游戏类似,Go-Bigger 中每场游戏持续十分钟。
大球吃掉小球以获得更大的重量和体积,但同时又必须避免被大球击败。
球被吃掉了。
当球达到足够大的尺寸时,玩家(AI)可以将其分裂或融合,并与同伴完美配合,输出游戏策略。
每个队伍需要与其他队伍进行比赛,总重量较大的队伍获胜。
Go-Bigger游戏环境演示图 游戏中有克隆球、孢子球、食物球、荆棘球四种类型的球,挑战不同的决策路径。
克隆球是游戏中玩家控制移动或释放技能的球。
它们可以通过覆盖其他球的中心点来吃掉比自己小的球。
孢子球是由玩家的克隆球产生的,会保留在地图上并可以被其他玩家吃掉。
食物球是游戏中的中性资源,其数量会保持动态平衡。
如果玩家的克隆人吃了食物球,食物球的重量将转移到克隆人身上。
荆棘球也是游戏中的中立资源,其尺寸较大且数量较少。
如果玩家的克隆球吃掉了荆棘球,荆棘球的大小将转移到克隆球上,并且克隆球会爆炸并分裂成多个(10)个克隆体。
此外,玩家可以通过吃孢子球来移动荆棘球。
克隆球 孢子球、食物球 荆棘球 此外,Go-Bigger 还包含一系列类似于《球球大作战》 的游戏规则:球的重量越小,移动的速度越快;更多的克隆可以快速发育,但其自身重量分散,有被吃掉的危险。
每个玩家的总重量会随着时间的推移慢慢衰减。
重量越大,衰减速度越大。
在战斗阶段,分裂的玩家需要尽快将球组合起来。
因此,同队中不同球的配合尤为关键。
同队球员不会完全吞掉球(保留最后一个球)。
由于这样的规则设定,球球在不同的发展阶段有不同的策略。
在球发育的早期阶段,球太小而无法分裂。
它吃食物完成原始积累,同时防御被吃掉,从而催化团队合作——多球行动。
比如,当你吃饱了,达到了克隆人的等级,你就可以把克隆人喂给队友,只留下一个。
你和你的同伴将完成第一次原始积累,增加团队的整体权重。
随着大家争先恐后地完成原有的积累,游戏进入了中期阶段。
防御转进攻,秘密斗争转公开斗争。
此时,无论是持久战还是速度战,是先灭大还是先灭小,无论是统治画面轻骑兵进攻再复制,不同的策略组合都会将游戏推向高潮。
高潮。
克隆人背后的距离、方向、速度和密度成为胜利的关键。
攻击策略之一是先杀小虫,再攻击大虫。
大球先攻击未发育的球,合成大球。
然后它寻找稍弱的大球,判断距离,快速接近分身,靠近后再合体将其吞噬。
经过几轮比赛,大球进入了排行榜榜首,为接下来的决战做准备。
随着比赛进入后期,战场上剩下的玩家不多,实力相当的决战成为赛点的关键!首先,大球移动得很慢。
选择合适的时机分头出击、快速出击、联合杀敌,已经成为大球球员们默契而隐秘的自我保护方法。
你死我死,弱肉强食,这就是生命的法则。
但与此同时,另一种战斗机制——自毁——被触发。
大球的重量不是静态的,但它的减重速度非常快。
重量衰减率为每秒千分之二。
于是,比赛进入下一阶段——保持主队的优势,其他球队的反击。
由于霸屏团队减重速度非常快,如果只是采用常规的攻击方式,增加的体重往往无法抵消减重的影响。
同时大球移动速度非常慢,攻击效率很低。
大多数大球队都会采用多克隆模式进行进攻。
因为已经是占优的队伍,即使有多个分身,其他队伍也往往无法对多个分身构成威胁,所以大球往往会以比较高的速度横扫出去。
看决战的气势,是否是大球燃烧心中之火,击败身体;或者是化身寻求胜利而吞噬一切,往往并不如人所愿。
交锋的同时,战斗时间已经所剩无几了。
此外,还有不少小球躲在暗处,酝酿反击,并在最后阶段扭转局势。
这并不新鲜。
可爱的小球里,暗流着规则和游戏。
周航回应说,这就是为什么Go-Bigger的门槛很低,但上限却很高。
“游戏环境非常简单直观,因为大家都玩过类似的游戏,比如《大鱼吃小鱼》、《剪刀石头布》、《围棋》等,它们都有非常直观的名字,并使用简单的环境系统来构建游戏场景。
但他们更重要的是,Go-Bigger涉及多个智能体的合作和对抗,这将导致更高的决策复杂性”2。
如何设计游戏环境。
人工智能已经广泛应用于感知优化场景,但我们希望模型具有真正的准确性。
一些需要决策的场景需要将智能化落地。
游戏是决策智能(DI)的天然训练场。
如果把游戏环境比作一个小社会,那么不同的游戏角色就是生活在其中的人类。
只有人类数量足够多,才能体现群体关系,进一步模拟人类社会的生活图景。
因此,复杂博弈中的多智能体博弈成为推动决策智能发展的关键。
Go-Bigger 涉及多智能体博弈,不可避免地涉及权衡同一团队中的个体行为和合作行为、不同团队之间的合作与竞争,以及与其他智能体表示和交换环境信息。
然而,从头开始实现上述算法和训练过程是非常复杂的。
决策智能框架DI-engine大大简化了设计流程。
它已经集成了支持多智能体的DQN算法实现和一系列相关的专有技术,以及玩家与自己和机器人对战的训练组件。
只需要实现相应的环境封装、神经网络模型和训练主函数即可。
此外,Go-Bigger支持RL环境并提供三种交互模式。
为了帮助用户学习强化学习领域的多智能体策略,Go-Bigger提供了一个符合gym.Env标准的接口供用户使用。
在游戏中,Go-Bigger 的默认设置包含 20 个状态帧和 5 个动作帧。
每个状态框架都会模拟并处理当前地图中所有单位的状态,而动作框架会在此基础上对单位添加动作控制,即改变单位的速度、方向等属性,或者使单位能够分裂或发射或停止等技能。
为了更方便地探索环境,Go-Bigger 还提供了必要的可视化工具。
与环境交互时,可以直接保存游戏的视频,包括全局视角和每个玩家的视角。
此外,Go-Bigger提供单人全局视觉、双人全局视觉、单人局部视觉三种人机交互模式,让用户快速了解环境规则。
单人全局视觉、双人全局视觉、单人局部视觉的可视化不仅方便用户设计智能体的决策路径,也为智能体的决策演化提供参考。
目前基于强化学习等方法的决策智能主要是学习从“状态”到“行动”的映射,距离可解释、因果、交互的决策还很远。
但游戏本身的可视化形式会直接展示智能体的策略。
整个游戏环境的搭建不仅涉及大的封装模块,还涉及小的动作设计。
刘宇表示,我们在设计这个引擎时,不仅要考虑它是否有趣(可视化、难度低),还要考虑它对研究人员是否有用(动作模糊性、公平性)。
在复杂的博弈环境中,如何做到公平,保证所有智能体从同一起点进化,进化出最多的决策路径?除了球后参赛者惊人的勇敢之外,还必须有一个公平的评价系统——天梯系统。
参赛者只需根据比赛提供的接口提供每一帧中代理的动作,最后提交代码和相关模型或文件即可加入测试天梯。
OpenDILab团队将利用参赛者提供的环境和代码,对指定比赛进行模型测试,并决出最终获胜者! 3.决策情报研究刚刚开始。
在Go-Bigger游戏中,设计了球与时间、生长加速、分裂、消失、下降等约束。
事实上,它们广泛存在于现实世界中,例如人类生命周期和微生物学。
细胞免疫等。
天然具有高度的社会适应性,这是利用游戏进行决策智能研究的优势。
刘宇表示,Go-Bigger 项目只想做好一件事,那就是打造一款类似于 Ball Fight 和 AGAR 的家喻户晓游戏,让每个人都能先将游戏 AI 和决策智能连接起来,人们就能得到开始了。
“Go-Bigger 现在希望做的事情其实和 CV 领域的 ImageNet 非常相似。
”过去十年来,计算机视觉一直是最热门的领域。
但 CV 是如何发展的,“它实际上是开源了一个更大的数据集。
“在 ImageNet 竞赛之前,数据集非常小,研究员很难定义行业真正需要的算法问题,”刘宇说。
然而ImageNet的推出给当时的技术带来了挑战。
随着GPU计算能力的提升,越来越多的人涌入CV领域,导致了当前深度学习+计算机视觉的蓬勃发展。
“现在大多数决策智能领域的工作者很难获取像《星际争霸》和《DOTA2》这样的资源。
在相对理想的小数据集和模拟环境中进行实验并发表论文是学术研究的常态。
”而决策智能的走向在于两个方向:训练平台和仿真环境。
我们希望在保持现有资源可访问性的同时,让决策智能更加贴近真实场景,并逐步在行业内推广更多的开源平台。
”刘宇表示。
决策智能的研究才刚刚开始,第一是数据问题,第二是标准化问题。

目前决策智能的标准化问题有三部分:一是决策智能的标准化问题。
环境观测的标准化,另一个是动作空间的标准化,“CV标准化做得很好,因为它里面的所有数据都可以用非常规则的张量来表示,比如PyTorch和TensorFlow。
“但在决策智能领域,会涉及到多模态输入,比如空间信息(Spatial info)、实体信息(Entity info)、标量信息(scalar information)。
”困难在于统一所有信息模态转化为一个数据。
格式。
”刘宇说,“目前的一些方法是将各种模态的数据统一到一个编码器中,以便它们可以映射到相同的观察空间。
“一旦我们有了状态空间,我们就需要决定采取什么动作。
例如,强化学习领域的很多算法很难同时支持离散和连续的动作空间。
在真实场景中,有更复杂的动作空间,比如相互依赖的动作空间、序列动作空间、不相关或违反马尔可夫链性质的动作空间。
“我们希望通过算法设计一个新的头部(决策智能训练网络的头部)。
后期我们只需要做一些插件的工作,它就可以适配几乎所有的算法。
” “第三块是算法的标准化。
各种算法之间的差异非常大且难以抽象。
如果所有的算法都强行兼容到一套框架中,代码就会非常冗余。
“我们现在要从计算流程开始,从一个角度思考强化学习的优化过程,将强化学习中的所有原子模块进行拆分,类似于PyTorch中的算子。
那么以后只需要拼算法构建块,或开发新的强化学习算法。
“这件事本身是一个非常长期的事情,Go-Bigger只是一个开始。
刘宇表示,“我们希望用五年时间从工具和学术问题定义两方面推动决策智能的落地,所以平台、算法集、生产工具链适配几乎所有决策智能行业应用,让产学界的分线变成一枝独秀。
“比赛将持续到明年4月。
届时,”我们期望所有参赛者能够相互较劲,能够定义新的问题,设计出更多样化的算法,包括纯强化学习以及硬编码和强化相结合的算法。
学习。
的。
当然,我们希望训练出来的AI不仅能处理输赢,还能兼顾游戏的拟人化。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-06
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态