首页 > 科技未来 > 内容

对战6亿用户竞技手游：聚焦复杂游戏中的多智能体博弈

发布于：2024-06-18 编辑：匿名来源：网络

在竞技手游中与6亿用户竞争：专注于复杂游戏中的多智能体游戏。

2019年11月，全球首届“AI《球球大作战》：Go-Bigger多智能体决策智能挑战赛”正式拉开帷幕。

作为面向全球技术开发者和在校学生的技术大赛，本次大赛旨在促进决策智能相关领域技术人才的培养，打造全球领先、原创、开放的决策人工智能开源技术生态。

借竞赛之际，雷锋网&人工智能科技评论采访了本次竞赛的核心设计团队成员刘宇和周航。

其中之一是商汤科技研究总监，他也是OpenDILab项目的负责人；另一个是前星际职业选手iA。

目前在商汤决策智能游戏AI团队担任高级职务的研究员，通过不同的路径达到了同一个目标。

他们如何通过“博弈×决策”的方式走到一起，他们会对高手什么样的“策略”更感兴趣？除了现实之外，还有另一个世界，那就是游戏世界。

它将世俗的智慧、弱者与强者、爱情与忠诚的背叛、策略与计划都转移到一个狭小的空间里。

成功和名声都在令人钦佩的时刻。

游戏以无边无际的世界来诠释人情的酸甜苦辣。

古人封蛊王，今封人工脑王。

科学技术的进步让对抗的秘密浮出水面。

现在这个竞赛被命名为Go-Bigger多智能体决策智能挑战赛。

本次大赛由OpenDILab主办，上海人工智能实验室作为学术指导，商汤决策情报团队、巨人网络等多家机构联合打造。

受巨人网络自主研发的超人气休闲竞技手游《球球大作战》的启发，多方联合推出全球首款AI版本《球球大作战》。

Go-Bigger 游戏环境：用“学术游戏”来形容它。

“从赛事组织各方来看，Go-Bigger的学术价值非常明显。

它由上海人工智能实验室学术指导，商汤科技、巨人网络、上汽集团人工智能共同主办。

该实验室由世界各地高校主办，由人工智能学术联盟、浙江大学上海高等研究院、上海交通大学清远研究院共同主办，并得到OSCHINA和Deep的支持。

强化学习实验室。

从行业出发，聚焦底层技术，进一步整合各大大学和实验室，其实是商汤的原创基因。

1、做大竞争决策策略周航和刘宇都说过，“门槛”。

大型游戏的时长很低，但上限很高。

”与 agar.io 和《球球大作战》等热门游戏类似，Go-Bigger 中每场游戏持续十分钟。

大球吃掉小球以获得更大的重量和体积，但同时又必须避免被大球击败。

球被吃掉了。

当球达到足够大的尺寸时，玩家（AI）可以将其分裂或融合，并与同伴完美配合，输出游戏策略。

每个队伍需要与其他队伍进行比赛，总重量较大的队伍获胜。

Go-Bigger游戏环境演示图游戏中有克隆球、孢子球、食物球、荆棘球四种类型的球，挑战不同的决策路径。

克隆球是游戏中玩家控制移动或释放技能的球。

它们可以通过覆盖其他球的中心点来吃掉比自己小的球。

孢子球是由玩家的克隆球产生的，会保留在地图上并可以被其他玩家吃掉。

食物球是游戏中的中性资源，其数量会保持动态平衡。

如果玩家的克隆人吃了食物球，食物球的重量将转移到克隆人身上。

荆棘球也是游戏中的中立资源，其尺寸较大且数量较少。

如果玩家的克隆球吃掉了荆棘球，荆棘球的大小将转移到克隆球上，并且克隆球会爆炸并分裂成多个（10）个克隆体。

此外，玩家可以通过吃孢子球来移动荆棘球。

克隆球孢子球、食物球荆棘球此外，Go-Bigger 还包含一系列类似于《球球大作战》的游戏规则：球的重量越小，移动的速度越快；更多的克隆可以快速发育，但其自身重量分散，有被吃掉的危险。

每个玩家的总重量会随着时间的推移慢慢衰减。

重量越大，衰减速度越大。

在战斗阶段，分裂的玩家需要尽快将球组合起来。

因此，同队中不同球的配合尤为关键。

同队球员不会完全吞掉球（保留最后一个球）。

由于这样的规则设定，球球在不同的发展阶段有不同的策略。

在球发育的早期阶段，球太小而无法分裂。

它吃食物完成原始积累，同时防御被吃掉，从而催化团队合作——多球行动。

比如，当你吃饱了，达到了克隆人的等级，你就可以把克隆人喂给队友，只留下一个。

你和你的同伴将完成第一次原始积累，增加团队的整体权重。

随着大家争先恐后地完成原有的积累，游戏进入了中期阶段。

防御转进攻，秘密斗争转公开斗争。

此时，无论是持久战还是速度战，是先灭大还是先灭小，无论是统治画面轻骑兵进攻再复制，不同的策略组合都会将游戏推向高潮。

高潮。

克隆人背后的距离、方向、速度和密度成为胜利的关键。

攻击策略之一是先杀小虫，再攻击大虫。

大球先攻击未发育的球，合成大球。

然后它寻找稍弱的大球，判断距离，快速接近分身，靠近后再合体将其吞噬。

经过几轮比赛，大球进入了排行榜榜首，为接下来的决战做准备。

随着比赛进入后期，战场上剩下的玩家不多，实力相当的决战成为赛点的关键！首先，大球移动得很慢。

选择合适的时机分头出击、快速出击、联合杀敌，已经成为大球球员们默契而隐秘的自我保护方法。

你死我死，弱肉强食，这就是生命的法则。

但与此同时，另一种战斗机制——自毁——被触发。

大球的重量不是静态的，但它的减重速度非常快。

重量衰减率为每秒千分之二。

于是，比赛进入下一阶段——保持主队的优势，其他球队的反击。

由于霸屏团队减重速度非常快，如果只是采用常规的攻击方式，增加的体重往往无法抵消减重的影响。

同时大球移动速度非常慢，攻击效率很低。

大多数大球队都会采用多克隆模式进行进攻。

因为已经是占优的队伍，即使有多个分身，其他队伍也往往无法对多个分身构成威胁，所以大球往往会以比较高的速度横扫出去。

看决战的气势，是否是大球燃烧心中之火，击败身体；或者是化身寻求胜利而吞噬一切，往往并不如人所愿。

交锋的同时，战斗时间已经所剩无几了。

此外，还有不少小球躲在暗处，酝酿反击，并在最后阶段扭转局势。

这并不新鲜。

可爱的小球里，暗流着规则和游戏。

周航回应说，这就是为什么Go-Bigger的门槛很低，但上限却很高。

“游戏环境非常简单直观，因为大家都玩过类似的游戏，比如《大鱼吃小鱼》、《剪刀石头布》、《围棋》等，它们都有非常直观的名字，并使用简单的环境系统来构建游戏场景。

但他们更重要的是，Go-Bigger涉及多个智能体的合作和对抗，这将导致更高的决策复杂性”2。

如何设计游戏环境。

人工智能已经广泛应用于感知优化场景，但我们希望模型具有真正的准确性。

一些需要决策的场景需要将智能化落地。

游戏是决策智能（DI）的天然训练场。

如果把游戏环境比作一个小社会，那么不同的游戏角色就是生活在其中的人类。

只有人类数量足够多，才能体现群体关系，进一步模拟人类社会的生活图景。

因此，复杂博弈中的多智能体博弈成为推动决策智能发展的关键。

Go-Bigger 涉及多智能体博弈，不可避免地涉及权衡同一团队中的个体行为和合作行为、不同团队之间的合作与竞争，以及与其他智能体表示和交换环境信息。

然而，从头开始实现上述算法和训练过程是非常复杂的。

决策智能框架DI-engine大大简化了设计流程。

它已经集成了支持多智能体的DQN算法实现和一系列相关的专有技术，以及玩家与自己和机器人对战的训练组件。

只需要实现相应的环境封装、神经网络模型和训练主函数即可。

此外，Go-Bigger支持RL环境并提供三种交互模式。

为了帮助用户学习强化学习领域的多智能体策略，Go-Bigger提供了一个符合gym.Env标准的接口供用户使用。

在游戏中，Go-Bigger 的默认设置包含 20 个状态帧和 5 个动作帧。

每个状态框架都会模拟并处理当前地图中所有单位的状态，而动作框架会在此基础上对单位添加动作控制，即改变单位的速度、方向等属性，或者使单位能够分裂或发射或停止等技能。

为了更方便地探索环境，Go-Bigger 还提供了必要的可视化工具。

与环境交互时，可以直接保存游戏的视频，包括全局视角和每个玩家的视角。

此外，Go-Bigger提供单人全局视觉、双人全局视觉、单人局部视觉三种人机交互模式，让用户快速了解环境规则。

单人全局视觉、双人全局视觉、单人局部视觉的可视化不仅方便用户设计智能体的决策路径，也为智能体的决策演化提供参考。

目前基于强化学习等方法的决策智能主要是学习从“状态”到“行动”的映射，距离可解释、因果、交互的决策还很远。

但游戏本身的可视化形式会直接展示智能体的策略。

整个游戏环境的搭建不仅涉及大的封装模块，还涉及小的动作设计。

刘宇表示，我们在设计这个引擎时，不仅要考虑它是否有趣（可视化、难度低），还要考虑它对研究人员是否有用（动作模糊性、公平性）。

在复杂的博弈环境中，如何做到公平，保证所有智能体从同一起点进化，进化出最多的决策路径？除了球后参赛者惊人的勇敢之外，还必须有一个公平的评价系统——天梯系统。

参赛者只需根据比赛提供的接口提供每一帧中代理的动作，最后提交代码和相关模型或文件即可加入测试天梯。

OpenDILab团队将利用参赛者提供的环境和代码，对指定比赛进行模型测试，并决出最终获胜者！ 3.决策情报研究刚刚开始。

在Go-Bigger游戏中，设计了球与时间、生长加速、分裂、消失、下降等约束。

事实上，它们广泛存在于现实世界中，例如人类生命周期和微生物学。

细胞免疫等。

天然具有高度的社会适应性，这是利用游戏进行决策智能研究的优势。

刘宇表示，Go-Bigger 项目只想做好一件事，那就是打造一款类似于 Ball Fight 和 AGAR 的家喻户晓游戏，让每个人都能先将游戏 AI 和决策智能连接起来，人们就能得到开始了。

“Go-Bigger 现在希望做的事情其实和 CV 领域的 ImageNet 非常相似。

”过去十年来，计算机视觉一直是最热门的领域。

但 CV 是如何发展的，“它实际上是开源了一个更大的数据集。

“在 ImageNet 竞赛之前，数据集非常小，研究员很难定义行业真正需要的算法问题，”刘宇说。

然而ImageNet的推出给当时的技术带来了挑战。

随着GPU计算能力的提升，越来越多的人涌入CV领域，导致了当前深度学习+计算机视觉的蓬勃发展。

“现在大多数决策智能领域的工作者很难获取像《星际争霸》和《DOTA2》这样的资源。

在相对理想的小数据集和模拟环境中进行实验并发表论文是学术研究的常态。

”而决策智能的走向在于两个方向：训练平台和仿真环境。

我们希望在保持现有资源可访问性的同时，让决策智能更加贴近真实场景，并逐步在行业内推广更多的开源平台。

”刘宇表示。

决策智能的研究才刚刚开始，第一是数据问题，第二是标准化问题。

对战6亿用户竞技手游：聚焦复杂游戏中的多智能体博弈

目前决策智能的标准化问题有三部分：一是决策智能的标准化问题。

环境观测的标准化，另一个是动作空间的标准化，“CV标准化做得很好，因为它里面的所有数据都可以用非常规则的张量来表示，比如PyTorch和TensorFlow。

“但在决策智能领域，会涉及到多模态输入，比如空间信息（Spatial info）、实体信息（Entity info）、标量信息（scalar information）。

”困难在于统一所有信息模态转化为一个数据。

格式。

”刘宇说，“目前的一些方法是将各种模态的数据统一到一个编码器中，以便它们可以映射到相同的观察空间。

“一旦我们有了状态空间，我们就需要决定采取什么动作。

例如，强化学习领域的很多算法很难同时支持离散和连续的动作空间。

在真实场景中，有更复杂的动作空间，比如相互依赖的动作空间、序列动作空间、不相关或违反马尔可夫链性质的动作空间。

“我们希望通过算法设计一个新的头部（决策智能训练网络的头部）。

后期我们只需要做一些插件的工作，它就可以适配几乎所有的算法。

” “第三块是算法的标准化。

各种算法之间的差异非常大且难以抽象。

如果所有的算法都强行兼容到一套框架中，代码就会非常冗余。

“我们现在要从计算流程开始，从一个角度思考强化学习的优化过程，将强化学习中的所有原子模块进行拆分，类似于PyTorch中的算子。

那么以后只需要拼算法构建块，或开发新的强化学习算法。

“这件事本身是一个非常长期的事情，Go-Bigger只是一个开始。

刘宇表示，“我们希望用五年时间从工具和学术问题定义两方面推动决策智能的落地，所以平台、算法集、生产工具链适配几乎所有决策智能行业应用，让产学界的分线变成一枝独秀。

“比赛将持续到明年4月。

届时，”我们期望所有参赛者能够相互较劲，能够定义新的问题，设计出更多样化的算法，包括纯强化学习以及硬编码和强化相结合的算法。

学习。

的。

当然，我们希望训练出来的AI不仅能处理输赢，还能兼顾游戏的拟人化。

站长声明

标签：

上一篇：微软收购 LinkedIn 案尘埃落定，纳德拉如何设想合作愿景？（附公开信全文）

下一篇：易凯资本30亿未来产业基金已完成第一期募集，还有一只基金在路上

小鹏汽车宣布完成C+轮近5亿美元融资，高瓴、红杉等投资

耀铭汽车宣布完成近5亿美元C+轮融资，高瓴资本、红杉资本等公司投资。 7月20日，耀明汽车正式宣布完成近5亿美元C+轮融资。主要投资者为Aspex、Coatue、高瓴资本和红杉资本中国。据悉，耀明汽车于今年11月完成C轮融资，获得何小鹏和小米集团4亿美元融资。不久前，7月17日晚

06-17
金蝶云之家获A+轮融资，为大中型企业提供定制云服务

据投资界12月29日消息，金蝶云之家宣布获得耀明资本A+轮融资。今年6月，金蝶云之家获得新光集团数亿元A轮融资。当时，云家发布了创新的移动办公场景V9。 V9可以帮助企业赋能个体，激活组织，让所有云之家用户成为超级个体。　　本轮融资后，云智嘉将继续加强产品研发和渠

06-18
360 推广携手易车发布汽车行业报告，深度解读行业“潜规则”

2019年4月25日，推广携手易车共同发布《年Q1汽车行业搜索报告》。双方代表在车展现场直播中与广大车企分享了报告亮点，深入剖析了当前汽车行业发展现状，探讨了汽车行业营销推广的发展趋势和市场趋势。汽车行业背后的数据。中装与易车两大数据平台商易和易车指数在汽车垂

06-18
中国工业和信息化部：加快5G、工业互联网等新型信息基础设施建设和应用

中新网中国工业和信息化部部长金壮龙14日表示，要加快5G、工业互联网等新型信息基础设施建设和应用。、做强数字经济核心产业，推动集成电路和工业软件产业高质量发展。 3月14日，金壮龙主持召开会议，传达学习贯彻全国两会精神，研究部署落实措施。金壮龙要求加快实施“十

06-06
博克斯2020年实现收入1.17亿元，同比增长32.90%

博克斯（00.OC）近日披露了上一年的“成绩单”。公司年报显示，博克斯实现营业收入1.17亿元，同比增长32.90%；归属于上市公司股东的净利润4100元，同比增长0.97%。听，中小企业反馈平台。倾听用户的需求，倾听创业者的声音，解决中小企业的痛点。点击立即参与调查并获得礼

06-18
《IDC 中国游戏云市场跟踪研究，2022H2》系列文章二：游戏云整体市场状况

中国游戏云整体市场分析宏观行业判断：IDC对游戏云市场中短期的健康增长持积极态度。只要不出现重大舆论风险，“常态化版号发行”将促进下游游戏市场的增长，并带动游戏云服务的使用量和游戏云市场规模长期持续增长。学期。疫情恢复的影响：疫情后终端用户在娱乐和生活方

06-18
我国最大集装箱超算中心在武汉建成，规划设计算力200P

长江日报据长江日报报道，建成全国首个集人工智能和超算为一体的多元化云服务算力集群在武汉。据介绍，武汉超级计算中心从立项到竣工，历时6个月，现已投入使用。武汉超算中心是我国最大的集装箱超算中心，也是全国首个集人工智能和超算为一体的多元化云服务算力集群。武

06-06
投资世界24小时 -滴灌又火了：员工带100万上班？刚刚，联合创始人辞去了OpenAI的职务；香港科技大学结束VC生涯

时间：2020年5月15日星期三重要消息：颜宁荣获世界杰出女科学家奖。根据不确定性，联合国教科文组织和欧莱雅基金会于当地时间5月14日公布了2016年世界杰出女科学家奖的五位获奖者。中国科学家颜宁是获奖者之一。颁奖典礼将于5月28日举行。（中新网）OpenAI联合创始人和首

06-18
一张图告诉你全球首例自动驾驶致命车祸是如何发生的

背景介绍：美国公路交通安全委员会（NHTSA）发布公告称：5月7日，在佛罗里达州，一名车主在使用自动驾驶汽车时发生事故身亡。他的Model S上的自动驾驶模式。根据NHTSA的初步报告，当时在一个路口，特斯拉前面的一辆大型拖车在路口左转，但特斯拉的自动制动系统未能工作，可

06-18
该项核心技术落户临港新区，推动产业集群发展

该项核心技术近日，该项核心技术上海临港总部正式落户临港新区。上海临港总部作为该核心技术的研发总部和全球数据中心，集办公研发、数据中心、硬件仿真器于一体。可以支持全球团队在任何地方进行芯片设计或软件构建，保证各种IT服务的可用性。可靠稳定，同时通过集中管

06-06
北京：鼓励民营、外资企业、国有企业投资高精尖产业

创头条获悉，北京市人民政府近日发布的《北京市关于促进高精尖产业投资推进制造业高端智能绿色发展的若干措施》宣布《措施》鼓励民营、外资企业投资高精尖产业三资企业、国有企业等主体投资符合首都城市战略定位的高新技术产业。《措施》指出，要营造良好营商环境，鼓励高精

06-18
诚电科技获得玖羚智能1000万元战略投资，

据3月16日消息，诚电科技宣布获得玖羚智能1万元战略投资。据悉，投资资金将全部用于市场补贴。据了解，深圳市诚点科技有限公司是一家在酒店行业具有一定知名度的服务型、技术型公司。公司开展多模式合作，针对不同的客户群体有不同的合作方式。公司致力于用世界一流的技术

06-17