您现在所在位置: kaiyun开云体育 > 新闻中心 > 行业动态

公司资讯

Company information

行业动态

Industry dynamics

MIT开发了一种配备人工智能的机器人 能在线多人游戏中击败人类玩家

发布日期:2024-09-02 15:31 浏览次数:

  ,该机器人可以在棘手的在线多人游戏中击败人类玩家,而其中的玩家角色和动机却被保密。

  已经建立了许多游戏机器人来跟上人类玩家的步伐。今年早些时候,卡内基梅隆大学的一个团队开发了世界上第一个可以击败多人扑克专业人士的机器人。DeepMind的AlphaGo在2016年成为头条新闻,以击败专业的Go玩家。还建立了一些机器人来击败专业的国际象棋玩家或联合起来合作合作游戏,例如在线夺旗。但是,在这些游戏中,机器人从一开始就了解其对手和队友。

  在下个月的神经信息处理系统大会上,研究人员将展示DeepRole,这是第一个可以赢得在线多人游戏的游戏机器人,参与者最初对团队的忠诚度尚不清楚。该机器人的设计是将新颖的“演绎推理”添加到通常用于玩扑克的中。这有助于其推理出部分可观察的动作,从而确定给定玩家是队友或对手的可能性。通过这样做,它可以快速了解与谁结盟以及采取哪些行动来确保其团队的胜利。

  研究人员在超过4,000轮在线游戏“抵抗:阿瓦隆”中将DeepRole与人类玩家进行比较。在该游戏中,玩家尝试随着游戏的进行推断出同龄人的秘密角色,同时隐藏自己的角色。作为队友和对手,DeepRole始终优于人类选手。

  “如果用机器人代替人类的队友,则可以期望团队获得更高的获胜率。机器人是更好的合作伙伴。”第一作者杰克·塞里诺(Jack Serrino ‘18)说,他是麻省理工学院电气工程和计算机科学专业的学生,是狂热的在线“阿瓦隆”玩家。

  这项工作是一个更广泛的项目的一部分,该项目旨在更好地模拟人类如何做出具有社会根据的决定。这样做可以帮助构建更好地理解,学习人类并与人类合作的机器人。

  “人类向他人学习并与他人合作,这使我们能够共同实现我们一个人无法独自完成的事情,”合著者马克斯·克莱曼·韦纳(Max Kleiman-Weiner)说,他是大脑,思维与机器中心和美国国防部的博士后。麻省理工学院和哈佛大学的脑与认知科学。“像“阿瓦隆”这样的游戏可以更好地模仿人类在日常生活中所经历的动态社交环境。无论是在幼儿园的第一天还是在办公室的第二天,您都必须弄清楚谁在团队中并会与您一起工作。”

  哈佛大学的David C.Parkes和计算机认知科学教授,麻省理工学院计算机科学与人工智能实验室以及脑,思维和机器中心的成员Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。

  在“阿瓦隆”中,随机将三名球员秘密分配给“抵抗”队,将两名球员随机分配给“间谍”队。两名间谍玩家都知道所有玩家的角色。在每个回合中,一个玩家提议一个由两个或三个玩家组成的子集来执行任务。所有参与者同时并公开投票批准或拒绝该子集。如果获得多数同意,则子集会秘密确定任务是成功还是失败。如果选择两个“成功”,则任务成功。如果选择一个“失败”,则任务失败。反抗玩家必须始终选择成功,但间谍玩家可以选择任一个结果。抵抗队在成功完成三个任务后获胜;在执行了三个失败的任务后,间谍团队获胜。

  赢得游戏基本上归结为推论谁是反抗或间谍,然后投票给您的合作者。但这实际上比下棋和扑克更加复杂。Kleiman-Weiner说:“这是一个信息不完善的游戏。” “您甚至不确定一开始就反对谁,因此还有一个发现阶段,寻找与谁合作。”

  DeepRole使用一种称为“反事实后悔最小化”(CFR)的游戏计划算法-通过反复与自己对战来学习游戏-并增加了演绎推理。在游戏的每个点上,CFR都会前瞻性地创建由线和节点组成的决策“游戏树”,以描述每个玩家的潜在未来动作。游戏树代表每个玩家在每个未来决策点可以采取的所有可能的动作(线)。在进行可能数十亿次的游戏模拟时,CFR指出哪些动作增加或减少了获胜的机会,并反复修改其策略以包括更多好的决策。最终,它计划了一种最佳策略,在最坏的情况下,它会与任何对手联系在一起。

  CFR非常适合像扑克之类的游戏,可以通过公共行动(例如下注钱和弃牌)来进行,但是当行动为秘密时,CFR会遇到困难。研究人员的CFR结合了公共行为和私人行为的后果,以确定参与者是抵抗还是间谍。

  该机器人是通过对抗自己作为抵抗力和间谍来进行训练的。在玩在线游戏时,它使用其游戏树来估计每个玩家将要做什么。游戏树代表一种策略,该策略赋予每个玩家获胜的最大可能性,以此作为指定角色。该树的节点包含“反事实值”,基本上是对玩家在执行给定策略时获得的回报的估计。

  在执行每个任务时,机器人会查看每个人与游戏树相比的玩法。如果在整个游戏过程中,玩家做出的决策与机器人的期望不一致,那么该玩家可能会扮演另一个角色。最终,机器人为每个玩家的角色分配了很高的概率。这些概率用于更新机器人的策略,以增加其获胜的机会。

  同时,它使用相同的技术来估计第三人称观察者如何解释自己的行为。这有助于估计其他参与者的反应,从而做出更明智的决策。“如果执行的两人任务失败,那么其他玩家就会知道一个玩家是间谍。该机器人可能不会在未来的任务中提议同一个团队,因为它知道其他玩家认为这很糟糕。”塞里诺说。

  有趣的是,该机器人不需要与其他玩家交流,这通常是游戏的关键组成部分。“ Avalon”使玩家可以在游戏过程中在文本模块上聊天。Kleiman-Weiner说:“但是事实证明,我们的机器人能够与其他人一起很好地工作,同时仅观察玩家的行为。” “这很有趣,因为人们可能会认为这样的游戏需要复杂的沟通策略。”

  接下来,研究人员可以使机器人在游戏过程中使用简单的文字进行交流,例如说出玩家的好坏。那将涉及给文本分配一个相关的概率,即玩家是抵抗者还是间谍,机器人已经使用它来做出决定。除此之外,未来的机器人可能会配备更复杂的通讯功能,使其能够玩重语言的社交演绎游戏,例如流行的游戏“狼人”,其中涉及数分钟的争论并说服其他玩家了解谁在好的和坏的团队。

  “语言绝对是下一个领域,” Serrino说。“但是在那些沟通至关重要的游戏中,攻击存在许多挑战。”

  声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。举报投诉

  个关键应用就在于数据分析。视觉数据分析的进步以及速度的加快将会跨越不同的领域带来广泛的影响。 Banavar在邮件中写道:「

  产业,正处于创新创业的风口浪尖,可望重塑传统制造业与现代服务业,满足“互联网”时代人们对

  ,最终夺取这个星球等议论,只是科幻迷们的自娱自乐,离现实还很遥远,但在围棋高手李世石和AlphaGo人机大战中失败;日本

  的表现很优秀。 英语学习形式丰富 在布丁豆豆中,学习英语的方式从来都不是固定的,而是多种多样的。基于“寓教于乐”的理念,布丁

  擦边球似的科学,属于自然科学、社会科学、技术科学三项交叉而来的科学。如今的地球,在这颗水蓝色的小球上生活着大约65亿

  可以交替使用的概念,这或多或少地加重了与这些概念相关联的已经存在的混淆程度。让我们领会这些概念,直截了当地理解它们的内涵和之间的细微差别。

  和错误的发生都会破坏你与现有和潜在客户的关系。自动电话系统在重新路由消息时给出

  个范式的转变。 时代在强调人文主义或分析/数学天赋之间交替。随着计算能力和分析思维成为

  的工业检测服务,Rolls-Royce®物联网支持的飞机发动机维护服务和Duplex的AI语音是证明迈向

  、设备介绍系统可以独立完成多种自动化典型应用,其中包括搬运、码垛、上下料、视觉分拣等多种应用。在实际教学过程中,除通过传统

  的重要渠道,也是销售力量输出的核心。只是随着时代的不断进步,传统电销暴露的缺点越来越严重,而

  ; 4.安卓手机控制设计; 5.火灾、煤气泄漏检测及GSM报警系统;理论依据:1.传感器在物联网中的应用; 2.短距离无线.向量空间理论与

  初战告捷 看到文章的标题,想必很多小伙伴已经知道说的是什么了! 今天中午12点,谷歌AlphaGo

  大模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI对

  的运营成本、人力成本还在不断提高(如:办公场地的租金、员工的工资、社保公积金、节假日福利等)。 如今的

  多个领域都有应用,每个人的精力都是有限的,因此对自己熟悉的领域或者喜欢的领域,去深入的学习

  劳动力,推动生产效率的革命性进步。高科技所带来的巨大贡献不可否认,但是

  比尔 · 盖茨在其文章《A Robot in Every Home》里提出他对未来的憧憬:

  比尔 · 盖茨在其文章《A Robot in Every Home》里提出他对未来的憧憬:

  体,技术附加值很高。对提高产品的质量与产量、保障人身安全,改善劳动环境,减轻劳动强度,提高劳动生产率

  的普遍推理能力,因此依然有着自身的局限性。 在很多方面我们已经看到了这样的变化,即便是在

  、仿生学等多学科而形成的高新技术,是当代研究十分活跃,应用日益广泛的领域。

  社会科技发展的必然趋势。早在2015年,日本软银集团和法国Aldebaran

  公司Anki委托The Envisioners公司首席执行官、未来学家戴夫·科普林(Dave Coplin)撰写了名为《好

  的应用让企业在销售的意向客户初筛中得到了广泛的应用,并且用实际行动证明了

  物联网以及大数据的推动下,实现飞跃式的发展,并且迎来了第三个黄金周期。必优传感今天和大家解读

  语言交互方面反射式的应答方式,成功地通过独创的中文语义理解算法,让计算机可以准确理解语言环境,进行上下文处理、口语处理、省略处理。该平台可用于构建

  的部分工作,例如快递、工厂作业、餐厅服务员甚至媒体编辑---就聘请了

  ,你可能会发现这些小东西“智商”都不怎么高,打碎花瓶,绕进电源线,误吸入重要财物。而扫地

  斑。为了响应国家的号召,同时也为了深度发展公司,重庆中绅网络科技有限公司自主研发的

  。由Elon Musk和Sam Altman共同创立的研究实验室OpenAI宣布了其最新的里程碑:一个由

  的表现了。2017 年的 Dota2 国际邀请赛 TI7 上,OpenAI 推出的