织梦CMS - 轻松建站从此开始!

钱柜娱乐官网登陆-钱柜娱乐官网登陆开户-钱柜娱乐官网登陆中心

当前位置: 主页 > 钱柜娱乐官网登陆 >

陆战扑克世界级玩家欲攻破宇宙最难博弈CMU 人工

时间:2019-04-07 23:36来源:未知 作者:admin 点击:
新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 新智元为COO和执行总编提供最高超百万的年薪激励

  新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、

  【新智元导读】1月11日,卡内基梅隆的AI系统将再次在扑克上挑战人类顶尖高手。去年失利后,今年AI 能在扑克上战胜人类吗?新智元为此采访了国内非完备机器博弈领域专家王轩,王轩表示:围棋和复杂的非完备信息博弈问题相比,难度要小,机器(在棋牌类游戏上)全面打败人类不会像想象的那么快。

  四个世界上最专业的扑克选手,将要挑战被开发者称为史诗级对战人工智能系统,以了解机器是否可以赢过人类。

  匹茨堡卡内基梅隆计算机科学教授 Tuomas Sandholm 说:“很早以前AI研究中,打败顶级人类选手就是这一领域进展的重要测量手段。”他还说:“1997年搞定了国际象棋,2009年搞定了 Jeopardy!,去年搞定了围棋。”

  Sandholm 说:“扑克比起那些游戏困难得多,机器需要根据不完整的信息作出极其复杂的决策,还有各种虚张声势、强扮慢打法和其它计谋。”

  联想到前几天 DeepMind 人工智能系统 Master 全胜顶尖围棋手,那么对 AI 来说到底围棋更难还是德州扑克更难呢?

  新智元为此采访了国内非完备机器博弈领域专家王轩,王老师表示:围棋和复杂的非完备信息博弈问题相比,难度要小,机器(在棋牌类游戏上)全面打败人类不会像想象的那么快。DeepMind 和谷歌选择围棋做突破口,一是因为围棋较难,另一个原因是知道的人多,群众基础好,但并不是最难的机器博弈问题。德州扑克有很多种玩法,机器博弈的难度会随着玩家个数和规则的增加难度加大。

  谈到这次人机对战的由来,王轩说:“本来德州扑克是学术界研究非完备机器博弈的平台,每年都有国际比赛,加拿大的阿尔伯塔大学有个课题组在这方面也很强,DeepMind团队里的那个技术负责人 Silver 就是从这个组出来的。他们没想到研究这么多年,成果独领风骚,却让DeepMind 抢了风头,心有不甘,我想他们才弄了这次德州扑克的人机比赛。”

  双人限注的德州扑克理论上解决了,文章也发到《Science》上,贝幼儿园简介上海民办金贝,但实际中却有很多变数,他们为此弄了个CFR算法,有点复杂。

  职业选手竞争20万美元的奖金。甚至如果 AI 系统赢了,会根据人类选手表现给他们分发这笔奖金。

  Rivers 赌场的总经理 Craig Clark 说:“我们很兴奋能和卡内基梅隆大学计算机科学系一起主办这次人机大战。上一次人类是胜利者,但是新的 AI 来自最好的计算机科学大学,这点可能是计算机的优势。看看到底是人还是机器占优势,这将会非常有意思。”

  职业选手 Phil Galfond 曾在锦标赛赢得超过230万美元并且创立了扑克训练网站他说:“尽管有的业余扑克迷也许不知道,但是Les, Kim, McAulay 和 Chou 是世界上最好的一对一不限注德州扑克选手。” 不像电视上的多人扑克比赛,专业的一对一不限注德州扑克通常是网上玩。

  他还说:“你最爱的扑克选手几乎肯定不会和这些人下高注,否则一定会输得很惨。他们其中任何一个都显然能打败我。”

  第一次挑战中, Claudico 没有赢得比赛,比三位职业选手(共四位职业选手)的筹码少。

  然而,CMU 辩称在第一次人机扑克对战的80000手牌,在统计意义上不足以明确认定人类或者计算机的优势。

  这就是为什么在接下来的比赛中,Sandholm 和职业扑克选手把手数增加了50%。

  比赛中的一位职业选手Les 说:“我很兴奋能看到最新的 AI 是什么样的。我本以为 Claudico 很难对付。在第一次比赛之后的20个月内,Sandholm 博士和他的团队又有了新的资源和想法,我猜这个 AI 更难对付。”

  虽然他认为机器这次会玩的更好,但是 Les 也认为人类选手改进了这项游戏。

  Les 说:“从人类的角度,最近20个月以来扑克变得更难了。”他解释职业选手采纳了公开的游戏理论工具,这也提高了他们的水平。

  根据 Sandholm 所说,新的程序Libratus,是重新创建的,用了新的想法,比其它扑克机器人有更多计算能力。

  Sandholm 和他的博士生 Noam Brown 做这个新项目,他说他们用了匹茨堡超级计算中心的 Bridges 超级计算机来计算他们希望会赢的策略。

  Sandholm 说:“我们疯狂地推动超级计算机进步。”花了将近1500万核小时计算以创建 Libratus,而 Claudico 花了200到300万核小时。这一计算过程还会在比赛中持续增长。

  Libratus 是一个拉丁名字,代表着平衡和强大。选这个名字是因为程序算法采用了新的技术以达到博弈理论学家称为纳什平衡的状态。以卡内基梅隆校友也是诺贝尔奖得主约翰福布斯·纳什命名的理论,纳什均衡是一对策略(双方每人一个),即当对方不改变策略的时候,没有一个选手能从改变策略中收益。

  Libratus 其中一个新技术是更快速的达到均衡的方法。它能识别哪些路径打不出好牌。渐渐地,算法开始忽略这些不好的路径。

  Claudico 常用的策略是limping,这是一个扑克术语指跟注混进去看看,而不是加注或者放弃。而 Libratus 偶尔也会这样。

  另外一个改变是终局的策略。去年比赛时,职业选手发现 Claudico 会高一些太明显的很容易被揭穿的小计谋。不像 Claudico 那么依赖终局, Libratus 会用 Bridges 计算机实时计算新的终局解决方法和算法。

  一对一(两个选手)不限注的德州扑克是一个极度复杂的游戏,有10的160次方(1后面160个0)信息集——每个集合都根据出牌方的理解有不同的路径。这个巨大的信息集比整个宇宙的原子数还多。

  AI 必须在不知道所有牌的情况下做出决策,并发现对手的计谋。根据不限注规则,选手可能赌或者增加任意数量的筹码。

  解决这样不完整的和误导性信息的问题可以应用到现实世界各个领域,例如商业、军事、网络安全和医疗。算法不是只用于扑克,还可以应用到无数信息不完整的决策场景。

  “把 AI 延伸到现实世界的决策中,中国声音中外专家有何期待公司新,在这些细节未知和对手不断修改策略的场景,比有着完备信息或者问答系统要难得多。这才是线月,Sandholm 和 Brown 较早时候开发的一个 AI 赢得了年度计算机德州扑克一对一不限注的冠军。

  一对一的限注游戏更简单,大概有10的13次方的信息集,由卡内基梅隆校友 Michael Bowling 带领的Alberta 大学的计算机扑克团队已经近似最优地解决了。

  为了确保比赛结果不是归于运气,四个职业选手会双双重复比赛——每组的选手 A 会收到跟计算机一样的牌来跟选手B 对战,反之亦然。每对的一个选手会在赌场大厅打牌,而它的对手被隔离在另外的房间。

  负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容