网易首页 > 网易科技 > 网易科技 > 正文

第三代AI赌神:在六人桌德扑中胜过5个人类顶尖高手

0
分享至

(原标题:第三代AI赌神诞生:可在六人桌德扑中胜过5个人类顶尖高手)


澎湃新闻记者 虞涵棋

第50届世界扑克系列赛(WSOP)的六人桌无限德扑即将在7月13日开赛,但AI偏偏选在这个节骨眼上踢馆。

美国卡内基梅隆大学和Facebook公司7月12日在《科学》上发表论文称,他们联合开发的德扑人工智能Pluribus能在六人桌无限德扑中击败顶级人类玩家。

这些顶级高手包括拥有职业冠军头衔最多的达尔文·埃利亚斯(Darren Elias)、6次世界扑克系列赛冠军得主“耶稣”克里斯·弗格森(Chris Ferguson)和在职业生涯中赚了将近200万美元的麦克·加利亚诺(Michael "Gags" Gagliano)。

无论是一个Pluribus对战5个顶级人类玩家,还是五个Pluribus混战一个顶级人类玩家,经过1万手牌后,它的表现都会明显优于人类。

“Pluribus”是一个拉丁语词汇,意为“众”,美国国徽上就印有“E pluribus unum”(合众为一)的字样。起这个名字,无疑彰显这是世界上首个在多人德扑中超越人类专业选手的AI。

在过去的20年里,我们见证了西洋双陆棋、跳棋、国际象棋和围棋等游戏在人工智能面前纷纷沦陷。人机大战往往成为AI发展史上的里程碑事件,例如卡斯帕罗夫与“深蓝”、李世石与“阿尔法狗”的巅峰对弈。不过,这些事件无一例外局限于机器和一人对决,而扑克在传统上是个多人游戏。

从两人到多人,不仅只是量变,还对人工智能增加了许多根本性的挑战。Pluribus通过“行动抽象”和“信息抽象”等方式来解决这些挑战。在与5个“自己”博弈的过程中,Pluribus学会了六人局无限注德扑的玩法。

埃利亚斯的感受是,德扑AI最大的优势在于混合运用多种策略,这也是人类高手想要达到的境界。然而,绝大数人都无法持续性地随机调整策略。

Pluribus也验证了一些牌桌上广为流传的智慧。例如“平跟”(limping)这种在翻牌之前,选择跟平大盲注而不加注的策略对绝大多数玩家而言都是欠佳的选择,只有“小盲注”玩家除外,因其已经在池中下了等同于一半大盲注的筹码。

初出茅庐的“平跟”

美国卡内基梅隆大学计算机系教授托马斯·桑德霍姆(TuomasSandholm)已经钻研德扑程序16年。为了缔造AI赌神,他带着博士生诺姆·布朗(Noam Brown)先从1V1无限注德扑做起。他们开发的第一款德扑程序名为Claudico,在拉丁语中对应着“平跟”。

2015年4月到5月,Claudico在匹兹堡的河流赌场轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是镜像牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。

初出茅庐的德扑AI在赛程过半时,就已落后人类约46万个筹码,最终以大约73万个筹码的劣势铩羽而归。

扑克对于AI来说为什么这么难?原来,扑克和跳棋、国际象棋和围棋有本质上的区别,是一种“不完美信息”的游戏,对手手中的牌面全程未知。在无限注局中,对手又可以任意下注。

著名深度学习专家吴恩达(Andrew Ng)曾说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”

诈唬(bluff)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。

从这个意义上来说,扑克是一种更接近真实人类社会的游戏,涉及到推理和欺骗。人工智能能学会诈唬吗?

卷土重来的“均衡”

IBM的“深蓝”经过了两次才战胜国际象棋传奇卡斯帕罗夫,德扑AI也在2年后实现了完美复仇。2017年1月,桑德霍姆和布朗带着一个名为Libratus的德扑程序卷土重来。

这个新名字对应着“均衡”,从纳什均衡的博弈模型里脱胎而来。桑德霍姆解释说:“在两名玩家的零和游戏中,如果双方都遵从纳什均衡,那就无人能以独自改变策略的方式来获益。在此类游戏中,以纳什均衡的方式思考是最安全的。AI会严格遵从纳什均衡,保证一个起码是平局的局面,若对手计算失误,均衡被打破,AI就能一击必杀。”

学会了纳什均衡的Libratus善于诈唬及不被诈唬。比如其中一盘,人类高中Jason Lee起手牌是一对10(非梅花),前三张公共牌为K、9、4(其中有两张梅花),第四张和第五张都开出了非梅花牌。此时,AI突然压上所有筹码,Lee选择不跟。通过隔壁的镜像局,我们发现AI当时的起手牌确实是两张梅花,也就是,AI最后在赌同花失败的情况下,成功通过诈唬赢下了一局。而在镜像局中,AI早早为手上一对10下了重注,最后人类玩家同样选择弃牌。

同样是匹兹堡的河流赌场,同样是无限注德扑,人机大战的剧情截然不同。Libratus从比赛第一天就全面压制,一路领先。最终,Libratus赢得的筹码数量达到惊人的176.6万美元。

此后还有一个小插曲。李开复曾经邀请桑德霍姆带着Libratus前来中国举办表演赛,并取了一个中文名“冷扑大师”。

统筹全局的“众”

纳什均衡虽然对双人游戏很有利,但并不适用于多人游戏。Pluribus需要一种更为统筹全局的玩法。它首先通过6个“自己”混战,计算出了一种“蓝图”策略,足以应对首轮的下注。接着,它建立起一个精细度非常高的游戏沙盘,分析所有可能的走法。为了节省算力,Pluribus不会推演到终盘,而只是推演接下去的数步。

这看上去是游戏类AI的常规路径,但在非完美信息游戏中进行前瞻性推演格外具有挑战性。在每一个决策点的分叉上,AI要考虑每个对手的可能举动,也要分析自己可采取的应对,形成的决策树就会十分庞大。不过,桑德霍姆团队这次开发出了一种新算法,保证AI只需要计算每个对手接下去的5种可能性,就能在大战略上形成制衡。

Pluribus也变得更加狡猾。如果手上持有场上可能有的最好的牌,那加注是一个理性的选择。但如果每次都在持有好牌时才加注,就可能被对手识破规律。Pluribus会计算在对手来看,自己手上所有可能有的牌型,以及与之相对应的表现,最终选定一种均衡的方案。

最后,Pluribus也在计算效率上进行了改进。前一代Libratus用了1500万个核心小时计算出策略,并在1V1现场对决中占用了1400个CPU核数。这一代的Pluribus仅用12400个核心小时就形成蓝图策略,并在现场博弈时占用28个CPU核数。

麦克·加利亚诺(Michael "Gags" Gagliano)说道:“与德扑AI对战,观察它做选择的策略是非常令人激动的。我看到它做了一些人类根本不会去做的下注举动。”

布朗认为,Pluribus的许多创新性的大法可能会在根本上改变这项游戏。例如,绝大多数人类玩家都不会在一个回合末平跟,却在下一回合开始时加注。传统上认为这是一种没有任何战略意义的举动。但是,Pluribus经常会这么做,也许这背后有值得深思的地方。

相关推荐
热点推荐
瓜帅:利物浦两连败可能发生在枪手或我们身上;争冠悬念很大

瓜帅:利物浦两连败可能发生在枪手或我们身上;争冠悬念很大

懂球帝
2024-04-26 06:19:10
上海豪华游轮只是冰山一角,老年人丑态遍布全球!恶劣行径惹众怒

上海豪华游轮只是冰山一角,老年人丑态遍布全球!恶劣行径惹众怒

小陆搞笑日常
2024-04-20 19:01:45
深圳市一套2002年买入价才411万的房子拍卖,拍出了3765万高价

深圳市一套2002年买入价才411万的房子拍卖,拍出了3765万高价

天天话事
2024-04-25 16:03:25
挨过的打就这么算了,菲律宾连夜声明:没说过对中国采取军事行动

挨过的打就这么算了,菲律宾连夜声明:没说过对中国采取军事行动

千里持剑
2024-04-25 17:19:49
范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

范曾携爱妻外出游玩!86岁打扮时髦被搀扶,徐萌皮草外套近9万

听栀子说
2024-04-24 21:27:43
路威:如果独行侠再像G2一样主要依靠东欧防守 那将对快船有利

路威:如果独行侠再像G2一样主要依靠东欧防守 那将对快船有利

直播吧
2024-04-25 23:01:02
庚欣:布林肯此次访华,可用4句话概括

庚欣:布林肯此次访华,可用4句话概括

直新闻
2024-04-24 19:17:33
业绩为王!2024年一季度“预增王”名单出炉,15股业绩增超10倍!

业绩为王!2024年一季度“预增王”名单出炉,15股业绩增超10倍!

风口招财猪
2024-04-26 02:00:29
打工妹嫁给厂二代,高额彩礼外加怀孕再给20万:有钱能使鬼推磨

打工妹嫁给厂二代,高额彩礼外加怀孕再给20万:有钱能使鬼推磨

夫妻谈资局
2024-04-24 15:34:24
河北警方调查理想MEGA遭恶意攻击事件:涉嫌打压理想MEGA车企有三至四家,小鹏汽车一名中层员工正配合调查

河北警方调查理想MEGA遭恶意攻击事件:涉嫌打压理想MEGA车企有三至四家,小鹏汽车一名中层员工正配合调查

和讯网
2024-04-23 16:55:26
“梅西条款”,再次说明梅西在香港缺战是主办方的责任!

“梅西条款”,再次说明梅西在香港缺战是主办方的责任!

历史第一人梅西
2024-04-25 12:01:39
​广东接近“百年一遇”洪水来袭:无力抵抗的农户和农田

​广东接近“百年一遇”洪水来袭:无力抵抗的农户和农田

追逐手中未来
2024-04-25 21:53:37
马特-巴恩斯:哈登在快船不需要每晚都做自己 他不用有太大的压力

马特-巴恩斯:哈登在快船不需要每晚都做自己 他不用有太大的压力

直播吧
2024-04-25 22:10:03
《亮剑》最全穿帮镜头,看完简直笑到胃痛,网友:喜剧效果拉满了

《亮剑》最全穿帮镜头,看完简直笑到胃痛,网友:喜剧效果拉满了

娱乐八卦木木子
2024-04-26 02:45:04
重庆“换新购”实施近3个月:效果尚不明显,有业主担心“二手房90天内卖不出去”

重庆“换新购”实施近3个月:效果尚不明显,有业主担心“二手房90天内卖不出去”

每日经济新闻
2024-04-25 16:40:07
我和老伴退休金共1万8,自驾游3年风风光光,如今却后悔不已

我和老伴退休金共1万8,自驾游3年风风光光,如今却后悔不已

萧黎观历史
2024-04-22 17:59:28
王楚钦0-4马龙是让球?许昕看出端倪讲原因,大满贯的心眼太多了

王楚钦0-4马龙是让球?许昕看出端倪讲原因,大满贯的心眼太多了

三十年莱斯特城球迷
2024-04-25 11:54:00
朱丹自从参加了浪姐,真的是越来越时髦了!

朱丹自从参加了浪姐,真的是越来越时髦了!

娱乐圈酸柠檬
2024-04-26 01:54:23
北京现代第五代胜达颠覆性设计惊艳北京车展,预计8月上市

北京现代第五代胜达颠覆性设计惊艳北京车展,预计8月上市

南方都市报
2024-04-25 20:40:15
哈尔滨一九四四:潘越身份曝光,原来这才是他潜伏在特务科的原因

哈尔滨一九四四:潘越身份曝光,原来这才是他潜伏在特务科的原因

阿芒娱乐说
2024-04-26 02:13:30
2024-04-26 08:56:50

科技要闻

雷军周鸿祎出圈:中年CEO,抢着当网红

头条要闻

贾跃亭称在美法律体系下已没有债务 再回应"何时回国"

头条要闻

贾跃亭称在美法律体系下已没有债务 再回应"何时回国"

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

亲子
旅游
健康
公开课
军事航空

亲子要闻

有时候当家长是一种修行…宝宝用的浑水认真擦脸

旅游要闻

京都热门景点一棵樱花树突然倒下 游客被砸成重伤

这2种水果可降低高血压死亡风险

公开课

睡前进食会让你发胖吗?

军事要闻

以军称已完成对拉法地面军事行动准备工作

无障碍浏览 进入关怀版
×