乐动网页版_乐动(中国)


    咨询(xún)热线:021-80392549

    乐动网页版_乐动(中国) QQ在线(xiàn) 乐动网页版_乐动(中国) 企业微信
    乐动网页版_乐动(中国)
    乐动网页版_乐动(中国) 资讯 > 人工智能 > 正文

    这次 AI 突破的是麻将!

    2019/09/02雷锋网(wǎng)465

    “十段”是(shì)什么概念呢?天凤平台(tái)上,全球范围内现役十段的人类选手仅十几位。Suphx取得“十段”的成绩,大(dà)致可相当于围(wéi)棋中AlphaGo挑战胜了李世石。

    这是一个不凡的成绩。

    从AI这门(mén)学科(kē)诞生之(zhī)日起,游戏AI始终与(yǔ) AI 研(yán)究进展相(xiàng)生(shēng)相伴,跳棋、双陆棋、国际象棋和围棋,都曾先后推动了AI的发展。

    这次(cì) AI 突(tū)破的是麻(má)将!

    图:MarionTinsley 与(yǔ) Chinook 对战(左);GarryKasparov 与 Deep Blue 对战(zhàn)(右)

    这些棋(qí)类游戏有共同(tóng)之处是,1)它们均有一个简单而清晰的(de)规则,有清晰的胜负(fù)判(pàn)定条(tiáo)件和行(háng)动准则;2)博(bó)弈双方能(néng)够查看所有(yǒu)游戏状态;3)在(zài)公众认(rèn)知(zhī)中,掌握和(hé)精通(tōng)这些棋牌类游(yóu)戏往往在一定(dìng)程度上是(shì)人类智(zhì)力的彰显。

    相比(bǐ)以上这几种棋类游戏,麻(má)将却(què)是规则复杂、胜负判定繁琐(suǒ)、信(xìn)息非完(wán)全公开(kāi)的,且更(gèng)重要的是在公众认知中麻将更多(duō)地有(yǒu)“运气”和“凭直(zhí)觉”的成(chéng)分(fèn)。

    因此麻将AI若能取得(dé)超(chāo)越人类的水平,可以期待它将带来新的(de)一波热潮。

      一、Suphx的晋级之路(lù)

    “天凤”是日本(不要问为什么不是(shì)中国四川)的一个在线麻将(jiāng)竞技平台(tái),创立(lì)于2006年。因(yīn)其完善的竞技规则(zé)、专业的段位体系,很快便(biàn)成为业界知(zhī)名(míng)的高水(shuǐ)平专业麻将平台,受到职业麻将界(jiè)的广泛承认。

    这次 AI 突破的是麻将!

    图:天风平台logo,by tenhou

    我们(men)知道,麻(má)将(jiāng)的输赢与(yǔ)围棋不(bú)一样,并不仅仅取决于(yú)玩(wán)家的实力,还取决(jué)于抓到的手(shǒu)牌(pái)等(děng),如果一个人运气比较差,拿到一手烂(làn)牌,可能再强的实(shí)力(lì)也只(zhī)能是(shì)输得不那(nà)么难看(kàn)。所以,麻将不像围(wéi)棋一样(yàng),不能单靠(kào)一轮对弈,而是要通过多轮(甚至(zhì)上千轮)对弈才能看出一个雀士的实力。

    天(tiān)凤的评价制度,采用Rating制和段位制并行的制度(dù)。刚刚注册时等(děng)级从(cóng)“新人”开始,点数(pt)会根据(jù)游戏的情(qíng)况增(zēng)减(jiǎn),并最终决定(dìng)雀(què)士的升段(duàn)(升级(jí))和降段(降(jiàng)级)。玩家的段位越(yuè)高,在比赛中排位第四受到(dào)的点数(shù)惩罚也越多,点(diǎn)数扣(kòu)除到一定程度会(huì)导致降段。按照这种规(guī)则,如果雀士(shì)的实(shí)力(lì)水平一定的话,自己的(de)等级也会(huì)相对地稳定在某一个段(duàn)位上。

    根据段(duàn)位,游戏(xì)者可(kě)以使用的(de)桌也会发(fā)生变化。天(tiān)凤平台为(wéi)高水平麻(má)将玩家提(tí)供两种(zhǒng)竞技房间:“特上(shàng)房”对四段以上(shàng)所有玩家(jiā)免费开放(fàng),允(yǔn)许AI参与游戏,目前所(suǒ)有玩家(jiā)在此房间的(de)最高段(duàn)位是十段;“凤(fèng)凰房”仅对(duì)七段以上的人类付费玩家开放,目前不允许AI参与游戏,在该房间能(néng)够(gòu)达(dá)到的最高段位(wèi)是(shì)十一段,称为“天凤位(wèi)”。

    自天凤(fèng)平台在2006年推出以来,全球范(fàn)围内达(dá)到四人麻将(四(sì)麻)天(tiān)凤位的(de)雀士也不过13人,曾经达到过(guò)十段的玩家约(yuē)有180位,而现役十段的人(rén)类玩家仅有(yǒu)十几位。

    微(wēi)软亚(yà)洲研(yán)究院开发的麻将AI Suphx在今年(nián)3月份开始登录(lù)天凤平台,经过近三个(gè)多月、与人(rén)类玩家展开(kāi)了(le)5000余场四麻(má)对局(jú)后,6月份Suphx成功晋级天凤十段,也是首(shǒu)个晋级十段的(de)AI系统。

    这次 AI 突破的是麻将!

    图:天凤平(píng)台(tái)“天凤(fèng)位”和“现役十段”名单

    在5000余场对局中,Suphx的稳定段位超(chāo)过了8.7。这样的稳(wěn)定(dìng)段位是(shì)一(yī)个极高的数字。

    据统计(jì),天凤平台的所有顶级人类玩家在取得十(shí)段后,在“特上房”共参加过近万场比赛(sài),整体稳定段位为7.4。与所有取得过天凤十(shí)段的顶级人(rén)类玩(wán)家(jiā)相(xiàng)比,Suphx在特上房的稳定水平要领先约1.3个段位。

    这次 AI 突破的是麻将!

    此前(qián),天凤平台还(hái)活跃着另外两个麻将AI系统,由东京大学(xué)在(zài)2015年(nián)开发的“爆打”和 Dwango 公(gōng)司于(yú) 2018 年开(kāi)发的基于深度(dù)学习模型的“NAGA25”,二(èr)者的(de)稳定段位均在6.5左右。

    事(shì)实上,在晋级十段(duàn)之前,Suphx很长一段时间稳(wěn)定在九段,其(qí)独特的打牌风格在(zài)麻将领域(yù)刮起了不小的“AI风”,很多麻(má)友都尝试(shì)从中学(xué)习(xí)新的打(dǎ)牌方式,并且在中国,很多麻友亲切地称她为“苏菲老师”、“苏菲(fēi)姐姐”。


    这次(cì) AI 突破的(de)是麻将!这(zhè)次 AI 突破的是麻将!

    图:bilibili网(wǎng)站Suphx牌局解析下用户留(liú)言

    此外,麻将领域神一(yī)级存在、被天凤平台冠为“God of mahjong”的朝仓康心(天(tiān)凤ID:ASAPIN)也曾表示(shì):“我(wǒ)看了Suphx的比赛,我感觉它好像比我更强大!”

      二、麻(má)将AI难在哪里?

    为什么说麻将AI战胜人(rén)类(lèi),是游戏(xì)AI的又一次(cì)重大突破呢?因为麻(má)将(jiāng)AI相(xiàng)比于棋类(lèi)游戏(例(lì)如(rú)国际象棋、围棋(qí)等)更(gèng)难。

    这里需(xū)要(yào)解释的一(yī)个问题是,游(yóu)戏的复杂度与游(yóu)戏的(de)难度并不(bú)完全等价,游戏难度除了(le)与游戏本身的复杂度有关以外(wài),还与战略等多种要素(sù)相关,也就是说,数学上(shàng)更复杂的游戏,玩起来不(bú)一定更难。

    一(yī)般来说,我们(men)可以根据信息的暴露程度可以将游戏分(fèn)为(wéi)两大类:完美信息(xī)游戏(Perfect-Information Games)和(hé)非完美信息游(yóu)戏(Imperfect-InformationGames)。如果(guǒ)所有的参与者(zhě),在(zài)游戏的任何阶段都可(kě)以访问(wèn)所(suǒ)有关于游戏(包(bāo)括(kuò)对(duì)手)状(zhuàng)态及其可(kě)能延续的(de)信息,那么称这类游戏为完(wán)美信息游戏;否(fǒu)则称为非(fēi)完(wán)美信息游戏(xì)。

    围棋、象棋等棋(qí)类游戏,对局双(shuāng)方可以(yǐ)看到局面的所(suǒ)有信息,属于完美信息游戏;而扑(pū)克、桥牌、麻将等游戏,虽然(rán)每个参与者都能看到对(duì)手(shǒu)打过(guò)的牌,但并不知(zhī)道对手的手牌和游戏的(de)底牌,也就是说各个对(duì)局者(zhě)所(suǒ)掌握的信息(xī)是不对称的,因此属于不完美(měi)信息游戏。

    完美信息游戏和(hé)非完美信息游戏(xì)难度(dù)的衡量指标通常(cháng)是有区别的。

    对(duì)于完美信息游(yóu)戏,通常游戏(xì)的复(fù)杂度就决定了难度,我们可(kě)以用状态空间复杂度(State-Space Complexity)和游(yóu)戏树复(fù)杂度(dù)(Game-TreeComplexity)对其难(nán)度进(jìn)行衡量:

    这次 AI 突破的(de)是麻将!

    图:完美信息游戏的(de)状态空间复杂(zá)度和游戏树复杂(zá)度

    可(kě)以看出(chū),对于传统(tǒng)的(de)完美信息棋类游戏中,围棋不管从状(zhuàng)态空间复杂度,还是游戏树复杂度上都远远领先其他棋类游戏。2017年(nián),AlphaZero 利用MCTS 和深(shēn)度强化学习,成(chéng)功解决了包括围棋在内的多个完美信息游戏。我们(men)也有理由相(xiàng)信,只要算力足够,对(duì)于更加复杂(zá)的棋(qí)类游戏,我们(men)都能通过已有(yǒu)的方法(fǎ)得到解(jiě)决。

    而另一方面,对于非完美信息游(yóu)戏,隐藏(cáng)信息对于游戏的难度影响很(hěn)大。例如麻将,参与者只能看到他手(shǒu)中的13张牌的信息,对(duì)于另外三家(jiā)的手牌以及剩(shèng)余的底牌(pái)则(zé)完全不知。由于(yú)这(zhè)种信息的不完全、非对称性(xìng),对于(yú)参与者来说许多不同的游戏状(zhuàng)态(tài)看起来是无(wú)法区(qū)分的。

    显然,对于非完美信息游戏而言(yán),合理的游戏策略应该建立在信息集而不(bú)是游戏状(zhuàng)态之上。相应地,当(dāng)我们衡量(liàng)非(fēi)完美信息游戏的难度的时(shí)候,也应该依据信息集的数目,而不是游(yóu)戏状(zhuàng)态空(kōng)间的大小(xiǎo)。信(xìn)息集的数目通常(cháng)小(xiǎo)于状态空(kōng)间的数目。

    对于完美信息游戏,由于所有信息都是已知的,每个信息集只包含一个游(yóu)戏状态,因此它(tā)的信息集数目与状态空(kōng)间数目是(shì)相等的(de)。

    除了信息集(jí)的数目,还有一个重要的(de)指标:信(xìn)息集的平均大(dà)小,即(jí)在信息集(jí)中平均有多(duō)少不可(kě)区(qū)分(fèn)的(de)游戏状态。

    按照这两个标准来衡量非完美信息游戏的难度:

    这次 AI 突(tū)破的是麻将!

    图:非完美信息游戏(xì)的信息集数目和信息集(jí)平均大小

    2017年(nián)卡耐(nài)基梅隆大学和阿尔伯特大学相继发布了Libratus 和 DeepStack,在两人无限注德州扑克上成功击败了世界(jiè)顶(dǐng)级人类玩(wán)家。

    我(wǒ)们可以以信息集数目和(hé)信息集平均大小为准则(zé),来对比像完美信息游戏和非完美信息游戏:

    这次 AI 突(tū)破的是(shì)麻将!

    图(tú):围棋、德(dé)州扑克、桥牌(pái)和麻将(jiāng)的信息集数目和信息集平均(jun1)大小对比

    从图中可以(yǐ)看出,围棋和德州扑克(kè)的信息集平均大小(xiǎo)远远小于(yú)桥牌和麻将。目前的(de)AI在围棋和德州扑克上的(de)成功很(hěn)大程度(dù)依赖于搜(sōu)索(suǒ)算法,因为搜索可以最大程度地发(fā)挥计算机(jī)的计算优(yōu)势。但是因为(wéi)巨大的信息集平均大小(xiǎo)带来的环(huán)境不确定(dìng)性,传统的(de)搜索算法在桥牌和麻将面前很难发挥同样的功效。

    这次 AI 突破的是麻将!

    图:游戏 AI 发展历史

    如果把(bǎ)过去(qù)的游戏AI的研究看(kàn)做“一维(wéi)延展”(信(xìn)息集数目)的话,那么(me)德州扑(pū)克则是向二维方向(信息集平均大小)的初始(shǐ)尝试。但(dàn)整个二维平面还有更广阔的的空间需要(yào)探索,这(zhè)需要我们发(fā)明全新(xīn)的方法论(lùn),同时这(zhè)也将成为游(yóu)戏AI的一个主要研究方向(xiàng)。

    三、技术详(xiáng)解

    具(jù)体到麻(má)将(jiāng)这(zhè)个游戏。

    一方(fāng)面,136张麻将牌的排列组合可能性(xìng)非常多(duō),再加上打牌过程(chéng)中4位玩家出牌的顺序并不是固(gù)定的(例如碰杠等),导致游戏树不仅不规则(zé)而且还是动态变化。这些特点使得(dé)麻将AI很难使用(yòng)AlphaGo那样的蒙特卡洛(luò)树搜索算法(fǎ)。

    其次是非(fēi)完美信息(xī)问(wèn)题。麻将中每个玩家(jiā)除(chú)了手中的13张牌和已经(jīng)打出的牌外,其他玩家手中的牌和剩余的底牌都是未(wèi)知的(最(zuì)多可以有超过120张未知的牌),由于隐藏(cáng)信息过多导(dǎo)致游戏树的宽度非常大,树搜索算法基本不可行。

    另外还需要注意(yì)的就是麻将本身的(de)奖励机制,毕(bì)竟这(zhè)才是评判胜负(fù)的标(biāo)准。对于日本麻将而言,一轮游(yóu)戏(xì)共包含8局,最后根据8局得分(fèn)总和进(jìn)行(háng)排名,来形成最终影响(xiǎng)段(duàn)位的点(diǎn)数奖(jiǎng)惩。因此(cǐ)有时麻将高手会策(cè)略性(xìng)输牌,以保证自己(jǐ)在最终结算时(shí)获(huò)得最大的点数奖励。这(zhè)为构建高(gāo)超的麻(má)将AI策略(luè)带来了(le)额外的挑战,AI需要审时度势,把握进攻与(yǔ)防守的时机。

    微软亚洲研究院的几位研究员针对麻将(jiāng)的这些特点,将整个训练过程分为三(sān)个阶段。

    首先是“初始化”阶段,本质上就是用(yòng)专(zhuān)家数(shù)据(天凤平台提供(gòng)的一些公开数(shù)据)做有监督学习,得(dé)到一个初始模型。

    这(zhè)次 AI 突破的是麻将!

    图:先知教练,即(jí)利用隐藏信息指导AI模型训练方向(xiàng)。

    随后(hòu)在(zài)这个(gè)初始模(mó)型基础上用(yòng)自我博弈的方式(shì)进(jìn)行强化学习。在这个阶(jiē)段,为了克服非完(wán)美信息博(bó)弈的问题,研究者(zhě)在(zài)训练阶(jiē)段利用不可(kě)见的一些隐藏信息来引导AI模(mó)型的训练方向(xiàng),让它的(de)学习路径更加清晰、更加接近完美信(xìn)息意义下的最优路径,从(cóng)而(ér)倒逼AI模型更加深入地理解可(kě)见信息,从中找(zhǎo)到有效的决策依据(jù)。他们(men)称之(zhī)为“先知教练(liàn)”技术。

    与(yǔ)此同时,对于麻将复杂的(de)牌(pái)面表达和计(jì)分机制,研究团(tuán)队还利(lì)用“全(quán)盘预测”技术(shù)搭建起每轮比赛和8轮过后的终盘结果之间的桥梁。这个预测器通过精巧的设计,可以理解每轮比赛(sài)对终盘的不同贡献,从而(ér)将终盘的奖励信号(hào)合理地分配回每一轮比赛之中,以便对自我博弈(yì)的过(guò)程进行更加直接而有效的指导(dǎo),并使得Suphx可以学会一些具(jù)有大局(jú)观的高级技巧。

    为了应对巨大的状态(tài)空(kōng)间,研究团队(duì)引(yǐn)入全新(xīn)的机制对探索过程的多样性进行(háng)动态调控,让Suphx可以比传统算法更加充分地试探牌局(jú)状态的(de)不(bú)同可能。另(lìng)一(yī)方面,一旦某一轮的(de)底牌给定,其状态子空间会大幅缩(suō)小,所以研究团队让Suphx在(zài)推(tuī)理阶段根据本轮的牌局来(lái)动态调(diào)整策略(luè),对(duì)缩小(xiǎo)了的状态(tài)子空间进行更有针(zhēn)对性的探索,从(cóng)而更好(hǎo)地(dì)根据本轮牌局的演(yǎn)进做出(chū)自适应的决策。

    第三(sān)个阶段则是在线比赛,通(tōng)过不断(duàn)参与到与人类玩家的(de)对局中,从而不断得到自我更新和提(tí)高。

    自今年3月进入天(tiān)凤平台以(yǐ)来,Suphx在与人类玩家的对局中(zhōng)学得非常快。目前,在平衡攻击和防御方面,Suphx表现出了比(bǐ)许(xǔ)多顶(dǐng)尖人类(lèi)玩家更明智的(de)策略,能够战略(luè)性地完成短期损失与(yǔ)长期收益之间的权衡,并根据已有的模糊信息(xī)进行快速(sù)决(jué)策。

    四(sì)、开拓游戏AI二次元

    尽管目前(qián)来看Suphx在天凤平(píng)台上只(zhī)是达到(dào)十段水(shuǐ)平,距离(lí)“天凤位”还(hái)有一定距离(lí),但我们可(kě)以相信(xìn)一(yī)旦天凤平台(tái)开放权(quán)限,Suphx达(dá)到并超越(yuè)“天凤(fèng)位”的诸位玩家将指日(rì)可待,这也将成为继AlphaGo之后再次挑战人(rén)类认知(zhī)的历史事件(jiàn)。

    不过它的意义并不仅在于“震(zhèn)惊”,更在于对研究和应用方向的开拓。

    正如前面提到的,麻将(jiāng)AI的研(yán)究为(wéi)游戏(xì)AI在“第二维度(dù)”开(kāi)辟了新的(de)方向,并进行了极大(dà)地拓展。我(wǒ)们可以期(qī)待未来在(zài)“第二维(wéi)度”上将会有更多的研究出(chū)现。甚(shèn)至为了更(gèng)进一步拓展研究范围,可(kě)能会有一(yī)些研究(jiū)人员发明出(chū)具(jù)有更大信息集数(shù)目(mù)和更(gèng)大信息集平均大小(xiǎo)的新游戏(xì)来。这不是不可能(néng)。

    此(cǐ)外(wài),我们所生(shēng)活的世界也正是一个非完美信息(xī)的决策过(guò)程,麻将(jiāng)游戏中复(fù)杂的(de)推理策略(luè)和带有随机性(xìng)的博弈过(guò)程,比(bǐ)完(wán)美信(xìn)息游戏更加贴近人类复杂的真(zhēn)实生活。我(wǒ)们同样可(kě)以期待,对非完美信(xìn)息游戏的研究,将(jiāng)有助于我们开发出适用于(yú)真实(shí)生(shēng)活场景的(de)更加“智能(néng)”的AI系统。

    当然(rán),最直接的意义(yì)还(hái)在于,Suphx“苏菲(fēi)老师”在牌(pái)风上已经自(zì)成一派,创造了许多新的策略和打法,这将直接改变麻(má)将社区(qū)的(de)生态。许多麻将(jiāng)爱好者已经开始(shǐ)学(xué)习Suphx的打(dǎ)法来提升和丰富自己的麻(má)将技巧,这其中包括天凤(fèng)位的大神太くないお,他是世界上第(dì)15位三人麻将天(tiān)凤(fèng)位获得者,也是第(dì)一位在四人(rén)麻将和三人麻将中均取(qǔ)得(dé)天凤位的顶(dǐng)级(jí)玩家。他表示(shì):“我已经看了300多场Suphx的比赛,我甚至(zhì)不(bú)再观看(kàn)人类玩家的比赛了。我从Suphx身(shēn)上学到很多新技术,它们对于我(wǒ)的三人麻将打(dǎ)法(fǎ)有着非常大(dà)的启发意(yì)义。”

    期(qī)待“苏菲(fēi)老师(shī)”晋升天凤位。

    雷锋网(wǎng)报道。

    关键词(cí):




    AI人工(gōng)智能网(wǎng)声明:

    凡资讯来源(yuán)注(zhù)明为其(qí)他(tā)媒体来源的(de)信(xìn)息,均为转载自其他媒体,并不代(dài)表本网站赞同其观点,也不(bú)代表本(běn)网站对其真实性负责。您若对该(gāi)文章内容有任何疑问(wèn)或质疑,请立(lì)即与网站(www.bz.xinxiang.zz.pingliang.ww38.viennacitytours.com)联系,本网站将迅速给您回应并做处理。


    联系电(diàn)话:021-31666777   新闻、技术文章投稿QQ:3267146135   投稿邮箱:syy@gongboshi.com

    精选(xuǎn)资讯更多(duō)

    相(xiàng)关(guān)资讯更(gèng)多

    热门搜索

    工博(bó)士人工(gōng)智能网
    乐动网页版_乐动(中国)
    扫描二维码关注微信(xìn)
    扫码反馈

    扫一扫,反馈当前(qián)页面

    咨询反(fǎn)馈
    扫码(mǎ)关注

    微信(xìn)公众号(hào)

    返(fǎn)回顶部

    乐动网页版_乐动(中国)

    乐动网页版_乐动(中国)