乐动网页版_乐动(中国)

“十段”是（shì）什么概念呢？天凤平台（tái）上，全球范围内现役十段的人类选手仅十几位。Suphx取得“十段”的成绩，大（dà）致可相当于围（wéi）棋中AlphaGo挑战胜了李世石。

这是一个不凡的成绩。

从AI这门（mén）学科（kē）诞生之（zhī）日起，游戏AI始终与（yǔ） AI 研（yán）究进展相（xiàng）生（shēng）相伴，跳棋、双陆棋、国际象棋和围棋，都曾先后推动了AI的发展。

这次（cì） AI 突（tū）破的是麻（má）将！

图：MarionTinsley 与（yǔ） Chinook 对战（左）；GarryKasparov 与 Deep Blue 对战（zhàn）（右）

这些棋（qí）类游戏有共同（tóng）之处是，1）它们均有一个简单而清晰的（de）规则，有清晰的胜负（fù）判（pàn）定条（tiáo）件和行（háng）动准则；2）博（bó）弈双方能（néng）够查看所有（yǒu）游戏状态；3）在（zài）公众认（rèn）知（zhī）中，掌握和（hé）精通（tōng）这些棋牌类游（yóu）戏往往在一定（dìng）程度上是（shì）人类智（zhì）力的彰显。

相比（bǐ）以上这几种棋类游戏，麻（má）将却（què）是规则复杂、胜负判定繁琐（suǒ）、信（xìn）息非完（wán）全公开（kāi）的，且更（gèng）重要的是在公众认知中麻将更多（duō）地有（yǒu）“运气”和“凭直（zhí）觉”的成（chéng）分（fèn）。

因此麻将AI若能取得（dé）超（chāo）越人类的水平，可以期待它将带来新的（de）一波热潮。

一、Suphx的晋级之路（lù）

“天凤”是日本（不要问为什么不是（shì）中国四川）的一个在线麻将（jiāng）竞技平台（tái），创立（lì）于2006年。因（yīn）其完善的竞技规则（zé）、专业的段位体系，很快便（biàn）成为业界知（zhī）名（míng）的高水（shuǐ）平专业麻将平台，受到职业麻将界（jiè）的广泛承认。

这次 AI 突破的是麻将！

图：天风平台logo，by tenhou

我们（men）知道，麻（má）将（jiāng）的输赢与（yǔ）围棋不（bú）一样，并不仅仅取决于（yú）玩（wán）家的实力，还取决（jué）于抓到的手（shǒu）牌（pái）等（děng），如果一个人运气比较差，拿到一手烂（làn）牌，可能再强的实（shí）力（lì）也只（zhī）能是（shì）输得不那（nà）么难看（kàn）。所以，麻将不像围（wéi）棋一样（yàng），不能单靠（kào）一轮对弈，而是要通过多轮（甚至（zhì）上千轮）对弈才能看出一个雀士的实力。

天（tiān）凤的评价制度，采用Rating制和段位制并行的制度（dù）。刚刚注册时等（děng）级从（cóng）“新人”开始，点数(pt)会根据（jù）游戏的情（qíng）况增（zēng）减（jiǎn），并最终决定（dìng）雀（què）士的升段（duàn）（升级（jí））和降段（降（jiàng）级）。玩家的段位越（yuè）高，在比赛中排位第四受到（dào）的点数（shù）惩罚也越多，点（diǎn）数扣（kòu）除到一定程度会（huì）导致降段。按照这种规（guī）则，如果雀士（shì）的实（shí）力（lì）水平一定的话，自己的（de）等级也会（huì）相对地稳定在某一个段（duàn）位上。

根据段（duàn）位，游戏（xì）者可（kě）以使用的（de）桌也会发（fā）生变化。天（tiān）凤平台为（wéi）高水平麻（má）将玩家提（tí）供两种（zhǒng）竞技房间：“特上（shàng）房”对四段以上（shàng）所有玩家（jiā）免费开放（fàng），允（yǔn）许AI参与游戏，目前所（suǒ）有玩家（jiā）在此房间的（de）最高段（duàn）位是十段；“凤（fèng）凰房”仅对（duì）七段以上的人类付费玩家开放，目前不允许AI参与游戏，在该房间能（néng）够（gòu）达（dá）到的最高段位（wèi）是（shì）十一段，称为“天凤位（wèi）”。

自天凤（fèng）平台在2006年推出以来，全球范（fàn）围内达（dá）到四人麻将（四（sì）麻）天（tiān）凤位的（de）雀士也不过13人，曾经达到过（guò）十段的玩家约（yuē）有180位，而现役十段的人（rén）类玩家仅有（yǒu）十几位。

微（wēi）软亚（yà）洲研（yán）究院开发的麻将AI Suphx在今年（nián）3月份开始登录（lù）天凤平台，经过近三个（gè）多月、与人（rén）类玩家展开（kāi）了（le）5000余场四麻（má）对局（jú）后，6月份Suphx成功晋级天凤十段，也是首（shǒu）个晋级十段的（de）AI系统。

这次 AI 突破的是麻将！

图：天凤平（píng）台（tái）“天凤（fèng）位”和“现役十段”名单

在5000余场对局中，Suphx的稳定段位超（chāo）过了8.7。这样的稳（wěn）定（dìng）段位是（shì）一（yī）个极高的数字。

据统计（jì），天凤平台的所有顶级人类玩家在取得十（shí）段后，在“特上房”共参加过近万场比赛（sài），整体稳定段位为7.4。与所有取得过天凤十（shí）段的顶级人（rén）类玩（wán）家（jiā）相（xiàng）比，Suphx在特上房的稳定水平要领先约1.3个段位。

这次 AI 突破的是麻将！

此前（qián），天凤平台还（hái）活跃着另外两个麻将AI系统，由东京大学（xué）在（zài）2015年（nián）开发的“爆打”和 Dwango 公（gōng）司于（yú） 2018 年开（kāi）发的基于深度（dù）学习模型的“NAGA25”，二（èr）者的（de）稳定段位均在6.5左右。

事（shì）实上，在晋级十段（duàn）之前，Suphx很长一段时间稳（wěn）定在九段，其（qí）独特的打牌风格在（zài）麻将领域（yù）刮起了不小的“AI风”，很多麻（má）友都尝试（shì）从中学（xué）习（xí）新的打（dǎ）牌方式，并且在中国，很多麻友亲切地称她为“苏菲老师”、“苏菲（fēi）姐姐”。

这次（cì） AI 突破的（de）是麻将！这（zhè）次 AI 突破的是麻将！

图：bilibili网（wǎng）站Suphx牌局解析下用户留（liú）言

此外，麻将领域神一（yī）级存在、被天凤平台冠为“God of mahjong”的朝仓康心（天（tiān）凤ID：ASAPIN）也曾表示（shì）：“我（wǒ）看了Suphx的比赛，我感觉它好像比我更强大！”

二、麻（má）将AI难在哪里？

为什么说麻将AI战胜人（rén）类（lèi），是游戏（xì）AI的又一次（cì）重大突破呢？因为麻（má）将（jiāng）AI相（xiàng）比于棋类（lèi）游戏（例（lì）如（rú）国际象棋、围棋（qí）等）更（gèng）难。

这里需（xū）要（yào）解释的一（yī）个问题是，游（yóu）戏的复杂度与游（yóu）戏的（de）难度并不（bú）完全等价，游戏难度除了（le）与游戏本身的复杂度有关以外（wài），还与战略等多种要素（sù）相关，也就是说，数学上（shàng）更复杂的游戏，玩起来不（bú）一定更难。

一（yī）般来说，我们（men）可以根据信息的暴露程度可以将游戏分（fèn）为（wéi）两大类：完美信息（xī）游戏（Perfect-Information Games）和（hé）非完美信息游（yóu）戏（Imperfect-InformationGames）。如果（guǒ）所有的参与者（zhě），在（zài）游戏的任何阶段都可（kě）以访问（wèn）所（suǒ）有关于游戏（包（bāo）括（kuò）对（duì）手）状（zhuàng）态及其可（kě）能延续的（de）信息，那么称这类游戏为完（wán）美信息游戏；否（fǒu）则称为非（fēi）完（wán）美信息游戏（xì）。

围棋、象棋等棋（qí）类游戏，对局双（shuāng）方可以（yǐ）看到局面的所（suǒ）有信息，属于完美信息游戏；而扑（pū）克、桥牌、麻将等游戏，虽然（rán）每个参与者都能看到对（duì）手（shǒu）打过（guò）的牌，但并不知（zhī）道对手的手牌和游戏的（de）底牌，也就是说各个对（duì）局者（zhě）所（suǒ）掌握的信息（xī）是不对称的，因此属于不完美（měi）信息游戏。

完美信息游戏和（hé）非完美信息游戏（xì）难度（dù）的衡量指标通常（cháng）是有区别的。

对（duì）于完美信息游（yóu）戏，通常游戏（xì）的复（fù）杂度就决定了难度，我们可（kě）以用状态空间复杂度（State-Space Complexity）和游（yóu）戏树复（fù）杂度（dù）（Game-TreeComplexity）对其难（nán）度进（jìn）行衡量：

这次 AI 突破的（de）是麻将！

图：完美信息游戏的（de）状态空间复杂（zá）度和游戏树复杂（zá）度

可（kě）以看出（chū），对于传统（tǒng）的（de）完美信息棋类游戏中，围棋不管从状（zhuàng）态空间复杂度，还是游戏树复杂度上都远远领先其他棋类游戏。2017年（nián），AlphaZero 利用MCTS 和深（shēn）度强化学习，成（chéng）功解决了包括围棋在内的多个完美信息游戏。我们（men）也有理由相（xiàng）信，只要算力足够，对（duì）于更加复杂（zá）的棋（qí）类游戏，我们（men）都能通过已有（yǒu）的方法（fǎ）得到解（jiě）决。

而另一方面，对于非完美信息游（yóu）戏，隐藏（cáng）信息对于游戏的难度影响很（hěn）大。例如麻将，参与者只能看到他手（shǒu）中的13张牌的信息，对（duì）于另外三家（jiā）的手牌以及剩（shèng）余的底牌（pái）则（zé）完全不知。由于（yú）这（zhè）种信息的不完全、非对称性（xìng），对于（yú）参与者来说许多不同的游戏状（zhuàng）态（tài）看起来是无（wú）法区（qū）分的。

显然，对于非完美信息游戏而言（yán），合理的游戏策略应该建立在信息集而不（bú）是游戏状（zhuàng）态之上。相应地，当（dāng）我们衡量（liàng）非（fēi）完美信息游戏的难度的时（shí）候，也应该依据信息集的数目，而不是游（yóu）戏状（zhuàng）态空（kōng）间的大小（xiǎo）。信（xìn）息集的数目通常（cháng）小（xiǎo）于状态空（kōng）间的数目。

对于完美信息游戏，由于所有信息都是已知的，每个信息集只包含一个游（yóu）戏状态，因此它（tā）的信息集数目与状态空（kōng）间数目是（shì）相等的（de）。

除了信息集（jí）的数目，还有一个重要的（de）指标：信（xìn）息集的平均大（dà）小，即（jí）在信息集（jí）中平均有多（duō）少不可（kě）区（qū）分（fèn）的（de）游戏状态。

按照这两个标准来衡量非完美信息游戏的难度：

这次 AI 突（tū）破的是麻将！

图：非完美信息游戏（xì）的信息集数目和信息集（jí）平均大小

2017年（nián）卡耐（nài）基梅隆大学和阿尔伯特大学相继发布了Libratus 和 DeepStack，在两人无限注德州扑克上成功击败了世界（jiè）顶（dǐng）级人类玩（wán）家。

我（wǒ）们可以以信息集数目和（hé）信息集平均大小为准则（zé），来对比像完美信息游戏和非完美信息游戏：

这次 AI 突（tū）破的是（shì）麻将！

图（tú）：围棋、德（dé）州扑克、桥牌（pái）和麻将（jiāng）的信息集数目和信息集平均（jun1）大小对比

从图中可以（yǐ）看出，围棋和德州扑克（kè）的信息集平均大小（xiǎo）远远小于（yú）桥牌和麻将。目前的（de）AI在围棋和德州扑克上的（de）成功很（hěn）大程度（dù）依赖于搜（sōu）索（suǒ）算法，因为搜索可以最大程度地发（fā）挥计算机（jī）的计算优（yōu）势。但是因为（wéi）巨大的信息集平均大小（xiǎo）带来的环（huán）境不确定（dìng）性，传统的（de）搜索算法在桥牌和麻将面前很难发挥同样的功效。

这次 AI 突破的是麻将！

图：游戏 AI 发展历史

如果把（bǎ）过去（qù）的游戏AI的研究看（kàn）做“一维（wéi）延展”（信（xìn）息集数目）的话，那么（me）德州扑（pū）克则是向二维方向（信息集平均大小）的初始（shǐ）尝试。但（dàn）整个二维平面还有更广阔的的空间需要（yào）探索，这（zhè）需要我们发（fā）明全新（xīn）的方法论（lùn），同时这（zhè）也将成为游（yóu）戏AI的一个主要研究方向（xiàng）。

三、技术详（xiáng）解

具（jù）体到麻（má）将（jiāng）这（zhè）个游戏。

一方（fāng）面，136张麻将牌的排列组合可能性（xìng）非常多（duō），再加上打牌过程（chéng）中4位玩家出牌的顺序并不是固（gù）定的（例如碰杠等），导致游戏树不仅不规则（zé）而且还是动态变化。这些特点使得（dé）麻将AI很难使用（yòng）AlphaGo那样的蒙特卡洛（luò）树搜索算法（fǎ）。

其次是非（fēi）完美信息（xī）问（wèn）题。麻将中每个玩家（jiā）除（chú）了手中的13张牌和已经（jīng）打出的牌外，其他玩家手中的牌和剩余的底牌都是未（wèi）知的（最（zuì）多可以有超过120张未知的牌），由于隐藏（cáng）信息过多导（dǎo）致游戏树的宽度非常大，树搜索算法基本不可行。

另外还需要注意（yì）的就是麻将本身的（de）奖励机制，毕（bì）竟这（zhè）才是评判胜负（fù）的标（biāo）准。对于日本麻将而言，一轮游（yóu）戏（xì）共包含8局，最后根据8局得分（fèn）总和进（jìn）行（háng）排名，来形成最终影响（xiǎng）段（duàn）位的点（diǎn）数奖（jiǎng）惩。因此（cǐ）有时麻将高手会策（cè）略性（xìng）输牌，以保证自己（jǐ）在最终结算时（shí）获（huò）得最大的点数奖励。这（zhè）为构建高（gāo）超的麻（má）将AI策略（luè）带来了（le）额外的挑战，AI需要审时度势，把握进攻与（yǔ）防守的时机。

微软亚洲研究院的几位研究员针对麻将（jiāng）的这些特点，将整个训练过程分为三（sān）个阶段。

首先是“初始化”阶段，本质上就是用（yòng）专（zhuān）家数（shù）据（天凤平台提供（gòng）的一些公开数（shù）据）做有监督学习，得（dé）到一个初始模型。

这（zhè）次 AI 突破的是麻将！

图：先知教练，即（jí）利用隐藏信息指导AI模型训练方向（xiàng）。

随后（hòu）在（zài）这个（gè）初始模（mó）型基础上用（yòng）自我博弈的方式（shì）进（jìn）行强化学习。在这个阶（jiē）段，为了克服非完（wán）美信息博（bó）弈的问题，研究者（zhě）在（zài）训练阶（jiē）段利用不可（kě）见的一些隐藏信息来引导AI模（mó）型的训练方向（xiàng），让它的（de）学习路径更加清晰、更加接近完美信（xìn）息意义下的最优路径，从（cóng）而（ér）倒逼AI模型更加深入地理解可（kě）见信息，从中找（zhǎo）到有效的决策依据（jù）。他们（men）称之（zhī）为“先知教练（liàn）”技术。

与（yǔ）此同时，对于麻将复杂的（de）牌（pái）面表达和计（jì）分机制，研究团（tuán）队还利（lì）用“全（quán）盘预测”技术（shù）搭建起每轮比赛和8轮过后的终盘结果之间的桥梁。这个预测器通过精巧的设计，可以理解每轮比赛（sài）对终盘的不同贡献，从而（ér）将终盘的奖励信号（hào）合理地分配回每一轮比赛之中，以便对自我博弈（yì）的过（guò）程进行更加直接而有效的指导（dǎo），并使得Suphx可以学会一些具（jù）有大局（jú）观的高级技巧。

为了应对巨大的状态（tài）空（kōng）间，研究团队（duì）引（yǐn）入全新（xīn）的机制对探索过程的多样性进行（háng）动态调控，让Suphx可以比传统算法更加充分地试探牌局（jú）状态的（de）不（bú）同可能。另（lìng）一（yī）方面，一旦某一轮的（de）底牌给定，其状态子空间会大幅缩（suō）小，所以研究团队让Suphx在（zài）推（tuī）理阶段根据本轮的牌局来（lái）动态调（diào）整策略（luè），对（duì）缩小（xiǎo）了的状态（tài）子空间进行更有针（zhēn）对性的探索，从（cóng）而更好（hǎo）地（dì）根据本轮牌局的演（yǎn）进做出（chū）自适应的决策。

第三（sān）个阶段则是在线比赛，通（tōng）过不断（duàn）参与到与人类玩家的（de）对局中，从而不断得到自我更新和提（tí）高。

自今年3月进入天（tiān）凤平台以（yǐ）来，Suphx在与人类玩家的对局中（zhōng）学得非常快。目前，在平衡攻击和防御方面，Suphx表现出了比（bǐ）许（xǔ）多顶（dǐng）尖人类（lèi）玩家更明智的（de）策略，能够战略（luè）性地完成短期损失与（yǔ）长期收益之间的权衡，并根据已有的模糊信息（xī）进行快速（sù）决（jué）策。

四（sì）、开拓游戏AI二次元

尽管目前（qián）来看Suphx在天凤平（píng）台上只（zhī）是达到（dào）十段水（shuǐ）平，距离（lí）“天凤位”还（hái）有一定距离（lí），但我们可（kě）以相信（xìn）一（yī）旦天凤平台（tái）开放权（quán）限，Suphx达（dá）到并超越（yuè）“天凤（fèng）位”的诸位玩家将指日（rì）可待，这也将成为继AlphaGo之后再次挑战人（rén）类认知（zhī）的历史事件（jiàn）。

不过它的意义并不仅在于“震（zhèn）惊”，更在于对研究和应用方向的开拓。

正如前面提到的，麻将（jiāng）AI的研（yán）究为（wéi）游戏（xì）AI在“第二维度（dù）”开（kāi）辟了新的（de）方向，并进行了极大（dà）地拓展。我（wǒ）们可以期（qī）待未来在（zài）“第二维（wéi）度”上将会有更多的研究出（chū）现。甚（shèn）至为了更（gèng）进一步拓展研究范围，可（kě）能会有一（yī）些研究（jiū）人员发明出（chū）具（jù）有更大信息集数（shù）目（mù）和更（gèng）大信息集平均大小（xiǎo）的新游戏（xì）来。这不是不可能（néng）。

此（cǐ）外（wài），我们所生（shēng）活的世界也正是一个非完美信息（xī）的决策过（guò）程，麻将（jiāng）游戏中复（fù）杂的（de）推理策略（luè）和带有随机性（xìng）的博弈过（guò）程，比（bǐ）完（wán）美信（xìn）息游戏更加贴近人类复杂的真（zhēn）实生活。我（wǒ）们同样可（kě）以期待，对非完美信（xìn）息游戏的研究，将（jiāng）有助于我们开发出适用于（yú）真实（shí）生（shēng）活场景的（de）更加“智能（néng）”的AI系统。

当然（rán），最直接的意义（yì）还（hái）在于，Suphx“苏菲（fēi）老师”在牌（pái）风上已经自（zì）成一派，创造了许多新的策略和打法，这将直接改变麻（má）将社区（qū）的（de）生态。许多麻将（jiāng）爱好者已经开始（shǐ）学（xué）习Suphx的打（dǎ）法来提升和丰富自己的麻（má）将技巧，这其中包括天凤（fèng）位的大神太くないお，他是世界上第（dì）15位三人麻将天（tiān）凤（fèng）位获得者，也是第（dì）一位在四人（rén）麻将和三人麻将中均取（qǔ）得（dé）天凤位的顶（dǐng）级（jí）玩家。他表示（shì）：“我已经看了300多场Suphx的比赛，我甚至（zhì）不（bú）再观看（kàn）人类玩家的比赛了。我从Suphx身（shēn）上学到很多新技术，它们对于我（wǒ）的三人麻将打（dǎ）法（fǎ）有着非常大（dà）的启发意（yì）义。”

期（qī）待“苏菲（fēi）老师（shī）”晋升天凤位。

雷锋网（wǎng）报道。