揭秘：大战柯洁的AlphaGo究竟如何决定落子？

我的位置：经济 > 流量研究所 > 文章详情

分享至：

(1)

(0)

来源：上观新闻作者：任翀 2017-05-23 15:44

摘要：AlphaGo是机器学习的产物。

5月23日，中国著名棋手柯洁九段在与谷歌人工智能系统AlphaGo的“人机大战”中，先失一局。 “AlphaGo”到底是什么？究竟如何落子？解放日报·上观新闻记者得到了此次大赛的官方解释。

AlphaGo已经是职业九段

一言以蔽之，AlphaGo是第一个击败人类职业围棋选手并战胜围棋世界冠军的程序。2016年3月，在全世界超过一亿观众的关注下，AlphaGo经过5局对弈，最终以4:1的总比分战胜了韩国棋手、围棋世界冠军李世石，这场比赛成为人工智能领域的一个重要里程碑，因为过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手。在这次比赛之后，AlphaGo凭借其“充满创意而又机智”的下法，跻身围棋界最高职业称号——职业九段行列，成为历史上首个获得这一荣誉的非人类棋手。

近期，AlphaGo的升级版本以“Master/Magister”的称谓与世界顶级的围棋选手进行了60场线上快棋对局，取得了全胜。

如何进行训练？

一直以来，围棋就被认为是传统游戏中对人工智能最具挑战性的项目。这不仅仅是因为围棋包含了庞大的搜索空间，更是因为对于落子位置的评估难度已远远超过了简单的启发式算法。

为了应对围棋的巨大复杂性，AlphaGo采用了一种新颖的机器学习技术，结合了监督学习和强化学习的优势。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。然后，训练出一个价值网络（value network）对自我进行预测，以-1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。

这两个网络自身都十分强大，而AlphaGo将这两种网络整合进基于概率的蒙特卡罗树（MCTS）中，实现了它的真正优势。

最后，新版的AlphaGo产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

如何决定落子？

在获得棋局信息后，AlphaGo会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为AlphaGo的最终选择。

在经过先期的全盘探索和过程中，以及对最佳落子的不断揣摩后，AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

棋风怎么样？

在业内人士看来，AlphaGo最强大的地方，并不体现在具体某一手棋或者某个局部变化中，而是它在每一局棋里所展示出来的独特视角。所以，AlphaGo的棋风本身并不容易总结。

但是，总体来说，AlphaGo更倾向于使用一种自由、开放式的行棋风格。在它的世界里，没有什么先入为主的概念，也没有什么必须要遵守的规则，这让它得以打破常规，发现当前棋局中最高效的一手。在接下来的两局棋里，AlphaGo这种独特的对局哲学，常常让它下出违反第一感、但极具威力的一手棋。

虽然围棋是围地盘游戏，但事实上最具决定性的部分在于如何平衡棋盘上的各个局部。在这个点上，AlphaGo展现出了卓越的能力。尤其值得一提的是，AlphaGo对于外势的把控可以说到达了出神入化的地步。具体来说，它可以近乎准确地判断棋盘上现有棋子能给周围区域带来多大的影响力。虽说棋子的影响力本身很难衡量，但是AlphaGo的价值网络让它能够把棋盘上所有的棋子当作一个整体来考虑，因此它的判断几近精确。AlphaGo的这种能力，使得它能够把局部棋子的影响力，转变为全局的优势。

栏目主编：任翀文中图片：作者提供题图编辑：邵竞栏目邮箱：sh_chuangke@163.com

上一篇： 没有了

下一篇： 没有了